Subtask-masked curriculum learning for reinforcement learning with application to UAV maneuver decision-making

被引：3

作者：

Hou, Yueqi ^{[1
,2
]}

Liang, Xiaolong ^{[1
,2
]}

Lv, Maolong ^{[1
]}

Yang, Qisong ^{[3
]}

Li, Yang ^{[3
]}

机构：

[1] Air Force Engn Univ, Air Traff Control & Nav Sch, Xian, Peoples R China

[2] Air Force Engn Univ, Shaanxi Key Lab Meta Synth Elect & Informat Syst, Xian, Peoples R China

[3] Delft Univ Technol, Fac Elect Engn Math & Comp Sci, Delft, Netherlands

来源：

ENGINEERING APPLICATIONS OF ARTIFICIAL INTELLIGENCE | 2023年 / 125卷

关键词：

Unmanned Aerial Vehicle; Maneuver decision-making; Reinforcement learning; Curriculum learning; Knowledge transfer; STRATEGY;

D O I：

10.1016/j.engappai.2023.106703

中图分类号：

TP [自动化技术、计算机技术];

学科分类号：

0812 ;

摘要：

Unmanned Aerial Vehicle (UAV) maneuver strategy learning remains a challenge when using Reinforcement Learning (RL) in this sparse reward task. In this paper, we propose Subtask-Masked curriculum learning for RL (SubMas-RL), an efficient RL paradigm that implements curriculum learning and knowledge transfer for UAV maneuver scenarios involving multiple missiles. First, this study introduces a novel concept known as subtask mask to create source tasks from a target task by masking partial subtasks. Then, a subtask-masked curriculum generation method is proposed to generate a sequenced curriculum by alternately conducting task generation and task sequencing. To establish efficient knowledge transfer and avoid negative transfer, this paper employs two transfer techniques, policy distillation and policy reuse, along with an explicit transfer condition that masks irrelevant knowledge. Experimental results demonstrate that our method achieves a 94.8% success rate in the UAV maneuver scenario, where the direct use of reinforcement learning always fails. The proposed RL framework SubMas-RL is expected to learn an effective policy in complex tasks with sparse rewards.

引用

页数：14

共 50 条

[1] Autonomous Maneuver Decision-Making Through Curriculum Learning and Reinforcement Learning With Sparse Rewards
Wei, Yujie
Zhang, Hongpeng
Wang, Yuan
Huang, Changqiang
[J]. IEEE ACCESS, 2023, 11 : 73543 - 73555
[2] A UAV Maneuver Decision-Making Algorithm for Autonomous Airdrop Based on Deep Reinforcement Learning
Li, Ke
Zhang, Kun
Zhang, Zhenchong
Liu, Zekun
Hua, Shuai
He, Jianliang
[J]. SENSORS, 2021, 21 (06)
[3] Maneuver Decision-Making through Automatic Curriculum Reinforcement Learning without Handcrafted Reward Functions
Wei, Yujie
Zhang, Hongpeng
Wang, Yuan
Huang, Changqiang
[J]. APPLIED SCIENCES-BASEL, 2023, 13 (16):
[4] UAVs Maneuver Decision-Making Method Based on Transfer Reinforcement Learning
Zhu, Jindong
Fu, Xiaowei
Qiao, Zhe
[J]. COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE, 2022, 2022 : 2399796
[5] Application of Reinforcement Learning in Multiagent Intelligent Decision-Making
Han, Xiaoyu
[J]. COMPUTATIONAL INTELLIGENCE AND NEUROSCIENCE, 2022, 2022
[6] Research on Air Confrontation Maneuver Decision-Making Method Based on Reinforcement Learning
Zhang, Xianbing
Liu, Guoqing
Yang, Chaojie
Wu, Jiang
[J]. ELECTRONICS, 2018, 7 (11):
[7] UAV swarm air combat maneuver decision-making method based on multi-agent reinforcement learning and transferring
Zheng, Zhiqiang
Wei, Chen
Duan, Haibin
[J]. SCIENCE CHINA-INFORMATION SCIENCES, 2024, 67 (08)
[8] UAV swarm air combat maneuver decision-making method based on multi-agent reinforcement learning and transferring
Zhiqiang ZHENG
Chen WEI
Haibin DUAN
[J]. Science China(Information Sciences)., 2024, 67 (08) - 66
[9] Reinforcement learning with hierarchical decision-making
Cohen, Shahar
Maimon, Oded
Khmlenitsky, Evgeni
[J]. ISDA 2006: SIXTH INTERNATIONAL CONFERENCE ON INTELLIGENT SYSTEMS DESIGN AND APPLICATIONS, VOL 3, 2006, : 177 - +
[10] Decision analysis and reinforcement learning in surgical decision-making
Loftus, Tyler J.
Filiberto, Amanda C.
Li, Yanjun
Balch, Jeremy
Cook, Allyson C.
Tighe, Patrick J.
Efron, Philip A.
Upchurch, Gilbert R., Jr.
Rashidi, Parisa
Li, Xiaolin
Bihorac, Azra
[J]. SURGERY, 2020, 168 (02) : 253 - 266

← 1 2 3 4 5 →