摘 要:Q-Learning 算法是一种基于价值函数的强化学习方法。传统的 Q-Learning 算法迭代效率低且容易陷入局部收敛,针对该劣势改进了算法,引入 A* 算法和动态搜索因子 ε。将改进后的动态 A*-Q-Learning 算法应用于三维复杂环境下无人机的航迹规划,分析无人机航迹规划结果的回报函数、探索步数和运行效率。结果表明,改进后的算法可使无人机在复杂环境下具有很强的自适应性;同时,动态搜索因子 ε 能有效地避免智能体在搜寻过程中陷入局部最优的状况,在复杂地形中能寻找到更优的路径。
关键词:无人机;航迹规划;A* 改进;动态搜索因子 ε;动态 A*-Q-Learning
DOI:10.19850/j.cnki.2096-4706.2021.09.001
基金项目:国家自然科学基金(61573012)
中图分类号:TP181;V279 文献标识码:A 文章编号:2096-4706(2021)09-0001-06
Improved Dynamic A*-Q-Learning Algorithm and Its Application in UAV Route Planning
CHENG Chuanbin1 ,NI Aichen2 ,FANG Xiangyu1 ,ZHANG Liang1
(1.School of Science,Wuhan University of Technology,Wuhan 430070,China; 2.School of Economics,Wuhan University of Technology,Wuhan 430070,China)
Abstract:The Q-Learning algorithm is a reinforcement learning method based on value functions. The traditional Q-Learning algorithm lacks efficiency in iteration and is easy to fall into local convergence. To solve the disadvantage,the algorithm is improved: introducing A* algorithm and dynamic search factor ε. The improved dynamic A*-Q-Learning algorithm is applied to the route planning of UAV in 3D complex environment,and the return function,exploration steps and operation efficiency of UAV route planning results are analyzed. The results demonstrate that the improved algorithm can enable UAV to have strong adaptability in the face of complex environment;meanwhile,dynamic search factors ε can effectively avoid the agent falling into the local optimal condition in the search process,and find a better path in complex terrain.
Keywords:UAV;route planning;A* improvement;dynamic search factor ε;dynamic A*-Q-Learning
参考文献:
[1] 秦智慧,李宁,刘晓彤,等。无模型强化学习研究综述 [J]. 计算机科学,2021,48(3):180-187.
[2] 韩忻辰,俞胜平,袁志明,等 . 基于 Q-Learning 的高速 铁路列车动态调度方法 [C]// 第 31 届中国过程控制会议(CPCC 2020). 徐州:中国自动化学会和中国自动化学会过程控制专业委 员会,2020:1.
[3] 张汝波,顾国昌,刘照德,等 . 强化学习理论、算法及应 用 [J]. 控制理论与应用,2000(5):637-642.
[4] 高阳,陈世福,陆鑫 . 强化学习研究综述 [J]. 自动化学报, 2004(1):86-100.
[5] MATHEW A,JOLLY M J,MATHEW J. Improved Residential Energy Management System Using Priority Double Deep Q-Learning [J].Sustainable Cities and Society,2021,69:102812.
[6] WEN S H,CHEN J H,LI Z,et al. Fuzzy Q-Learning obstacle avoidance algorithm of humanoid robot in unknown environment [C]// 第 37 届中国控制会议 . 武汉:中国自动化学会 控制理论专业委员会,2018:5.
[7] 朱志斌,王付永,尹艳辉,等 . 基于 Q-Learning 的离散 时间多智能体系统一致性 [J]. 控制理论与应用,2021,38(7): 997-1005.
[8] 蒋国飞,吴沧浦 . 基于 Q 学习算法和 BP 神经网络的倒立 摆控制 [J]. 自动化学报,1998(5):88-92.
[9] 胡嘉悦,李广文,章卫国,等 . 面向有人 / 无人机协同远 程作战的 IVMS 架构 [J/OL]. 航空学报:1-12[2021-04-30].http:// kns.cnki.net/kcms/detail/11.1929.V.20210326.1703.022.html.
[10] 王科银,石振,杨正才,等 . 改进强化学习算法应用于移 动机器人路径规划 [J/OL]. 计算机工程与应用:1-7[2021-04-28]. http://kns.cnki.net/kcms/detail/11.2127.TP.20210331.1016. 006.html.
[11] 吴蔚楠 . 多无人飞行器分布式任务规划技术研究 [D]. 哈尔滨:哈尔滨工业大学,2018.
[12] 张栋,李如飞,闫晓东,等 . 基于智能优化算法的集群 协同航迹规划方法研究 [J]. 战术导弹技术,2020(6):17-29+ 103.
[13] 阎昊,樊兴,夏学知 . 图结构与 Dijkstra 算法在无人机 航迹规划中的应用 [J]. 火力与指挥控制,2010,35(4):155- 157+160.
[14] 王宁,代冀阳,应进 . 基于改进势场的无人机编队恢复与 一致性仿真 [J/OL]. 系统仿真学报:1-16[2021-04-12].https:// doi.org/10.16182/j.issn1004731x.joss.20-0980.
[15] 陈诚,林秋婷,邱荣祖 . 基于随机规划模型的弹性木材 供应链网络优化 [J]. 森林与环境学报,2021,41(1):88-95.
[16] 郑书朋,郑淑涛,朱思滨,等 . 基于启发搜索策略的飞 行仿真系统实时调度算法 [J]. 沈阳工业大学学报,2011,33(1): 86-92.
[17] 张志文,张鹏,毛虎平,等 . 改进 A* 算法的机器人路径 规划研究 [J]. 电光与控制,2021,28(4):21-25.
[18] 程志,张志安,乐伟扬,等 . 基于 D* Lite 算法的三维 路径规划研究 [J]. 传感器与微系统,2020,39(12):71-73+77.
[19] 郝钏钏,方舟,李平 . 基于 Q 学习的无人机三维航迹规 划算法 [J]. 上海交通大学学报,2012,46(12):1931-1935.
[20] 封硕,舒红,谢步庆 . 基于改进深度强化学习的三维环 境路径规划 [J]. 计算机应用与软件,2021,38(1):250-255.
[21] 张思齐 . 基于部分可观测马尔科夫决策过程的干扰决策 研究 [D]. 西安:西安电子科技大学,2019.
[22] 秦旋,陈舒铃,乔任 . 复杂性视角下基于 Agent 智能体 的复杂工程社会风险演化研究 [J]. 软科学,2021,35(6):125- 131.
作者简介:程传斌(1998.01—),男,汉族,江西上饶人, 本科在读,研究方向:强化学习;倪艾辰(2000.06—),男,汉族, 江苏镇江人,本科在读,研究方向:数字经济;房翔宇(1999.12—), 男,汉族,河南永城人,本科在读,研究方向:人工智能和大数据; 通讯作者:张亮(1977.02—),男,汉族,湖北随州人,教授,博士, 研究方向:分布参数的控制理论。