本公开实施例涉及无人机集群控制,尤其涉及一种基于强化学习的无人机集群协同对抗决策方法。
背景技术:
1、无人机作为一种新兴的作战平台,被广泛应用于侦察、监视、空中通信等多种任务。然而,传统的人工遥控方式受到通信距离、天气、电磁干扰等限制,已经无法适应复杂多变的应用场景。因此,提升无人机的智能化水平,使其能够根据态势因素进行自主决策,是未来无人机的重要发展方向。
2、强化学习已成为无人机群体对抗中广泛采用的决策方法。这种机器学习技术通过与环境的交互来学习行动策略,而无需样本数据。因此,它被证明是一种解决缺乏先验模型的连续决策问题的有效方法。近端策略优化(proximal policy optimization,ppo)算法已成为一种值得注意的强化学习方法,它显示出了相当大的进步。ppo因其有效平衡样本效率、稳定性和简单性而脱颖而出,有助于提高算法效率。然而,ppo在多智能体合作问题方面存在在复杂环境中奖励函数设计困难和决策时效性有限等问题。
技术实现思路
1、为了避免现有技术的不足之处,本申请提供一种基于强化学习的无人机集群协同对抗决策方法,用以解决现有技术中存在在复杂环境中奖励函数设计困难和决策时效性有限的问题。
2、根据本公开实施例,提供一种基于强化学习的无人机集群协同对抗决策方法,该方法包括:
3、基于任务无人机群和对手无人机群的对抗场景,建立无人机运动模型和几何态势模型;
4、基于无人机运动模型和几何态势模型,设定对抗任务规划;
5、根据任务无人机群针对对抗任务规划作出的任务决策,将马尔可夫决策问题建模为马尔可夫博弈;
6、基于马尔可夫博弈,建立基于mappo的强化学习模型,并对强化学习模型进行训练;
7、利用训练后的强化学习模型获取协同控制策略。
8、进一步地,无人机运动模型的表达式为:
9、
10、
11、其中,为任务无人机群中的第 i个任务无人机在x轴上的位置,为的微分,为在y轴上的位置,为的微分,为的速度,为的航向角,为的航向角变化速率,为的微分,为对手无人机群中的第 j个对手无人机在x轴上的位置,为的微分,为在y轴上的位置,为的微分,为的速度,为的航向角,为的航向角变化速率,为的微分, pi =( xi , yi)为的位置, pj =( xj , yj)为的位置;
12、几何态势模型的表达式为:
13、
14、
15、
16、其中,为任务无人机到对手无人机的距离向量,为目标方位角,为目标进入角。
17、进一步地,基于无人机运动模型和几何态势模型,设定对抗任务规划的步骤中,包括:
18、基于无人机运动模型和几何态势模型,设定各个对手无人机的生存状态为,各个任务无人机的生存状态为,各个任务无人机的观测空间为,各个任务无人机的动作空间为,且设定对抗任务规划。
19、进一步地,对手无人机的生存状态的表达式为:
20、
21、其中,∈{0, 1},=0表示毁灭,=1表示生存,为任务无人机有效攻击区域对应的中心角,为任务无人机有效攻击区域对应的半径;
22、任务无人机的观测空间的表达式为:
23、= [,,,,,,,]
24、其中,为任务无人机与其相邻的任务无人机的距离,为任务无人机与其相邻的任务无人机的方位角,为任务无人机与其相邻的任务无人机的进入角,为任务无人机与对手无人机的距离,为任务无人机与对手无人机的方位角,为任务无人机与对手无人机的进入角,为任务无人机群的生存状态,为对手无人机群的生存状态;
25、任务无人机的动作空间的表达式为:
26、= [,]
27、其中,为的速度,为的航向角变化量。
28、进一步地,马尔可夫博弈的表达式为:
29、
30、其中,={1,…,n}表示n≥2个无人机的有限集合,为环境真实的状态空间,=×…×(n∈)表示联合动作空间,:×→()表示多无人机系统中状态转移的概率,:××→表示每个无人机相关的奖励函数,γ∈[0, 1)为折扣因子。
31、进一步地,基于马尔可夫博弈,建立基于mappo的强化学习模型,并对强化学习模型进行训练的步骤中,包括:
32、基于马尔可夫博弈,结合mappo算法构建第一参数为θ的actor网络和第二参数为 ϕ的critic网络的强化学习模型;
33、设定目标函数,训练actor网络,以得到最大目标函数;
34、设定损失函数,训练critic网络,以得到最小化损失函数。
35、进一步地,目标函数的表达式为:
36、
37、
38、
39、其中,b为每个训练更新周期使用的样本总数,为任务无人机的数量, k为从样本总数中选择的子样本的大小,为优势函数,为新策略和旧策略的概率比,为函数的映射,为系数超参数,为策略熵,为局部观测,为约束策略更新幅度的超参数,为第 i个任务无人机在时间步 k所采取的动作,为新策略,为旧策略;
40、损失函数的表达式为:
41、
42、其中,为第i个任务无人机在时间步k的状态,为折扣奖励,为旧的状态价值函数网络的估计值。
43、进一步地,该方法还包括:
44、设定奖励函数;其中,奖励函数的表达式为:
45、
46、其中,为对手无人机的生存状态,为任务无人机的生存状态。
47、本公开的实施例提供的技术方案可以包括以下有益效果:
48、本公开的实施例中,通过上述基于强化学习的无人机集群协同对抗决策方法,根据己方无人机集群和对手无人机群的对抗场景,提出无人机运动模型和几何态势模型;基于无人机运动模型和无人机之间的几何态势模型,设计无人机生存状态更新规则和对抗任务;将多无人机作战表示为连续空间中的马尔可夫博弈,采用mappo算法进行策略迭代优化,设计有效的稀疏奖励函数来指导无人机进行对抗博弈,实现了智能体的学习和集群整体协同对抗的统一,提高了无人机的响应速度,解决了复杂态势环境中奖励函数设计复杂、决策时效性有限等挑战。
1.一种基于强化学习的无人机集群协同对抗决策方法,其特征在于,该方法包括:
2.根据权利要求1所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,无人机运动模型的表达式为:
3.根据权利要求2所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,基于无人机运动模型和几何态势模型,设定对抗任务规划的步骤中,包括:
4.根据权利要求3所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,对手无人机的生存状态的表达式为:
5.根据权利要求4所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,马尔可夫博弈的表达式为:
6.根据权利要求5所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,基于马尔可夫博弈,建立基于mappo的强化学习模型,并对强化学习模型进行训练的步骤中,包括:
7.根据权利要求6所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,目标函数的表达式为:
8.根据权利要求7所述基于强化学习的无人机集群协同对抗决策方法,其特征在于,该方法还包括: