本发明属于海洋环境下协同搜索,具体涉及一种基于强化学习的无人机与无人船长续航协同搜索方法。
背景技术:
1、无人机(unmanned aerial vehicle,uav)和无人船(unmanned surface vessel,usv)等无人系统已用于各种海上活动,包括环境监测、数据传输、货物运输和紧急救援。然而,目前的自主海上搜索系统仍然面临着自主性低、搜索效率欠佳等问题。此外,由于安装在usv上的传感设备(如照相机和雷达)位置较低,其传感范围受到限制。为了解决这一问题,无人机与无人船异构协同搜救系统得到了更多的关注,将无人船的长续航能力与无人机的广阔视野相结合,实现了它们的优势互补,提高搜索救援效率。然而,无人机执行复杂和持久的操作,如视频流和图像处理,可能会在任务中消耗大量的电池能量。
2、目前,为了解决无人机的能量限制问题,无人地面车辆(unmanned groundvehicle,ugv)通常作为能量载体,遵循预先规划好的路线与无人机定期会合进行充电。然而,由于海洋环境不可预测且多样化,这种固定路线的搜索方法并不适用于复杂的海洋搜索场景。在已有的文献中,很少有研究试图设计海上移动无线充电系统,以建立一个可行的按需解决方案,从而维持大规模的持续无人机操作。
3、无人船具有高效、灵活、巡航时间长的优点,在已有的解决方案中,无人机通过降落在无人船上进行能量补充,这会导致任务中断。随着近年来无线电力传输(wirelesspower transmission,wpt)技术的进步,为无人机提供了一种非接触式的、全自动的无线充电解决方案,允许无人机在任务执行过程中充电。因此,无人船通过配备无线充电设施作为海上移动充电站,可以为无人机提供连续充电服务,满足长续航任务的要求。在动态的无人机与无人船异构协同搜索场景中,如何灵活、有效地解决无人续航问题是一个亟需解决的关键问题。
技术实现思路
1、为了解决海上搜索场景下无人机续航能力限制问题,本发明提出了一种基于强化学习的无人机与无人船长续航协同搜索方法,采用多智能体深度强化学习算法来调整无人船的移动方向,优化运动轨迹为无人机提供充电服务并进行目标搜索,寻找最小化其能量消耗以及最大化无人机能量利用率的最优策略。
2、本发明的技术方案如下:
3、一种基于强化学习的无人机与无人船长续航协同搜索方法,包括如下步骤:
4、步骤1、在任务区域中部署多个无人机和无人船,形成协同搜索系统并进行初始化;
5、步骤2、将任务区域离散化为网格,无人机和无人船使用概率图模型记录每个单元格的目标存在概率;
6、步骤3、无人机在任务过程中受其电池容量的限制,无人机能量不足时向无人船发送充电请求,无人船根据无人机电池能量和目标存在概率规划路径,最小化无人船移动距离;
7、步骤4、无人船采用基于多智能体深度确定性策略梯度方法的协同优化调度算法优化自身运动轨迹,为无人机提供充电服务并进行目标搜索;若未搜索到海面目标,则重新执行步骤2;若无人机能量不足以完成任务时,重复执行步骤3-步骤4,直到通过目标概率识别出目标位置。
8、进一步地,所述步骤1中,将任务区域设定为一个长为,宽为的矩形区域,部署架无人机在高度为的任务区域上空飞行;艘无人船配备无线充电设备在任务过程中充当移动充电站;架无人机和艘无人船组成一个跨域无人集群协同执行搜索任务;无人机上有一个接收能量的天线,无人船安装发射天线;无人机监测自身的能量水平,当无人机能量不足时发送充电请求,无人船则会向无人机靠近,无线充电设备启动,无人船显示正在充电;无人机与无人船之间以及无人船与无人船之间信息传输通过无线电方式的通信链路建立初始连接。
9、进一步地,所述步骤2中,将任务区域划分为个网格,表示任务区域在水平方向上划分的网格数量,表示任务区域在垂直方向上划分的网格数量;第个网格的中心坐标为,,,,表示第个网格在水平方向上的坐标,表示第个网格在垂直方向上的坐标;设置表示第个网格中存在目标或不存在目标,表示第个网格中存在目标,表示第个网格中不存在目标;
10、无人机和无人船根据贝叶斯规则动态地更新任务区域的概率图,具体的更新公式为:
11、 (1);
12、其中,、分别表示时隙和时隙生成的概率图;和分别为检测概率和虚警概率。
13、进一步地,所述步骤3中,无人机在执行概率图更新过程中由于能量消耗和电池容量的限制不足以支撑任务完成,因此采用远程无线充电的方式,无人船发射波束成形能量给无人机,无人机获得的能量取决于它与无人船之间的距离,计算为:
14、 (2);
15、其中,为距离计算;和分别表示时隙无人船和无人机的位置坐标;表示无人机的飞行高度;
16、无人机在时隙获得的能量为:
17、 (3);
18、其中,为一个二进制变量;为能量转换效率;为一个时隙的持续时间;是无人船的能量传输功率;
19、假设无人机的最大能量容量为,则经过无人船充电服务后,无人机在时隙的剩余能量为:
20、 (4);
21、其中,为无人机在时隙的剩余能量;
22、无人机的能耗分为通信能耗和飞行能耗两类,将通信能耗固定为,无人机在匀速飞行时的飞行能耗为:
23、 (5);
24、其中,、、为不同的无人机相关常数;和分别表示无人机的速度和推力;
25、时隙无人机能耗为:
26、 (6);
27、其中,表示对求导;
28、无人机在时隙的剩余能量为:
29、 (7);
30、无人机在时隙的剩余能量满足;其中,为无人机最小保留能量,则无人机的充电紧急度计算为:
31、 (8);
32、如果当前无人机的剩余能量低,它具有高充电紧急度,无人船优先为具有高充电紧急度的无人机提供服务;
33、无人船的运动伴随着自身的能量消耗,寻找最优路径的目的是最小化无人船的平均移动距离;假设能量消耗与移动距离之间存在线性关系,将定义为无人船在时隙处的移动距离,表示为:
34、 (9);
35、其中,表示时隙无人船的位置坐标;
36、无人船的能量消耗如下:
37、 (10);
38、其中,是一个系数;为无人船在海上航行时的阻力;因此艘无人船直到总时隙的能量消耗为:
39、 (11);
40、在搜索中优化无人船的运动轨迹,使无人机的能量保持在阈值以上,延长无人机工作时间,需要优化一系列参数,包括无人船的运动能耗以及无人机的能量利用率,将优化问题表述为:
41、 (12);
42、其中,表示对整个公式的期望值;表示无人机在搜索任务中的能量利用率,为二元决策变量;为一个常数;表示无人机在时隙处的搜索区域面积;、、、为不同的约束;约束表示无人船在时隙移动的距离小于等于能移动的最大距离;约束表示无人机的剩余能量的范围;约束确保每架无人机在时隙最多被一个无人船充电;约束保证无人船和无人船之间的距离大于等于安全距离,以避免碰撞。
43、进一步地,所述步骤4中,无人船集群根据当前状态获得的无人机位置、能量信息、目标概率信息以及相邻无人船的状态信息采用基于多智能体深度确定性策略梯度算法进行强化学习,从而完成动作决策,优化轨迹;具体过程为:
44、在无人船集群中,每一艘无人船维护自己的actor网络和critic网络,定义、分别为无人船的actor网络、critic网络,无人船的actor网络参数和critic网络参数分别为和,采用actor-critic方法进行中心化训练和分布式执行,在训练时,每一艘无人船的critic网络能够获得其他无人船的策略信息;
45、通过最小化损失函数来更新,具体公式如下:
46、 (13);
47、其中,为对中样本的期望值;表示经验回放池;是一个中心化的动作价值函数;为当前时刻无人船的状态信息;为当前时刻艘无人船采取的动作集合,为当前时刻无人船采取的动作;表示当前时刻的目标值,,为当前时刻无人船的奖励值,为折扣系数,为下一状态的动作价值函数,为执行相应动作后的下一状态信息,为无人船在下一状态的动作,为无人船的观测信息;表示艘无人船更新价值函数中使用的目标策略的集合;为无人船下一状态的actor网络;
48、执行梯度下降来更新,具体公式为:
49、 (14);
50、其中,表示对求导;表示优化目标;为对经验回访池中随机抽取状态信息的期望值,表示从经验回放池中随机抽取的一个状态信息;经验回放池由元组表示,={}为艘无人船获得的奖励集合,为当前时刻无人船的奖励值;为当前时刻无人船采取的动作;为无人船当前的观测值;表示对求导;
51、软更新无人船的目标critic网络参数和目标actor网络参数,具体公式如下所示:
52、 (15);
53、其中,表示软更新操作;表示软更新系数。
54、进一步地,在每艘无人船执行一步动作后,设置一个总奖励函数,具体如下:
55、定义表示无人船在时隙执行相应任务时的能量消耗奖励,每个无人船消耗的能量由它移动的距离决定,公式为:
56、 (16);
57、定义表示无人船在时隙向无人机充电时获得的奖励,公式如下:
58、 (17);
59、其中,是一个正系数;当无人船接收到来自多个无人机的充电请求时,会根据每个无人机的充电紧急度进行优先排序;通过评估当前的无人机能量水平,无人船确定哪个无人机具有最高的充电紧急度,优先对具有最高的充电紧急度的无人机进行充电服务;
60、定义表示无人船在时隙的搜索奖励,搜索奖励引导无人船在有限的时间内探索高概率的区域,以获得最高的利润;搜索奖励公式为:
61、 (18);
62、如果无人船不能及时给任何无人机充电,并且剩余的电池能量低于,则用表示对无人机的惩罚;定义表示无人船和无人船之间发生碰撞时的惩罚,具体公式如下:
63、 (19);
64、 (20);
65、综上,总奖励函数表示如下:
66、 (21);
67、其中,为无人船在时隙的总奖励。
68、进一步地,所述基于多智能体深度确定性策略梯度方法的协同优化调度算法的具体过程为:
69、步骤4.1、初始化参数,包括、、、、、、;为回合数量;
70、步骤4.2、进行外部回合循环;具体过程为:
71、步骤4.2.1、随机分配无人机和无人船的位置;
72、步骤4.2.2、初始化时隙一个随机过程,用于动作探索;
73、步骤4.2.3、将无人船作为智能体,获取所有智能体的初始观测值;
74、步骤4.2.4、进行内部时间步循环;具体过程为:
75、步骤4.2.4.1、根据当前策略每个无人船选择一个动作,设当前时刻无人船采取的动作为:;
76、步骤4.2.4.2、执行动作集合,获得下一状态信息和艘无人船的奖励集合;
77、步骤4.2.4.3、将存储到经验回放池中;
78、步骤4.2.4.4、更新观测值:;
79、步骤4.2.4.5、进行内部循环;
80、步骤4.2.4.5.1、从经验回放池中随机抽取小批量样本;其中,为当前时刻无人船的状态信息;为当前时刻无人船采取的动作;为当前时刻无人船的奖励值;为无人船执行动作后的下一状态信息;
81、步骤4.2.4.5.2、根据公式(13)的最小化损失函数来更新每个无人船的critic网络参数;
82、步骤4.2.4.5.3、根据公式(14)执行梯度下降更新每个无人船的actor网络参数;
83、步骤4.2.4.6、若每个智能体都更新完成,则结束内部循环;
84、步骤4.2.4.7、根据公式(15)更新每个无人船的目标critic网络参数和目标actor网络参数;
85、步骤4.2.5、若优化调度时间超时,结束内部时间步循环;
86、步骤4.3、若达到外部循环步数,结束外部回合循环。
87、本发明所带来的有益技术效果:本发明针对海洋环境下协同搜索场景的特点,利用uav和usv优势互补,组建跨域无人集群协同执行搜索任务,通过概率图模型获取任务区域目标信息。考虑到任务过程中无人机能量受限问题,利用usv作为移动充电站根据不同的影响因素(如uav能量水平、目标存在概率等)规划路径。设计了轨迹优化问题,旨在提高目标检测概率和最大化无人机的能量利用率并最小化usv的能量消耗。同时,考虑uav位置、uav能量信息、目标概率信息以及相邻无人船的状态信息等几个关键因素优化无人船的轨迹。在此基础上,提出了一种基于多智能体强化学习的无人船优化调度算法,寻找优化问题的最优解以实现大规模海洋环境下无人机与无人船异构长续航协同搜索。
1.一种基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,包括如下步骤:
2.根据权利要求1所述基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,所述步骤1中,将任务区域设定为一个长为,宽为的矩形区域,部署架无人机在高度为的任务区域上空飞行;艘无人船配备无线充电设备在任务过程中充当移动充电站;架无人机和艘无人船组成一个跨域无人集群协同执行搜索任务;无人机上有一个接收能量的天线,无人船安装发射天线;无人机监测自身的能量水平,当无人机能量不足时发送充电请求,无人船则会向无人机靠近,无线充电设备启动,无人船显示正在充电;无人机与无人船之间以及无人船与无人船之间信息传输通过无线电方式的通信链路建立初始连接。
3.根据权利要求1所述基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,所述步骤2中,将任务区域划分为个网格,表示任务区域在水平方向上划分的网格数量,表示任务区域在垂直方向上划分的网格数量;第个网格的中心坐标为,,,,表示第个网格在水平方向上的坐标,表示第个网格在垂直方向上的坐标;设置表示第个网格中存在目标或不存在目标,表示第个网格中存在目标,表示第个网格中不存在目标;
4.根据权利要求1所述基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,所述步骤3中,无人机在执行概率图更新过程中由于能量消耗和电池容量的限制不足以支撑任务完成,因此采用远程无线充电的方式,无人船发射波束成形能量给无人机,无人机获得的能量取决于它与无人船之间的距离,计算为:
5.根据权利要求1所述基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,所述步骤4中,无人船集群根据当前状态获得的无人机位置、能量信息、目标概率信息以及相邻无人船的状态信息采用基于多智能体深度确定性策略梯度算法进行强化学习,从而完成动作决策,优化轨迹;具体过程为:
6.根据权利要求5所述基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,在每艘无人船执行一步动作后,设置一个总奖励函数,具体如下:
7.根据权利要求6所述基于强化学习的无人机与无人船长续航协同搜索方法,其特征在于,所述基于多智能体深度确定性策略梯度方法的协同优化调度算法的具体过程为: