本发明涉及多智能体,具体涉及一种多智能体强化学习系统。
背景技术:
1、强化学习(reinforcement learning)作为机器学习的一种方法,常用于解决序列决策问题。它将序列决策问题建模为外部环境,根据对外部环境的观察来采取动作并获得外部环境的反馈信号。智能体根据这个反馈信号来衡量动作的好坏,并从中总结经验,逐步学习,得到最优的决策序列。
2、多智能体系统在无人机集群的开发方面引起了相当大的关注,因为这些系统可以以更分散的方式建模和学习。多智能体系统可以从环境中收集信息并更有效地使用它,特别是在更具动态性的环境中。这种方法易于实施,并使无人机等智能体群能够更有效地飞行并执行预期的任务。多智能体系统通过利用机载传感器提高其环境学习效率。虽然多智能体系统可以更有效地执行任务,但使这些系统能够协作变得更加复杂,因此,将强化学习引入到多智能体系统是现在研究的热点。
3、现有的多智能体系统中的强化学习方法仍然存在如下缺点:确定最佳策略需要有关环境和目标的知识;训练智能体会消耗更多时间,并且对新环境的响应可能会延迟;当在更复杂的环境中应用时,智能体的学习速率需求会变得很高。
技术实现思路
1、鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的多智能体强化学习系统。
2、依据本发明的提供的一种多智能体强化学习系统,所述多智能体强化学习系统包括本地协调控制子系统和全局协调控制子系统;
3、所述本地协调控制子系统包括生物启发行为模块、集群行为控制模块和本地智能体策略池,其中,所述生物启发行为模块用于实现智能体的避障、导航和智能体内多个操作的协调控制,所述集群行为控制模块用于实现所述智能体的集群行为控制,包括与其他智能体之间的协调、对准和保持一致性,所述本地智能体策略池用于存储所述智能体处理策略;
4、所述全局协调控制子系统包括全局数据更新模块、全局仲裁模块和全局智能体策略池,其中,所述全局数据更新模块用于向全局内的智能体推送全局策略并获取全局内多个智能体累积的策略,所述全局仲裁模块用于执行强化学习算法以从所述本地智能体策略池中确定出最佳策略,所述全局智能体策略池用于存储所述最佳策略。
5、在一些实施方式中,还包括地面控制模块,用于获取智能体的位置,并获取环境信息。
6、在一些实施方式中,所述本地协调控制子系统中的所述生物启发行为模块被配置为:
7、基于群体运动中的boids模型控制多个智能体的运动趋势,确定智能体之间的内聚或者分离策略。
8、在一些实施方式中,确定智能体之间的内聚或者分离策略包括:
9、检测某个范围内的所有智能体的位置,计算出质心,然后产生一个远离质心的分离速度;
10、检测某个范围内的所有智能体的速度,计算出平均速度,然后产生一个与平均速度方向一致的平行速度;
11、检测某个范围内的所有智能体的位置,计算出质心,然后产生一个指向质心的内聚速度。
12、在一些实施方式中,确定智能体之间的内聚或者分离策略进一步还包括:
13、当两个智能体之间的距离小于碰撞半径时,执行分离转向行为;当两个智能体之间的距离大于或等于碰撞半径时,则执行内聚转向行为。
14、在一些实施方式中,所述全局协调控制子系统中的所述全局仲裁模块被配置为:
15、利用参与者-批评者算法从所述本地智能体策略池中学习并确定出最优策略。
16、在一些实施方式中,利用参与者-批评者算法从所述本地智能体策略池中学习并确定出最优策略包括:
17、参与者用于拟合智能体的策略函数,负责生成动作并和环境交互;批评者负责拟合价值函数,用于评估参与者的表现,并指导参与者下一阶段的动作。
18、在一些实施方式中,基于参与者-批评者算法的近端策略优化ppo算法,构建参与者动作决策神经网络和批评者动作评价神经网络;
19、以所述本地智能体策略池为输入,基于所述参与者动作决策神经网络和批评者动作评价神经网络确定出最优策略。
20、在一些实施方式中,所述智能体根据全局协调控制子系统中所述全局仲裁模块的裁决结果重新确定自身的策略,同时识别路径上相邻智能体并确定待执行的策略。
21、在一些实施方式中,所述智能体为无人机。
22、由上述可知,本发明实施例公开的两级混合控制框架使用了两级控制策略。本地控制使用基于ai的生物启发转向行为控制来执行较低级别的机动,例如集群和避免碰撞,并且最终的最优策略则通过ppo算法由全局控制指定,从而能够在持续监控时提高学习率和性能。
23、进一步的,根据本发明公开的多智能体强化学习系统,通过结合两种子系统,并通过使用本地策略池经验来更新高级知识的算法,能够帮助更快地学习环境。另外,基于本地策略和构建神经网络模型来训练和验证给出的算法模型。结果表明,仿生智能强化学习表现良好,训练次数较少。
24、上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
1.一种多智能体强化学习系统,其特征在于,所述多智能体强化学习系统包括本地协调控制子系统和全局协调控制子系统;
2.根据权利要求1所述的多智能体强化学习系统,其特征在于,还包括地面控制模块,用于获取智能体的位置,并获取环境信息。
3.根据权利要求1所述的多智能体强化学习系统,其特征在于,所述本地协调控制子系统中的所述生物启发行为模块被配置为:
4.根据权利要求3所述的多智能体强化学习系统,其特征在于,确定智能体之间的内聚或者分离策略包括:
5.根据权利要求4所述的多智能体强化学习系统,其特征在于,确定智能体之间的内聚或者分离策略进一步还包括:
6.根据权利要求3-5中任一项所述的多智能体强化学习系统,其特征在于,所述全局协调控制子系统中的所述全局仲裁模块被配置为:
7.根据权利要求6所述的多智能体强化学习系统,其特征在于,利用参与者-批评者算法从所述本地智能体策略池中学习并确定出最优策略包括:
8.根据权利要求6所述的多智能体强化学习系统,其特征在于,利用参与者-批评者算法从所述本地智能体策略池中学习并确定出最优策略进一步包括:
9.根据权利要求6所述的多智能体强化学习系统,其特征在于,所述智能体根据全局协调控制子系统中所述全局仲裁模块的裁决结果重新确定自身的策略,同时识别路径上相邻智能体并确定待执行的策略。
10.根据权利要求1-5中任一项所述的多智能体强化学习系统,其特征在于,所述智能体为无人机。