本发明涉及一种基站的区域调度方法,特别是一种面向无人机通信基站的多智体强化学习区域调度方法。
背景技术:
1、本部分提供的仅仅是与本公开相关的背景信息,其并不必然是现有技术。
2、由于频谱资源与地理位置的限制,仅仅依靠4g、5g的地面通信网络是无法在任何时间和地点实现无处不在、高质量和高可靠的服务,特别是应对部分偏远地区大量iot设备的服务需求。为了实现更大范围的无线通信,构建空地一体的无线网络显得十分必要。
3、无人机具有高机动性、动态部署和配置方便等特点,在军事和民用等领域发挥着举足轻重的作用。随着成本的不断降低和设备的小型化,小型无人机现在更容易接近公众。因此,在民用和商业领域出现了许多新的应用,典型的例子包括天气监测、森林火灾探测、交通控制、货物运输、紧急搜救和通信中继等。目前,由多架中小型无人机构成的大规模无人机群已逐步服务于各行各业,具有广阔的应用前景。相较于单一无人机,多架无人机协同完成任务的能力和效率都将大幅提高。
4、无人机通信有助于减轻地面网络负担,并在具有高度动态数据流量负载的拥挤位置提供服务能力。例如,地面通信可以通过使用无人机来实现。作为空中接入点,无人机可以为地面用户提供网络接入。作为移动中继,无人机可以在用户之间转发信息。此外,具有遥感技术的卫星/无人机可以支持监测数据的可靠获取,并协助地面网络进行有效的资源管理和规划决策。
5、考虑一个空地协同的无线通信网络场景,为减轻地面基站的业务压力,无人机群中的无人机携带具有控制调度功能的通信基站,用于协助地面基站为部分地面用户(如iot设备)提供上行通信业务服务。然而,整个服务区域的业务可能是动态变化且对于无人机群是未知的。研究在未知的动态业务环境中,获得高效的无人机群区域调度策略是十分必要的。
6、传统基于最优化模型的无人机路径规划技术考虑的任务场景大多是固定不变的,但在实际应用场景中,控制系统往往缺乏环境的先验信息,动态变化的任务需求使得模型驱动的方法得出的策略并非最优路径调度,目前兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。q学习算法是一种无模型的强化学习算法,被有关研究应用于无人机路径规划/黑广播侦察等。然而,任务以及无人机数量的增加会导致传统的基于查表型的算法面临巨大的状态和动作空间从而陷入维度诅咒等问题,令算法无法收敛。为解决此类问题所提出的基于神经网络或隐马尔可夫模型等的预测模型需要大量的计算资源来进行训练,并且需要定期重新训练,同时需要大量参数来获取相关的通信环境信息,在具有业务延迟要求等的实际控制网络中具有一定的局限性。在最新提出的基于核函数近似的强化学习在线抗干扰算法虽然在动态监测环境信息,实时分析相关数据,做出频点资源分配的最优决策上有着较好的表现,但在算法稳健性及收敛速度上依旧有着较大的改进空间。
7、需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
技术实现思路
1、发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种面向无人机通信基站的多智体强化学习区域调度方法。
2、为了解决上述技术问题,本发明公开了一种面向无人机通信基站的多智体强化学习区域调度方法,包括:
3、步骤1,每一时刻,每个区域的地面基站向飞行至该区域的无人机发送协助通信的申请;
4、步骤2,设置在所述无人机上的无人机基站响应后反馈给地面基站,地面基站根据响应的无人机基站数量,发送控制命令让无人机执行协助通信服务或者待机,无人机将控制命令结果及自身状态信息定时反馈给地面控制中心;
5、步骤3,地面控制中心根据所有无人机反馈的控制命令结果,采用多智体强化学习调度方法,获得并更新每个无人机的区域调度策略,无人机根据该策略在下一时刻收到协助通信的申请时,做出决策;
6、步骤4,重复执行步骤1至步骤3,完成面向无人机通信基站的多智体强化学习区域调度。
7、进一步的,步骤3中所述的多智体强化学习调度方法,具体包括:
8、步骤3-1,对无人机基站调度问题进行马尔可夫建模;
9、步骤3-2,定义基站调度问题的最优策略;
10、步骤3-3,将求解步骤3-2中所述的最优策略转化为多智体强化学习问题;
11、步骤3-4,采用基于核方法的反事实多智体策略梯度方法解决步骤3-3中所述的多智体强化学习问题。
12、进一步的,步骤3-1中所述的对无人机基站调度问题进行马尔可夫建模,具体包括:
13、定义环境状态为t时刻的整个无人机群的联合状态st,如下:
14、st=[st,1,…,st,i,…,st,n,rt,1,…,rt,i,…,rt,n]t
15、其中,st,i为第i个无人机所处区域的二进制编码,rt,i为是否接收到基站发送的协助申请,是为1,否则为0,n为无人机总数,t时刻的所有无人机联合动作为at,如下:
16、at=[at,1,...,at,i,...,at,n]t
17、其中,at,i表示第i个无人机的动作,代表可飞行子区域的二进制编码集合;
18、转移概率为p(st+1|st,at),无人机i在t时刻执行协助通信服务的效用函数为:
19、rt,i-λdt,i
20、其中,rt,i为无人机i服务的地面通信用户数,dt,i为移动距离,λ为比例系数。
21、进一步的,步骤3-2中所述的定义基站调度问题的最优策略,具体包括:
22、设整个系统即所有无人机的动作策略为π,所述最优策略,即将最大化通信网络中用频设备处的累计折扣回报的期望做为目标效用函数v(s),即最优贝尔曼方程,如下:
23、
24、其中,γ为折扣因子,eπ表示采取策略π的长期期望回报,s为无人机群的联合状态。
25、进一步的,步骤3-3中所述的将求解步骤3-2中所述的最优策略转化为多智体强化学习问题,具体包括:
26、步骤3-3-1,为每一个无人机i设置一个动作策略πi,共同优化全局目标,具体如下:
27、
28、步骤3-3-2,每个无人机i依据动作策略πi自主作出区域调度决策,地面控制中心仅提供动作策略即区域调度策略的更新;
29、步骤3-3-3,将上述过程作为多智体强化学习问题。
30、进一步的,步骤3-4中所述的基于核方法的反事实多智体策略梯度方法,具体包括:
31、步骤3-4-1,每架无人机初始化一个策略函数网络,具体如下:
32、所述策略函数满足吉布斯采样分布或玻尔兹曼策略,每个网络的特征参数为一组高斯径向基函数的线性组合,该表述满足:
33、
34、其中,表示在状态s的情况下,当前无人机选择动作a的概率,是权重参数;
35、
36、其中,为第k架无人机的偏好函数权重向量,t为间隔时隙,为第k架无人机的基函数向量;
37、步骤3-4-2,每一个时刻,每架无人机根据自身的策略函数网络,做出区域调度策略并执行;
38、步骤3-4-3,地面控制中心初始化一个全局状态函数网络,具体如下:
39、vg(s,a)=wvtfv(s)
40、其中,vg(s,a)为全局状态函数,wv为全局状态函数的权重向量,fv为全局状态函数的基函数向量;
41、步骤3-4-4,每架无人机飞行至目标区域后将协助通信服务信息传至地面控制中心,地面控制中心进行汇总,所有无人机每隔t间隔时隙将其状态传至地面控制中心并储存;每隔ct间隔时隙,地面控制中心对所有无人机的策略函数进行更新。
42、进一步的,步骤3-4-4中所述的对所有无人机的策略函数进行更新,具体包括:
43、步骤3-4-4-1,设计优势函数a(sj,a),具体如下:
44、
45、其中,v(sj,a)表示全局状态值函数,v(sj,a,a-i)表示缺少某一动作值的策略函数π(a|vj,i;wf,q,i)表示缺少的这一动作对应的策略函数值;
46、步骤3-4-4-2,对无人机i的权重wq,i进行更新,具体如下:
47、
48、其中,βq为学习率,为策略函数关于权重的梯度;
49、步骤3-4-4-3,根据全局状态信息更新全局状态值函数网络的权重wv,具体如下:
50、
51、其中,rj为即时回报,γ为折扣率,v(sj;wv)为当前的全局状态值函数,v(sj′;wv)为下一样本的状态值函数,为当前全局状态值函数的梯度;
52、步骤3-4-4-4,对两种函数的特征函数采用在线稀疏算法进行更新。
53、进一步的,步骤3-4-4-4中所述的对两种函数的特征函数采用在线稀疏算法进行更新,即对策略函数及全局值函数特征字典的稀疏化采取近似线性独立检测算法,通过判断特征向量的特征函数的线性组合与需要判断的特征向量的线性相关度的大小确定算法是否加入字典。
54、进一步的,步骤3-4-4-4中所述的对两种函数的特征函数采用在线稀疏算法进行更新,具体包括:
55、步骤3-4-4-4-1,求解需要判断的特征向量与特征字典里的特征向量的线性组合的期望差值δ;
56、步骤3-4-4-4-2,定义期望差值门限μ;
57、步骤3-4-4-4-3,判断步骤3-4-4-4-1中求得的差值δ与门限μ的大小,如果大于μ,则将该特征向量加入特征字典当中,如果小于等于门限μ,则不加入特征字典中。
58、进一步的,步骤3-4-4-4-1中所述的求解需要判断的特征向量与特征字典里的特征向量的线性组合的期望差值δ,具体如下:
59、
60、其中,α是权重,是第k个特征向量。
61、有益效果:
62、本发明可以用于无人机基站的区域调度问题,在存在未知业务分布的服务区域内,具备通信基站功能的多架无人机与地面控制中心协同,在服务地区业务量未知的条件下,协作学习地面业务量变化规律,控制中心通过权衡业务吞吐量和调度距离,作出最优调度策略,使得系统的效用最大化。
1.一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,包括:
2.根据权利要求1所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3中所述的多智体强化学习调度方法,具体包括:
3.根据权利要求2中所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-1中所述的对无人机基站调度问题进行马尔可夫建模,具体包括:
4.根据权利要求3中所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-2中所述的定义基站调度问题的最优策略,具体包括:
5.根据权利要求4中所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-3中所述的将求解步骤3-2中所述的最优策略转化为多智体强化学习问题,具体包括:
6.根据权利要求5中所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-4中所述的基于核方法的反事实多智体策略梯度方法,具体包括:
7.根据权利要求6中所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-4-4中所述的对所有无人机的策略函数进行更新,具体包括:
8.根据权利要求7所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-4-4-4中所述的对两种函数的特征函数采用在线稀疏算法进行更新,即对策略函数及全局值函数特征字典的稀疏化采取近似线性独立检测算法,通过判断特征向量的特征函数的线性组合与需要判断的特征向量的线性相关度的大小确定算法是否加入字典。
9.根据权利要求8所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-4-4-4中所述的对两种函数的特征函数采用在线稀疏算法进行更新,具体包括:
10.根据权利要求9所述的一种面向无人机通信基站的多智体强化学习区域调度方法,其特征在于,步骤3-4-4-4-1中所述的求解需要判断的特征向量与特征字典里的特征向量的线性组合的期望差值δ,具体如下:
