1.本发明属于通信技术领域,具体的说是涉及一种基于迁移强化学习的资源分配方法,适用于上行多小区的混合多址接入场景。
背景技术:
2.目前,人们对数据速率需求呈指数型增长,而数据速率的大幅提升需要消耗大量频谱资源。在传统通信网络中,一般采用正交多址接入(oma)技术进行用户复用,而非正交多址接入(noma)允许多个用户终端同时共享同一资源单元,能够显著提高系统吞吐量,已成为5g关键技术之一。在实际系统中,noma所用的串行干扰消除(sic)接收机并不能完全消除noma用户间干扰,当用户信道增益差过小时,noma可能无法满足某些业务的服务质量,也可能无法满足全部用户的功率需求。因此,同时支持两种接入方式的混合多址接入系统被提出,在保证所有用户共同的最好资源分配的情况下如何选择合适的随机接入方式(noma或oma)是提高网络接入容量的关键。
3.经过对相关工作的检索发现,b.liu等人在《ieee journal on selected areas in communications,vol.39,no.4,pp.1015-1027,apr.2021(ieee通信选定领域杂志,2021年4月,第39卷,第4期,第1015-1027页)》上发表了题为“resource allocation for energy-efficient mec in noma-enabled massive iot networks(支持noma的大规模物联网网络中节能mec的资源分配)”一文,该文提出一种用于noma的移动边缘计算的资源分配方案。该方案通过匹配和顺序凸规划算法求解,但是该方案没有考虑到通信场景下复杂的环境变化,不能保证方案的长期稳定性。深度学习中的强化学习在与环境的交互中逐渐更新自己的网络,并且以长期奖励为目标,因此其在通信场景下的动态资源分配工作中具有很大优势。
4.经过检索发现,x.zhang等人在《ieee internet of things journal,vol.7,no.7,pp.6380-6391,jul.2020(ieee物联网杂志,2020年6月,第7卷,第7期,第6380-6391页)》上发表了题为“deep-reinforcement-learning-based mode selection and resource allocation for cellular v2x communications(基于深度强化学习的蜂窝v2x通信模式选择和资源分配)”一文,该文使用深度强化学习研究了蜂窝v2x通信的传输模式选择和资源分配的联合优化问题,最大化车辆到基础设施用户的总容量。
5.迁移学习作为深度学习的另一支,被用于传递源域中的知识给与源域相关的目标域。其对于提升模型的鲁棒性和收敛速度具有很大帮助。对于通信场景中频繁变化的环境,在资源分配中加入迁移学习将进一步提高资源分配策略的性能。迁移学习和强化学习的结合可以加速强化学习智能体的学习过程,并且可以利用源域训练的知识,组合到目标域中成为一种有效的资源分配方法。关于迁移学习和强化学习相结合的工作,只有少数文章是针对通信场景中的资源分配目标的。而在本领域技术人员的认知中,也没有研究将多代理强化学习和迁移学习结合到混合多址接入场景中。
技术实现要素:
6.为了解决上述问题,本发明提供了一种基于迁移强化学习的资源分配方法,通过最大化所有用户的总速率,选择最优的用户调度和功率分配方案。
7.为了达到上述目的,本发明是通过以下技术方案实现的:
8.本发明是一种基于迁移强化学习的资源分配方法,该资源分配方法适用于上行多小区的混合多址接入场景,该资源分配方法包括如下步骤:
9.步骤1:搭建用于资源分配的深度强化学习网络(ma-drl),将当前时刻的环境的信道增益输入ma-drl,ma-drl计算信道增益差并依据信道增益差判断网络进行与环境交互的轮次;
10.步骤2:进行ma-drl与环境的交互,每一轮交互中,所有小区获取当前时刻的环境状态,用于分配包含功率分配和用户调度资源的ma-drl根据状态得出资源分配动作,ma-drl再根据得出的资源分配动作和环境交互得到当前时刻的奖励和下一时刻的环境状态;
11.步骤3:进行ma-drl的训练过程,训练将依据步骤2中交互得到的经验块进行,将每次与环境交互得到的经验块都存入记忆库中,并施加价值标签,抽取记忆块时选取价值标签更大的经验块;
12.步骤4:在资源分配的深度强化学习网络(ma-drl)基础上,提出一种基于ma-drl的迁移学习方案(t-drl),以提升ma-drl应对环境变化的能力,面对ma-drl中的两个子网络分开进行迁移。
13.本发明的进一步改进在于:t-drl分为三种迁移方式,分别为只迁移功率分配子网络的迁移方式,只迁移用户调度子网络的迁移方式和两个子网络都迁移的迁移方式。第一种迁移方式只迁移了dqn网络,当环境的功率资源变化不大时,可以选择这种迁移方式。第二种迁移方式只迁移了maddpg网络,当环境的子信道资源变化不大时,可以选择这种迁移方式。第三种迁移方式同时迁移dqn网络和maddpg网络,当环境整体变化,例如环境的信道衰落方式改变时,会同时影响两个网络的资源分配,此时可以选择这种迁移方式。本发明方法使用的t-drl可以依据不同的环境变化自由的选择合适的迁移方式。
14.本发明的有益效果是:.
15.1、在以往的工作中,要做到同时分配子信道资源和功率资源,利用各类算法解决np-hard问题,很难找到方法高效地得到最优解,本发明通过充分利用深度强化学习的优势,采用集中训练、分布执行的方式搭建多智能体深度强化学习神经网络,在保障每个用户正常通信的前提下,有效降低小区间的干扰,减少传输所耗费的功率;
16.2、本发明在训练中不断提高系统拟合环境的能力和资源分配的能力,从而提高整个通信系统的通信质量,进而满足未来移动通信系统的要求;
17.3、不同于传统的迁移学习方法,本发明可以使系统选择独特的迁移方式,选择合适的迁移模型防止发生负迁移的现象,研究多小区混合多址接入系统的资源分配方式的过程中,使用迁移学习对已训练好的深度神经网络进行经验保存,在面对不同分布的新环境时,将来自源任务的知识转移到目标域的任务,有助于有效地利用经验样本,从而加速学习者任务的收敛。
附图说明
18.图1是本发明资源分配方法中包括迁移学习部分和强化学习部分的具体流程示意图。
19.图2是本发明资源分配方法的t-drl网络框架示意图。
20.图3是本发明实施例中的ma-drl对于混合多址接入场景的资源分配获得的总速率性能图。
21.图4是本发明实施例中的t-drl在信道衰落模式的变化下的迁移性能图。
22.图5是本发明实施例中的t-drl在用户初始位置的变化下的迁移性能图。
23.图6是本发明实施例中的t-drl在用户位置更新范围的变化下的迁移性能图。
具体实施方式
24.以下将以图式揭露本发明的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本发明。也就是说,在本发明的部分实施方式中,这些实务上的细节是非必要的。
25.本发明是本发明提出一种基于迁移强化学习的上行多小区混合多址接入场景资源分配方法。本发明技术方法包括以下步骤:步骤一,搭建用于分配多小区混合多址接入场景资源的深度强化学习网络(ma-drl),场景资源包含功率分配和用户调度。步骤二,将不同时刻的环境中的信道增益输入搭建好的ma-drl,ma-drl计算信道增益差并依据信道增益差判断需要训练的轮次。随后依据和环境的不断交互对ma-drl进行训练。步骤三,提出一种基于ma-drl的迁移学习方案(t-drl),以提升ma-drl应对环境变化的能力。面对ma-drl中的分配网络,将其分开为功率分配子网络和用户调度子网络,并对两个子网络分开进行迁移。步骤四,t-drl分为三种迁移方式,分别为只迁移功率分配子网络的迁移方式,只迁移用户调度子网络的迁移方式和两个子网络都迁移的迁移方式。依据不同的环境变化自由的选择合适的迁移方式。
26.具体的,本发明的资源分配方法包括如下步骤:
27.步骤一,将强化学习应用于多小区混合多址接入场景中,其中本发明使用深度q网络(dqn)进行用户调度,使用多小区深度策略梯度网络(maddpg)进行功率分配。
28.混合多址接入场景中的小区集用集合{1,
…
,n,
…
,n}表示,总数为n,每个小区中的用户集用{1,
…
,m,
…
,m}来表示,总数为m,子信道集用{1,
…
,k,
…
,k}来表示,总数为k。在当前时隙内,小区n中的用户m在子信道k上的信干燥比表示为
[0029][0030]
其中,表示当前时隙内,小区n中的用户m在子信道k上到基站的信道增益,p
n,m,t
(t)是其发射的信号功率,y
n,m,k
(t)是其余用户对其的干扰,是此时隙的加性高斯白噪声。由于noma系统的sic原则,只将信道增益比用户m小的用户产生的信号视作干扰。随后根据香农公式,相应的信号速率可以表示为
[0031]rn,m,k
(t)=blog2(1 φ
n,m,k
(t)).
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0032]
当小区n中的用户m连接到了子信道k上时, 如果用户m在子信道k上没有受到小区
n中其余用户的干扰,则用户m是使用正交多址接入方式(oma)的上行用户,否则用户m是使用非正交多址接入方式(noma)的上行用户。在上行多小区混合多址接入场景中,在同一小区内,连接到同一子信道k上的用户数不能超过最大连接数e
max
,即e
n,m,k
(t)表示子信道k是否连接到小区n中的用户m。
[0033]
首先,所有小区的用户同时开始获取当前状态信息st, 即信道增益,计算交互轮次的模块根据开始计算当前时刻和上一时刻的信道增益差其中h(t)是当前时隙用户的信道增益,是上一时隙用户的信道增益。根据差值判断当前信道增益下需要交互的轮次c,计算公式为
[0034][0035]
其中l是最大的交互轮次,是理论上的最大信道增益差。如果小于最小限值d
min
,则在此环境变量下只进行一轮交互。此自适应模块结合了在线学习和离线学习,让模型更好的拟合环境。
[0036]
步骤二,在计算出了固定的当前的环境状态下的与环境交互的轮次c后,每一轮交互中,每个小区都被视为一个智能体,智能体的资源分配网络根据s
t
计算出当前最优动作a
t
。两个网络在混合多址接入中需要定义的变量是:用s
t
来表示用户在当前时隙t的状态,在此场景中代表各用户上行到其他小区的基站的信道增益。a
t
表示用户在当前时隙t的动作,由用户调度结果和功率分配结果组成。r
t
表示用户在当前时隙t所获得的奖励,在此场景中代表用户获得的速率值。
[0037]
资源分配网络依据选取的动作a
t
和环境进行交互并得到当前时刻的奖励r
t
和下一时刻的状态信息s
t 1
,随后将当前时刻的记忆块表示为{s
t
,a
t
,r
t
,s
t 1
}。
[0038]
步骤三,进入ma-drl的训练过程后,为了提升ma-drl的训练效果,使用价值函数计算记忆块对于训练过程的价值。计算记忆块价值的模块计算出当前时刻记忆块的价值v
t
,将其与记忆块{s
t
,a
t
,r
t
,s
t 1
}一并存入记忆库。v
t
的计算表达式为
[0039][0040]vt
中的c指的是相同环境变量下的交互轮次,λ指的是本记忆块在c中的序号。ξ
t
指的是时差误差(td误差),本发明方法主要采用强化学习训练时产生的td误差来衡量记忆块对于训练过程的重要性。资源分配网络根据v
t
从记忆库中选取一定数量的记忆块,用户调度网络通过最小化损失函数来更新自身网络参数,其中代表网络计算出的此时隙结合了长期奖励的估计
奖励,其中γ是折扣因子,是网络计算的下一时隙的最优奖励。而q(si,ai,μ)便是当前时隙的实际奖励,μ代表用户调度网络中在线网络的参数,μ
′
代表目标网络的参数。功率分配网络依据最小化损失函数来更新自身参数。d是选取的记忆块的数量,代表网络估计的结合长期奖励的奖励,q(s
t 1
,a
t 1
,θq′
)是下一时隙的最优动作的奖励,q(si,ai,θq)是当前时隙的真实奖励。在功率分配网络中,θa代表在线策略网络的参数,θa′
代表目标策略网络的参数,θq代表在线q网络的参数,θq′
代表目标q网络的参数。
[0041]
步骤四,在复杂的通信环境中,网络需要建立一定的对抗环境变化的能力,本发明使用迁移学习来增强ma-drl模型在目标域中的鲁棒性。本发明使用源域中的网络参数和网络整体作为源域中的知识,并将知识应用于新网络参数的更新中。与一般的强化学习更新参数方式不同,在dqn中,本发明使用和更新参数,μ
new
代表目标域的新用户调度网络的参数,μ
old
代表源域的旧用户调度网络的参数。代表新网络中的在线网络,代表新网络中的目标网络。β是新旧网络的结合率,β一开始设置的较小,随着训练过程的进行不断增加。
[0042]
而t-drl的另一部分,由于maddpg的复杂性和特殊性,本发明首先迁移了旧网络的maddpg参数,本发明使用和更新自身的策略网络和q网络的参数。这是一种软更新方式,每隔一段时间用户调度网络就将新旧策略网络参数的结合以一定比例赋值给q网络参数,τ代表了这种比例。σ则表示了新旧网络的结合比例,σ一开始设置的很小,随着迁移过程的进行不断增加。
[0043]
除了更新参数之外,用户调度网络还迁移了源域中的整个目标q网络,并将其用于估计q值。本发明将中的q(s
t 1
,a
t 1
,θq′
)变为∈q
new
(s
t 1
,a
t l
,θq′
) (1-∈)q
old
(s
t 1
,a
t 1
,θ
q'
)。更新完整个资源分配网络的参数后,使用σ=γ
σ
σ,β=γ
β
β和∈=γ
∈
∈更新β,和σ的值。重复进行上述过程,直至网络收敛。
[0044]
t-drl分为三种迁移方式,分别为只迁移功率分配子网络的迁移方式,只迁移用户调度子网络的迁移方式和两个子网络都迁移的迁移方式。第一种迁移方式只迁移了dqn网络,当环境的功率资源变化不大时,可以选择这种迁移方式。第二种迁移方式只迁移了maddpg网络,当环境的子信道资源变化不大时,可以选择这种迁移方式。第三种迁移方式同时迁移dqn网络和maddpg网络,当环境整体变化,例如环境的信道衰落方式改变时,会同时影响两个网络的资源分配,此时可以选择这种迁移方式。本发明方法使用的t-drl可以依据不同的环境变化自由的选择合适的迁移方式。
[0045]
本发明选择所有用户的总速率作为优化目标,因此用户调度和功率分配的联合问
题可以表示为
[0046][0047]s·
t
·
c1:
[0048]
c2:
[0049]
c3:
[0050]
c4[0051]
在(5)中约束c1表示每个用户发送的功率都不能超过最大功率限制p
max
并且必须大于0,约束c2表示在同一小区内,连接到同一子信道k上的用户数不能超过最大连接数e
max
。e
n,m,k
(t)表示子信道k是否连接到小区n中的用户m,约束c3表明了e
n,m,k
(t)在0和1之间,e
n,m,k
(t)=1表示其连接,e
n,m,k
(t)=0表示其未连接。约束c4表明每个用户的速率不能低于最低速率需求r
min
。
[0052]
综上所述,本发明研究了以最大化混合多址场景中的总速率为目标的动态资源分配问题。本发明提出了一种灵活的方案来结合混合多址接入场景并解决了场景中难以建模的问题。本发明提出的方案结合了迁移学习和强化学习,使本发明的模型在混合多址场景中更加健壮。本发明还引入了在线学习和离线学习相结合的机制,以在环境变量发生较大变化时保持方案的稳定性。同时,本发明提供灵活的转移方式来应对环境变化。
[0053]
本发明中单纯包含强化学习的方法性能如附图3所示,作为比较,本发明提出了集中学习(cl)方案和分布式学习(dl)方案来解决相同的问题。cl方案只有一个具有计算能力的中央代理,而dl方案使用完全独立的代理。本发明改变了功率分配网络的学习率来综合评估本发明方法的性能。由于cl方案的动作空间太大,无法遍历所有动作,cl方案无法选择最优动作。相反,dl方案有完全独立的智能体,但智能体无法获得整个通道信息和动作信息,这也影响了最终的性能。而本发明中的智能体彼此共享其动作信息,这使得本发明方法能够获取全局信息。
[0054]
附图4,附图5和附图6展示的是本发明方法中最终和迁移学习结合的性能,附图4代表信道衰落模式的变化下本发明方法的迁移效果。附图5代表用户初始位置的变化下本发明方法的迁移效果。附图6代表用户位置更新范围的变化下本发明方法的迁移效果。从上述三张附图中可以看到本发明中的三种迁移方式都比不进行迁移而直接放入目标域中的方式要收敛的更快,在训练的早期三种迁移方式都实现了更高的总速率。有一些方法甚至最终性能要超过不进行迁移的方法。由于在训练的早期阶段加入了源域的知识,本发明方法可以更快地实现收敛。同时,本发明方法由于在迁移后让旧网络和新网络一起在新环境下进行更新,因此最终可能达到比不迁移更高的总速率。此外,本发明提出了可选择性的灵活迁移方式,可以根据环境变化的方式选择合适的迁移方式。
[0055]
本发明提出的资源分配方法以最大化所有用户总速率为目标,可以有效地提升用户总速率,并且和迁移学习结合后可以达到更快的收敛速度。
[0056]
以上所述仅为本发明的实施方式而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等,均应包括在本发明的权利要求范围之内。
转载请注明原文地址:https://tc.8miu.com/read-3592.html