基于强化学习的可重构智能表面辅助车载边缘计算方法及系统

    专利查询2025-06-22  24


    本发明涉及车联网边缘计算,特别是涉及一种基于强化学习的可重构智能表面辅助车载边缘计算方法及系统。


    背景技术:

    1、vec技术允许车辆在本地或通过卸载到附近的边缘设备来处理高强度的计算任务。这种方法可以有效减轻车载设备的计算负担,并提高任务处理效率。现有的vec系统依赖于稳定的无线通信连接,以便在车辆移动过程中保持与边缘服务器的连接。然而,车辆在行驶过程中,常常会遇到建筑物等障碍物,这些障碍物会阻碍通信,使得通信中断,影响任务卸载的效率。智能反射面(ris)技术:ris技术通过调整反射面单元的相移来控制无线信号的传播路径,能够在不增加额外功率的情况下增强通信链路质量。目前,针对ris相移优化的算法包括块坐标下降(bcd)、交替优化和半正定松弛等方法,这些方法在固定或简单环境下表现良好。

    2、目前上述技术存在的问题如下:

    3、1、通信中断和不稳定:车辆在行驶过程中遇到障碍物导致的通信中断,影响任务卸载的实时性和稳定性;

    4、2、ris相移优化复杂:现有方法在面对车辆移动性和复杂环境时,ris相移的优化难以达到最佳效果,无法充分利用ris的潜力;

    5、3、功率分配不合理:现有集中式深度强化学习(drl)算法(如ddpg)在多车辆用户场景下,难以处理多用户资源竞争和环境动态变化,导致功率分配不合理;

    6、4、硬件限制:ris的相移值数量有限,受硬件条件限制,增加了系统优化的难度,影响整体性能。

    7、现有技术在解决上述问题时的局限性如下:

    8、1、对动态环境适应性差:现有ris相移优化算法在动态环境和车辆移动性较高的情况下,难以快速适应变化,导致通信链路质量下降;

    9、2、集中式算法的局限:集中式drl算法在处理多车辆用户场景时,计算复杂度高,效率低,难以实时响应,且容易出现单点故障;

    10、3、多用户场景下的资源竞争:现有技术在多用户场景下,未能有效解决资源竞争问题,导致功率分配和任务卸载效率低下;

    11、4、硬件条件限制的影响:由于ris相移值的数量有限,现有算法难以在硬件条件受限的情况下实现最优相移控制,限制了ris的应用效果。


    技术实现思路

    1、本发明所要解决的技术问题是,克服现有技术的缺点,提供一种基于强化学习的可重构智能表面辅助车载边缘计算方法及系统。

    2、为了解决以上技术问题,本发明的技术方案如下:

    3、一种基于强化学习的可重构智能表面辅助车载边缘计算方法,包括:

    4、计算车端在t时刻的任务到达量、通过卸载所处理的任务量以及本地所能执行的任务量;

    5、计算车端在t+1时刻缓冲区中的任务队列长度;

    6、确定车端的多目标优化参数,并基于多智能体强化学习算法构建多代理深度强化学习模型;

    7、基于车端在t时刻通过卸载所处理的任务量、本地所能执行的任务量以及缓冲区中的任务队列长度,对所述多代理深度强化学习模型进行迭代训练直至模型收敛,并在每次训练过程中调用块坐标下降算法优化ris的最优相移;

    8、基于所述多代理深度强化学习模型确定车端进行卸载任务和本地执行任务的功率分配。

    9、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述计算车端在t时刻的任务到达量包括:

    10、通过公式一计算车端在t时刻的任务到达量,所述公式一为:ak(t)=ηk(t)×δt,其中,ak(t)为车端在t时刻的任务到达量,ηk(t)为车端在t时刻的任务到达率。

    11、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述计算车端在t时刻通过卸载所处理的任务量包括:

    12、通过公式二计算ris与bs之间的信道增益,所述公式二为:其中,hr,b为ris与bs之间的信道增益,ρ是在参考距离d0=1m时的路径损失,dr,b是从ris到bs的几何距离,αr,b是ris-bs链路的路径损失指数,r是与小规模衰落相关的rician系数,los组件定义为:

    13、

    14、,其中,λ为载波长度,dris为ris元素之间的间隔,θaod是信号从ris到bs的离开角度,k为车端编号;

    15、通过公式三计算车端与ris之间的信道增益,所述公式三为:

    16、其中,为车端与ris之间的信道增益,是在t时刻第k个车辆和ris之间的几何距离,αr,b是车端和ris之间的路径损失指数,los组件定义为:

    17、

    18、其中,为在t时刻信号从第k个车辆到ris的到达角度;

    19、通过公式四计算车端通过ris与bs之间的信噪比,所述公式四为:其中,γk(t)为第k个车端在t时刻的信噪比,为第k个车端在t时刻的卸载功率,σ2为热噪声功率ris的对角相移矩阵,具体为其中,和βn∈[0,1]为相关传输系数和相移的幅度,q=2b,b是相移离散程度的控制比特,计算出为

    20、

    21、通过公式五计算车端在t时刻的数据传输速率,所述公式五为:ck(t)=wlog2(1+γk(t)),其中,w为数据传输的带宽;

    22、通过公式六计算车端在t时刻通过卸载所处理的任务量,所述公式六为:qk,o(t)=δt×ck(t),其中,qk,o(t)为车端在t时刻通过卸载所处理的任务量。

    23、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述计算车端在t时刻本地所能执行的任务量包括:

    24、通过公式七计算车端在t时刻本地所能执行的任务量,所述公式七为:qk,l(t)=δtfk(t)/l,其中,qk,l(t)为第k个车端在t时刻本地执行所处理的任务量,l为处理1比特任务所需要的cpu频率,fk(t)∈[0,fmax]为利用动态电压频率调节技术来调整芯片电压所调度的cpu频率,计算为其中,pk,l(t)∈[0,pmax,l]为第k个车端在t时刻的本地执行功率,c为有效选择电容。

    25、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述计算车端在t+1时刻缓冲区中的任务队列长度包括:

    26、通过公式八计算车端在t+1时刻缓冲区中的任务队列长度,所述公式八为:qk(t+1)=[qk(t)-qk,o(t)-qk,l(t)]++ak(t)。

    27、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述确定车端的多目标优化参数包括:

    28、车端的多目标优化参数如公式九所示:

    29、

    30、其中,c1和c2分别为车端进行卸载任务和本地执行任务时的功率范围限制,c3为ris相移的限制值。

    31、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述基于车端在t时刻通过卸载所处理的任务量、本地所能执行的任务量以及缓冲区中的任务队列长度,对所述多代理深度强化学习模型进行迭代训练直至模型收敛包括:

    32、通过公式十计算车端在t时刻的状态空间,所述公式十为:s=[qk(t),qk,o(t),qk,l(t),qk,o(t)+qk,l(t)-qk(t),γk(t-1)],其中,γk(t-1)为第k个车端在t时刻的信噪比;

    33、通过公式十一计算车端在t时刻的动作空间,所述公式十一为:ak(t)=[pk,o(t),pk,l(t)];

    34、通过公式十二计算车端在t时刻的本地奖励,所述公式十二为:rk,l=-[w1(pk,o(t)+pk,l(t))+w2qk(t)]-g1-g2,其中,w1和w2分别为用于奖励平衡的权重因子,g1和g2为惩罚因子;

    35、通过公式十三计算车端在t时刻的全局奖励,所述公式十三为:

    36、利用双延迟确定性策略梯度取代多智能体强化学习算法中的全局critic,对每个车端的策略梯度进行修正,并更新q函数。

    37、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述利用双延迟确定性策略梯度取代多智能体强化学习算法中的全局critic,对每个车端的策略梯度进行修正,并更新q函数包括:

    38、对于每个车端,修正后的策略梯度为:

    39、

    40、,其中,s=(s1,s2,…sk)和a=(a1,a2,…ak)分别为总的状态向量和总的动作向量,d是缓冲区大小,ak=πk(sk)为第k个车端根据自身的策略πk选择的动作;

    41、twin global critic被更新为:

    42、其中,是目标策略,其参数为

    43、第k个车端的本地被更新为:

    44、其中,

    45、

    46、作为本发明所述基于强化学习的可重构智能表面辅助车载边缘计算方法的一种优选方案,其中:所述在每次训练过程中调用块坐标下降算法优化ris的最优相移包括:

    47、在t时刻利用块坐标下降算法最大化所有车端的瞬时模值和,具体公式为:

    48、本发明还提供了一种基于强化学习的可重构智能表面辅助车载边缘计算系统,包括:

    49、第一计算模块,用于计算车端在t时刻的任务到达量、通过卸载所处理的任务量以及本地所能执行的任务量;

    50、第二计算模块,用于计算车端在t+1时刻缓冲区中的任务队列长度;

    51、模型构建模块,用于确定车端的多目标优化参数,并基于多智能体强化学习算法构建多代理深度强化学习模型;

    52、模型训练模块,用于基于车端在t时刻通过卸载所处理的任务量、本地所能执行的任务量以及缓冲区中的任务队列长度,对所述多代理深度强化学习模型进行迭代训练直至模型收敛,并在每次训练过程中调用块坐标下降算法优化ris的最优相移;

    53、执行模块,用于基于所述多代理深度强化学习模型确定车端进行卸载任务和本地执行任务的功率分配。

    54、本发明的有益效果是:

    55、(1)本发明通过引入智能反射面(ris)来辅助车辆通信,提供额外的通信路径,有效解决了车辆在行驶过程中遇到建筑物等障碍物导致的通信中断问题,提高了通信的稳定性和可靠性。

    56、(2)本发明通过优化卸载功率和本地执行功率,使得系统能够在不同任务到达率和信道条件下实现功率分配的最优配置,提高了资源利用效率。

    57、(3)本发明通过采用改进的多智能体深度确定性策略梯度(maddpg)算法,优化车辆用户(vu)的功率分配,能够更好地应对多用户之间的资源竞争,提高了系统整体性能。

    58、(4)本发明利用块坐标下降(bcd)算法对ris相移进行优化,能够在硬件条件受限的情况下,仍然实现较优的相移控制效果,解决了非凸优化问题,提升了系统的计算效率和准确性。

    59、(5)本发明所提出的深度强化学习(drl)框架能够更好地适应动态环境和复杂的信道条件,提高了系统在不同环境下的适应能力和稳定性。仿真结果表明,本发明提出的方案在通信稳定性、功率分配效率和系统性能等方面显著优于传统的集中式深度确定性策略梯度(ddpg)方法和随机方案,验证了本发明在实际应用中的优越性。


    技术特征:

    1.一种基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:包括:

    2.根据权利要求1所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述计算车端在t时刻的任务到达量包括:

    3.根据权利要求2所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述计算车端在t时刻通过卸载所处理的任务量包括:

    4.根据权利要求3所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述计算车端在t时刻本地所能执行的任务量包括:

    5.根据权利要求4所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述计算车端在t+1时刻缓冲区中的任务队列长度包括:

    6.根据权利要求5所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述确定车端的多目标优化参数包括:

    7.根据权利要求6所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述基于车端在t时刻通过卸载所处理的任务量、本地所能执行的任务量以及缓冲区中的任务队列长度,对所述多代理深度强化学习模型进行迭代训练直至模型收敛包括:

    8.根据权利要求7所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述利用双延迟确定性策略梯度取代多智能体强化学习算法中的全局critic,对每个车端的策略梯度进行修正,并更新q函数包括:

    9.根据权利要求8所述的基于强化学习的可重构智能表面辅助车载边缘计算方法,其特征在于:所述在每次训练过程中调用块坐标下降算法优化ris的最优相移包括:

    10.一种基于权利要求1~9任一项所述的基于强化学习的可重构智能表面辅助车载边缘计算系统,其特征在于:包括:


    技术总结
    本发明公开了一种基于强化学习的可重构智能表面辅助车载边缘计算方法及系统,涉及车联网边缘计算技术领域,包括:计算车端在t时刻的任务到达量、通过卸载所处理的任务量以及本地所能执行的任务量;计算车端在t+1时刻缓冲区中的任务队列长度;确定车端的多目标优化参数,构建多代理深度强化学习模型;对所述多代理深度强化学习模型进行迭代训练直至模型收敛,并在每次训练过程中调用块坐标下降算法优化RIS的最优相移;基于所述多代理深度强化学习模型确定车端进行卸载任务和本地执行任务的功率分配。本发明通过采用改进的多智能体深度确定性策略梯度算法,优化车辆用户的功率分配,能够更好地应对多用户之间的资源竞争,提高了系统整体性能。

    技术研发人员:刁春娟,张翠,高雅,王振玲,牟宁
    受保护的技术使用者:无锡职业技术学院
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29685.html

    最新回复(0)