本发明属于车联网频谱共享,尤其涉及一种面向队列系统的车联网频谱资源共享方法。
背景技术:
1、随着新一代移动通信技术的不断发展,车联网(vehicle-to-everything,v2x)由于其在推动智能交通系统(its)和智慧城市发展方面的潜在价值受到了全世界的广泛关注,从技术上讲,车联网将车辆连接到移动网络,实现车对基础设施(v2i)、车对人(v2p)、车对网络(v2n)和车对车(v2v)的全连接功能,在v2x网络中,不同类型的链路支持各种具有异构服务质量(qos)需求的车载应用,具体而言,娱乐、交通效率信息和其他与安全无关的应用通常需要在基站和车辆之间传输大量数据,而高容量的v2i链路则是比较理想的解决方案,同时,协同驾驶、危险预警等与安全相关的应用,往往涉及到安全相关信息在附近车辆之间以周期性或触发的方式传播,这就需要可靠的v2v链路的支持,而基于人工算法的应用,互联自动驾驶汽车已成为保证交通安全、减少环境污染的重要手段,被认为是未来智能交通系统的基础组成部分,队列驾驶是实现自动驾驶的第一步,被认为是克服运输成本的最具代表性的潜力之一,一个队列由一个队列领队(platoon leader,pl)和一组在同一方向行驶的队列成员(platoon members,pms)组成,在队列系统中,pms定期与pl共享信息(包括车速、加速度、位置和应用数据),使pms能够以固定的速度以及车头间隔紧密地一起行驶,这种方式有助于减少车辆的能源消耗,并提高驾驶的安全性和舒适性,此外,每个队列在周围环境中必须获取足够的信息,了解环境中其他的队列和车辆,而这需要车辆具备高性能通信能力,然而,随着车联网应用的不断扩展和通信需求的不断提高,现有的频谱资源显然不足以满足所有的通信需求,因此,为了保证车联网队列系统低时延、高可靠性的通信服务,需要一种新的频谱资源分配方案。
2、现有车联网队列处理方式仅能够处理离散的低维环境,或在连续的复杂环境中表现不佳,因此存在一定的局限性,无法确保链路有效荷载的传输可靠性,导致周期性的消息共享出现误差,存在改进空间。
技术实现思路
1、本发明的目的在于:为了解决现有车联网队列处理方式仅能够处理离散的低维环境,或在连续的复杂环境中表现不佳的问题,而提出的一种面向队列系统的车联网频谱资源共享方法。
2、为了实现上述目的,本发明采用了如下技术方案:
3、一种面向队列系统的车联网频谱资源共享方法,包括:
4、通过利用深度强化学习算法训练车辆队列系统模型根据实时的网络状态得到的频谱分配决策;
5、以分配频谱资源使车辆对基础设施链路的总传输速率,并确保车辆对车辆链路的有效载荷在期望的延迟限制下达到优化的传递成功率。
6、作为上述技术方案的进一步描述:
7、利用深度强化学习算法训练车辆队列系统模型的强化学习方法为:
8、基于蜂窝的多队列车辆通信网络模型,由一个rsu,m个车辆队列,m条v2i链路和n条v2v链路组成,其中每个车辆队列有o辆车;
9、v2i链路和v2v链路的集合分别用m={1,…,m}和n={1,…,n}表示;
10、v2v通信为pm和pl之间提供了周期性车辆信息的互相传递;
11、v2i通信为pl和rsu之间需要传输大量数据的应用提供支持;
12、在模型中采用了正交频分复用多址技术,假设上传数据的v2i链路已经被预先分配好了正交谱子带,共有i条子带,其中第m号v2i链路占用第i号子带,v2i链路发射功率是固定值,并且v2v链路可以共享分配给v2i链路的频谱资源;
13、设和分别为m号v2i链路发送端的发射信号的功率和n号v2v链路在第i条子带上的发射功率,它们受到如下约束:
14、
15、定义了一个布尔值的频谱选择变量ρn[i],它表示第n号v2v链路是否在第i号子带上传输,如果是,则ρn[i]=1,否则为0,并且每个v2v链路最多只能接入一个正交子带,即:∑nρn[i]≤1;
16、则对于v2i链路,在第i个子带上的第m号v2i链路的信噪比的计算公式为:
17、
18、式中gn,m[i]为在i号子带上从v2v链路n对v2i链路m的干扰信道增益,gm,b[i]为v2i链路m在第i个子带上传输的信道增益,σ2是噪声功率;
19、对于v2v链路,在第i号子带上,第n条v2v链路接收的sinr的计算表达式为:
20、
21、
22、式中gn[i]表示在第i条子带上,v2v链路n的信道功率增益,in[i]是干扰功率大小,gm,n[i]表示在第i条子带上,v2i链路m对v2v链路n的干扰信道增益,gn',n[i]表示在第i条子带上,v2v链路n'对v2v链路n的干扰信道增益,表示v2v链路n'的发射功率;
23、根据香农公式,v2i链路m在第i号子带上的传输速率可表示为
24、
25、式中w是子带频谱带宽;
26、同理,n号v2v链路在i号子带上的信道容量计算公式为:
27、
28、其中,v2i和v2v链路的应用的高数据传输速率和可靠的消息传递需求为优化目标;
29、即v2i链路的容量其中表示可容忍的最小吞吐量,v2v链路主要用于保证车辆数据的可靠传输,其中车辆以不同的频率周期性地生成数据,令b表示周期性生成的v2v有效载荷的大小,单位是比特.δt是信道相干时间,t是相干时间的索引.在约束时间t内,则大小为b的数据包的负载传输传输成功的概率为:
30、
31、对所有n∈n,m∈m,v2v链路的传输功率连续可调变量同时最大化所有v2i链路的总传输速率和v2v链路有效载荷传输成功的概率,优化目标和约束条件为:
32、
33、st:∑nρn[i]≤1
34、
35、0≤t≤t
36、
37、作为上述技术方案的进一步描述:
38、还包括通过建立马尔可夫决策过程(markov decision process,mdp),mdp主要由状态空间(state space,s)、动作空间(action space,a)和奖励函数(reward function,r)组成;
39、在时隙t处,环境状态为车联网队列内的队列成员为智能体,智能体根据当前环境状态采取策略环境转变为下一个状态同时反馈奖励
40、作为上述技术方案的进一步描述:
41、所述状态空间为:智能体n的所观察到的局部信息状态有自己的信道增益gn[i],v2v链路n'对v2v链路n的干扰信道功率增益gn`,n[i],在i号子带上v2v链路n对v2i链路m的干扰信道增益gn,m[i],v2i链路m到基站在第i个子带上传输的信道增益gm,b[i],以及来自其他所有链路的干扰噪声功率in[i];
42、除了这些信道信息,因为优化目标还考虑到v2v有效载荷的传输成功率,智能体还需要考虑自身的剩余传输载荷dn以及剩余传输时间tn,表示如下:
43、
44、其中gn[i]={gn[i],gn`,n[i],gn,b[i],gm,b[i]}。
45、作为上述技术方案的进一步描述:
46、所述动作空间为:
47、基于观察到的状态,每个智能体将做出发射功率的连续控制的决策,v2v链路发送端的发射功率为连续变量,取值范围为智能体k的动作决策表示:
48、作为上述技术方案的进一步描述:
49、所述奖励函数为:
50、优化分配所有v2i链路的总传输速率,另一方面提高在t时间内v2v有效负载交付的成功概率,其中所有v2i链路的总传输速率最优目标在时隙t处,最大化所有v2i链路的总传输速率,奖励函数定义为
51、
52、对于每个智能体n,将奖励ln设置为v2v链路的传输速率,直到有效负载完全交付,之后令奖励为常数β,它大于最大的v2v链路传输速率;
53、因此,在t时间步v2v链路有效载荷成功传输的奖励函数定义为:
54、
55、智能体学习的目标是保证最大化v2i链路总传输速率的同时提高v2v链路有效载荷的传输成功率,故在时隙t处,根据公式设置的总优化目标函数如下所示:
56、
57、其中λ和β分别为v2i链路容量和v2v链路传递速率的权重,且λ+β=1,λ与β的数值对应不同的服务需求,如果λ趋近于零且β趋近于1,那么智能体更加注重v2i链路的总传输速率,队列车辆更加需要高宽带,反之,队列车辆对驾驶安全性要求更高,智能体会注重提升v2v链路传输信息的速率,如果用户无特殊要求,λ和β可以设置为0.5。
58、作为上述技术方案的进一步描述:
59、还包括通过基于近端策略优化(proximal policy optimization,ppo)的多智能体强化学习算法采取集中式训练,分布式执行的框架对总优化目标函数进行强化学习,具体包括:
60、所述分布式执行的框架由参数为θ的演员网络和参数为φ的评论家网络组成,actor网络与critic网络分别存在策略函数π(ak|sk,θ)和价值估计函数v(sk,φ),其中θ和φ是actor网络和critic网络的权重;
61、根据观察到的状态st,输入到actor网络,从而获取到动作at;
62、执行动作at后,智能体将获得瞬时奖励rt和下一时刻的状态st+1,并将经验存储到经验回放池中;
63、在训练过程中,智能体与环境进行多次交互,产生并收集了一批经验{st,at,rt,st+1};
64、利用收集到的经验对actor网络和critic网络进行优化;
65、在优化过程中,actor网络和critic网络分别根据经验数据计算策略和全局状态值函数的损失值,以更新参数θ和φ;
66、其中actor网络的损失值通过下式计算;
67、
68、其中和πθ分别表示旧策略和当前策略,s(st)表示状态为st时的动作熵,在训练阶段增加探索性以避免陷入局部最优;
69、clip函数的意义为如果第一项小于第二项,则输出1-ε,如果第一项大于第三项,则输出1+ε,目的是将概率比限制在一个合理的范围内;
70、ε是一个超参数,一般为0.1;
71、ψ是平衡探索与利用的超参数;
72、为权衡策略梯度的偏差和方差,使用广义优势估计(generalized advantageestimation,gae)的形式使用状态值v(st)进行估计,通过引入参数λ,对估计得偏差和方差进行加权平衡,具体公式为:
73、
74、
75、定义vφ(st)为智能体的critic网络所拟合的状态价值,critic网络损失函数通过下式计算:
76、
77、其中actor网络是通过最大化目标函数来更新,critic网络是通过最小化损失函数来更新。
78、作为上述技术方案的进一步描述:
79、所述多智能体强化学习算法采取集中式训练算法流程步骤为:
80、s1、初始化actor网络和critic网络参数;
81、s2、初始化环境和经验池;
82、s3、for e=1to episode
83、s4、重置车联网环境;
84、s5、更新车辆位置和大尺度衰落;
85、s6、for step=1to 100;
86、s7、动作采样;
87、s8、观测车辆智能体的初始环境状态st;
88、s9、将状态输入到actor网络中得到动作at;
89、s10、智能体执行动作at后获得下一时刻的状态st+1并获得奖励值rt;
90、s11、将(st,at,rt,st+1)存储到经验回放池中;
91、s12、根据式子计算折扣回报和优势函数;
92、s13、从经验池中抽取训练样本进行训练;
93、s14、计算actor网络和critic网络损失并更新网络参数;
94、s15、end。
95、综上所述,由于采用了上述技术方案,本发明的有益效果是:
96、本发明中,通过设计的面向队列系统的车联网频谱资源共享方法能够优化链路性能,并且通过智能化的资源分配设计管理车联网对联之间的干扰,每个智能体能够进行不同的功率选择来共享频谱资源以最大限度地提高链路的总传输速率和链路有效载荷的传输成功率,提高面向队列系统的共享稳定性。
1.一种面向队列系统的车联网频谱资源共享方法,其特征在于,包括:
2.根据权利要求1所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,利用深度强化学习算法训练车辆队列系统模型的强化学习方法为:
3.根据权利要求2所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,还包括通过建立马尔可夫决策过程(markov decision process,mdp),mdp主要由状态空间(state space,s)、动作空间(action space,a)和奖励函数(reward function,r)组成;
4.根据权利要求3所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,所述状态空间为:智能体n的所观察到的局部信息状态有自己的信道增益gn[i],v2v链路n'对v2v链路n的干扰信道功率增益gn`,n[i],在i号子带上v2v链路n对v2i链路m的干扰信道增益gn,m[i],v2i链路m到基站在第i个子带上传输的信道增益gm,b[i],以及来自其他所有链路的干扰噪声功率in[i];
5.根据权利要求3所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,所述动作空间为:
6.根据权利要求3所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,所述奖励函数为:
7.根据权利要求3所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,还包括通过基于近端策略优化(proximal policy optimization,ppo)的多智能体强化学习算法采取集中式训练,分布式执行的框架对总优化目标函数进行强化学习,具体包括:
8.根据权利要求7所述的一种面向队列系统的车联网频谱资源共享方法,其特征在于,所述多智能体强化学习算法采取集中式训练算法流程步骤为: