一种面向移动边缘计算用户隐私保护的任务卸载优化方法

专利查询2023-12-18 74

1.本发明属于边缘计算技术领域，更具体地，涉及一种面向移动边缘计算用户隐私保护的任务卸载优化方法。

背景技术：

2.随着物联网技术的高速发展和移动设备的普及，便携设备嵌入了人脸识别、增强现实等技术，这些技术应用丰富了用户的体验质量。然而，由于移动设备的尺寸限制，它们的计算能力和电量难以满足日益增长的计算需求。在移动边缘计算中，运营商将具有充足的计算资源和存储能力的云计算中心转移到靠近用户的边缘节点，例如基站。这些边缘节点拥有着不俗的计算资源，可以为移动设备提供计算资源以减少移动设备本地的计算延迟和能力消耗。移动设备将本地的计算任务传输给边缘节点处理的这一过程即任务卸载。然而，将复杂任务卸载到边缘节点处理的过程中，也带来了隐私泄露的问题。
3.已有研究表明由于任务卸载特性会导致用户隐私的泄露，具体来说，当移动设备只关注延迟和能耗的优化时，它倾向于在无线信道条件较好的时候将自己的所有任务都交给边缘节点计算，只有在无线信道条件不理想的时候才本地处理部分任务。因此，一个诚实而又好奇的移动边缘计算服务器可以根据移动设备的决策推断无线信道信息以及用户的位置信息和设备使用模式。已有的传统隐私保护方案，例如认证、安全和私有数据存储和计算、入侵检测等难以解决上述由于卸载决策暴露的隐私问题。目前评估卸载特性导致隐私泄露的度量方法由任务生成量与卸载量的差值决定，然而实验表明隐私保护水平会收敛到一个固定的值，攻击者可以从该常数与任务卸载量推断出用户任务生成量，从而暴露使用模式隐私。
4.此外，过度追求隐私保护的任务卸载决策也会导致用户的计算延迟和能量消耗的增加，所以在移动边缘计算中寻找任务卸载优化策略的最大挑战是在最小化计算成本和隐私保护之间取得平衡。已有的任务卸载方法有李雅普诺夫优化、线性规划、博弈论等方法。

技术实现要素：

5.针对现有技术的以上缺陷或改进需求，本发明提供了一种面向移动边缘计算用户隐私保护的任务卸载优化方法，其目的在于采用智能学习模型进行任务卸载决策，以隐私保护带来的收益和能量消耗、计算延迟带来的成本之差作为该智能学习模型的奖励训练收敛最小化计算成本和隐私保护之间取得平衡，由此解决过度追求隐私保护的任务卸载决策也会导致用户的计算延迟和能量消耗的增加的技术问题。
6.为实现上述目的，按照本发明的一个方面，提供了一种面向移动边缘计算用户隐私保护的任务卸载优化方法，包括以下步骤：
7.当移动设备发送任务卸载请求时，获取移动设备生成的任务量、当前无线信道增益状态，并检查移动设备本地是否存在收敛的任务卸载策略决策神经网络，若存在则：
8.采用所述任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并
按照所述任务卸载优化策略进行任务卸载；否则：
9.初始化任务卸载策略决策神经网络，并读取历史决策参数以及任务卸载策略，将所述任务卸载策略决策神经网络训练至收敛，获得收敛的任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化决策进行任务策略；所述任务卸载决策χ
t
为移动设备任务卸载比例；
10.所述卸载策略决策神经网络，为马尔可夫决策模型，其训练时所采用的奖励为卸载任务时隐私保护带来的收益和能量消耗、计算延迟带来的成本之差。
11.优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述决策参数包括移动设备生成的任务量a
t
、当前无线信道增益h
t
、不同信道增益状态下历史任务卸载信息wi中卸载量的均值的集合所述不同信道增益状态下历史任务卸载信息wi中的所有卸载量的均值μi，i∈g，g为无线信道增益状态集合，无线信道增益状态根据阈值和划分为良好(good)、正常(normal)、以及不良(bad)，无线信道增益状态集合即状态空间为g＝{good，normal，bad}；不同信道增益状态下历史任务卸载信息wi中卸载量的均值的集合定义为其中历史任务卸载信息wi为不同无线信道增益状态下的历史卸载信息，记作：d
o，t
为移动设备在时隙t的卸载量。
12.优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述任务卸载策略决策神经网络为深度增强学习模型。
13.优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述深度增强学习模型在时隙t：
14.状态s
t
定义为当前决策参数，为由无线信道增益h
t
、不同信道增益状态下历史任务卸载信息由wi中的所有卸载量的均值μi，i∈g组成的向量；
15.动作a
t
定义为移动设备生成的任务量；
16.奖励r(s
t
，a
t
)记作：
17.r(s
t
，a
t
)＝ω1h(t)-ω2e
t-ω3d
t
18.其中，ω1h(t)为隐私保护级别h(t)带来的收益，ω2e
t
为能量消耗e
t
带来的成本，ω3d
t
为计算时延d
t
带来的成本，其中ω1、ω2、ω3为权值。
19.优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述隐私级别h(t)优选基于信息熵评估，具体基于信息熵评估任务卸载决策的隐私保护级别的方法如下：
[0020][0021]
其中，p(i)为无线信道增益状态i的概率，计算方法如下：
[0022][0023]
其中，γ是一个常量，目的在于将任务卸载量d
o，t
放大到一个区间去估计概率；为无线信道增益状态i下任务卸载量的概率密度函数，优选基于和密度估计，具体为：
[0024][0025]
其中，n表示集合wi的元素个数，b是带宽，k(
·
)是高斯分布概率密度函数，xj表示wi中的元素。
[0026]
故有：
[0027][0028]
优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述计算延迟为本地计算时间和任务传输时间之间的较大值；记作：d
t
＝max{t
l，t
，t
o，t
}，其中t
l，t
为时隙t的本地计算时间，t
o，t
为时隙t的卸载任务传输时间。
[0029]
优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述能量消耗e
t
为本地计算能量消耗e
l，t
和卸载任务传输能量消耗e
o，t
之和；
[0030]
其中，本地计算能量消耗e
l，t
＝t
l，t
p
l
，t
l，t
为时隙t的本地计算时间，p
l
为本地计算功率；任务传输能量消耗e
o，t
＝t
o，t
po，t
o，t
为时隙t的卸载任务传输时间，po为传输功率。
[0031]
优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其所述任务卸载策略决策神经网络，采用深度强化学习神经网络对其进行梯度更新，其目标函数j
π
(φ)记作：
[0032][0033]
其中，用于计算期望值，s
t
～r，a
t
～π
φ
表示状态s
t
从经验池r中采样且动作a
t
从任务卸载策略决策神经网络φ中采样输出，α反应策略熵对奖励的重要程度，π
φ
(a
t
|s
t
)为任务卸载策略决策神经网络φ在状态s
t
采取动作a
t
的概率，动作被重写为函数f
φ
(
·
)输出任务卸载策略决策神经网络φ在状态为s
t
下动作的均值μ和方差σ，ε
t
表示从标准正态分布采样的噪声向量，表示取双q网络输出的最小q值。
[0034]
优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其深度强化学习神经网络的参数按照如下方法更新：
[0035]
采用状态网络ψ，该状态网络用于评价状态的价值，输入为状态s
t
，输出状态s
t
的价值，从经验池中采样出的经验样本，通过对目标函数进行梯度下降更新状态网络ψ；所述经验池为当前状态s
t
，行动a
t
、奖励r(s
t
，a
t
)，以及下一时刻状态s
t+1
组成的经验样本s
t
＝(s
t
，a
t
，r(s
t
，a
t
)，s
t+1
)的集合；更新状态网络ψ采用的目标函数为最大熵模型，具体为：
[0036][0037]
其中，v
ψ
(s
t
)为当前状态s
t
下状态网络ψ的输出值，s
t
～r，a
t
～π
φ
表示状态s
t
从经验池r中采样且动作a
t
从任务卸载策略决策神经网络φ中采样输出，α反应策略熵对奖励的重要程度。
[0038]
优选地，所述面向移动边缘计算用户隐私保护的任务卸载优化方法，其通过采用
双q网络减小对q值的过高估计；具体为：
[0039]
采用q值网络θ1和θ2进行q值估计，q值网络θ1与θ2进行梯度更新，其目标函数jq(θj)，j＝1，2，具体如下：
[0040][0041][0042]
其中，为当前状态下q值网络θj输出的状态动作价值，β是折扣因子，为当前状态s
t
下目标网络输出的状态价值，是目标网络，目的在于稳定q值网络的训练，其进行软更新：络的训练，其进行软更新：湠为软更新参数。
[0043]
总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：
[0044]
本发明针对移动边缘计算任务卸载中考虑了由于无线通信特性导致的位置隐私和使用模式隐私泄露问题，提供的面向移动边缘计算用户隐私保护的任务卸载优化方法，将问题建模为马尔可夫决策过程时，综合考虑隐私保护和计算成本，设定了一个合理的奖励函数，防止过度考虑隐私保护而导致计算成本难以接受的问题。本发明不仅有效地保护了用户位置隐私和使用设备模式隐私，而且兼顾了任务卸载过程中的计算成本，从而综合考虑隐私和计算成本，并在两者之间取得平衡。
[0045]
优选方案，利用信息熵评估任务卸载量与历史任务卸载信息发布特性的相似度，避免了隐私级别收敛到一个固定值从而泄露隐私的风险。
[0046]
优选方案，相比于传统的任务卸载策略，使用了深度强化学习以处理高维连续的状态空间，并且本发明利用最大熵强化学习在提高探索的同时保证稳定性，从而加快收敛速度。
附图说明
[0047]
图1是本发明实施例场景示意图；
[0048]
图2是本发明提供的面向移动边缘计算用户隐私保护的任务卸载优化方法示意图。
具体实施方式
[0049]
为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0050]
本发明提供的面向移动边缘计算用户隐私保护的任务卸载优化方法，包括以下步骤：
[0051]
当移动设备发送任务卸载请求时，获取移动设备生成的任务量、当前无线信道增
益状态，并检查移动设备本地是否存在收敛的任务卸载策略决策神经网络，若存在则：
[0052]
采用所述任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化策略进行任务卸载；否则：
[0053]
初始化任务卸载策略决策神经网络，并读取历史决策参数以及任务卸载策略，将所述任务卸载策略决策神经网络训练至收敛，获得收敛的任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化决策进行任务策略。所述任务卸载决策χ
t
为移动设备任务卸载比例。
[0054]
所述决策参数包括移动设备生成的任务量a
t
、当前无线信道增益h
t
、不同信道增益状态下历史任务卸载信息wi中卸载量的均值的集合所述不同信道增益状态下历史任务卸载信息wi中的所有卸载量的均值μi，i∈g，g为无线信道增益状态集合，无线信道增益状态根据阈值和划分为良好(good)、正常(normal)、以及不良(bad)，无线信道增益状态集合即状态空间为g＝{good，normal，bad}；不同信道增益状态下历史任务卸载信息wi中卸载量的均值的集合定义为其中历史任务卸载信息wi为不同无线信道增益状态下的历史卸载信息，记作：为移动设备在时隙t的卸载量。
[0055]
所述任务卸载策略决策神经网络，为马尔可夫决策模型，优选为深度增强学习模型，其时隙t：
[0056]
状态s
t
定义为当前决策参数，为由无线信道增益h
t
、不同信道增益状态下历史任务卸载信息由wi中的所有卸载量的均值μi，i∈g组成的向量；
[0057]
动作a
t
定义为移动设备生成的任务量；
[0058]
奖励r(s
t
，a
t
)为卸载任务时隐私保护带来的收益和能量消耗、计算延迟带来的成本之差；计算延迟为本地计算时间和任务传输时间之间的较大值；能量消耗包括本地计算能量消耗和任务传输能量消耗；所述奖励r(s
t
，a
t
)记作：
[0059]
r(s
t
，a
t
)＝ω1h(t)-ω2e
t-ω3d
t
[0060]
其中，ω1h(t)为隐私保护级别h(t)带来的收益，ω2e
t
为能量消耗e
t
带来的成本，ω3d
t
为计算时延d
t
带来的成本，其中ω1、ω2、ω3为权值。
[0061]
所述隐私级别h(t)优选基于信息熵评估，具体基于信息熵评估任务卸载决策的隐私保护级别的方法如下：
[0062][0063]
其中，p(i)为无线信道增益状态i的概率，计算方法如下：
[0064][0065]
其中，γ是一个常量，目的在于将任务卸载量d
o，t
放大到一个区间去估计概率；为无线信道增益状态i下任务卸载量的概率密度函数，优选基于核密度估计，具体为：
[0066][0067]
其中，n表示集合wi的元素个数，b是带宽，k(
·
)是高斯分布概率密度函数，xj表示wi中的元素。
[0068]
故有：
[0069][0070]
所述能量消耗e
t
为本地计算能量消耗e
l，t
和任务传输能量消耗e
o，t
之和，其中，本地计算能量消耗e
l，t
＝t
l，t
p
l
，t
l，t
为时隙t的本地计算时间，为时隙t的本地计算时间，d
l，t
为本地计算量d
l，t
＝(1-χ
t
)a
t
，l为本地芯片处理1bit任务所需要的周期数，f
t
为移动设备的cpu频率，p
l
为本地计算功率，k为设备芯片结构决定的因子；
[0071]
卸载任务传输能量消耗e
o，t
＝t
o，t
po，t
o，t
为时隙t的卸载任务传输时间，d
o，t
为时隙t的卸载任务量，r
t
为上传速率，为上传速率，b为移动设备的上传宽带，po为传输功率，h
t
为无线信道增益，n0为信道噪声功率密度。
[0072]
所述计算延迟d
t
为时隙t的本地计算时间和卸载任务传输时间t
o，t
的较大值，记作：d
t
＝max{t
l，t
，t
o，t
}，其中d
o，t
为时隙t的卸载任务量，r
t
为上传速率。
[0073]
所述任务卸载策略决策神经网络φ，优选采用深度强化学习神经网络对其进行梯度更新，其目标函数j
π
(φ)记作：
[0074][0075]
其中，用于计算期望值，s
t
～r，a
t
～π
φ
表示状态s
t
从经验池r中采样且动作a
t
从任务卸载策略决策神经网络φ中采样输出，α反应策略熵对奖励的重要程度，π
φ
(a
t
|s
t
)为任务卸载策略决策神经网络φ在状态s
t
采取动作a
t
的概率，策略熵logπ
φ
(a
t
|s
t
)描述了策略的随机性，即输出的每一个动作的概率尽可能均匀，而不是集中在一个动作上，从而鼓励探索，学到更多近优行为。动作被重写为函数f
φ
(
·
)输出任务卸载策略决策神经网络φ在状态为s
t
下动作的均值μ和方差σ，ε
t
表示从标准止态分布米样的噪声向量，表示取双q网络输出的最小q值。
[0076]
其深度强化学习神经网络的参数按照如下方法更新：
[0077]
采用状态网络ψ，该状态网络用于评价状态的价值，输入为状态s
t
，输出状态s
t
的价值，从经验池中采样出的经验样本，通过对目标函数进行梯度下降更新状态网络ψ；所述经验池为当前状态s
t
，行动a
t
、奖励r(s
t
，a
t
)，以及下一时刻状态s
t+1
组成的经验样本s
t
＝(s
t
，a
t，
r(s
t
，a
t
)，s
t+1
)的集合；更新状态网络ψ采用的目标函数为最大熵模型，具体为：
[0078][0079]
其中，v
ψ
(s
t
)为当前状态s
t
下状态网络ψ的输出值，s
t
～r，a
t
～π
φ
表示状态s
t
从经验池r中采样且动作a
t
从任务卸载策略决策神经网络φ中采样输出，α反应策略熵对奖励的重要程度，通过采用双q网络减小对q值的过高估计；
[0080]
采用q值网络θ1和θ2进行q值估计，q值网络θ1或θ2进行梯度更新，其目标函数jq(θj)，j＝1，2，具体如下：
[0081][0082][0083]
其中，为当前状态下q值网络θj输出的状态动作价值，β是折扣因子，为当前状态s
t
下目标网络输出的状态价值，是目标网络，目的在于稳定q值网络的训练，其进行软更新：络的训练，其进行软更新：τ为软更新参数。
[0084]
以下为实施例：
[0085]
如图1所示，本发明提供的面向移动边缘计算用户隐私保护的任务卸载优化方法在移动边缘计算网络工作场景为：边缘服务器的服务范围内包含了大量带有移动设备的用户，每个移动设备可以卸载它的计算任务到最近的边缘服务器，从而降低计算延迟和能量消耗。在任务卸载过程中，边缘服务器与移动用户的交互情况如图2所示：
[0086]
等待移动设备发送任务卸载请求，
[0087]
s1、当移动设备发送任务卸载请求时，获取移动设备生成的任务量、当前无线信道增益状态，并检查移动设备本地是否存在收敛的任务卸载策略决策神经网络，若存在则：
[0088]
采用所述任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化策略进行任务卸载；否则：
[0089]
初始化任务卸载策略决策神经网络，并读取历史决策参数以及任务卸载策略，将所述任务卸载策略决策神经网络训练至收敛，获得收敛的任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化决策进行任务策略。所述任务卸载决策χ
t
为移动设备任务卸载比例。具体为：
[0090]
s2、随机初始化用以卸载决策的神经网络参数以及相关的深度强化学习参数，对用户无线信道增益设置多个阈值，划分出不同无线信道增益状态。本实例根据两个阈值和划分无线信道增益状态集合为g＝{good，normal，bad}。移动设备在时隙t做出任务卸载决策并且卸载量为d
o，t
，卸载并且记录不同无线信道增益状态下的历史卸载信息，卸载并且记录不同无线信道增益状态下的历史卸载信息
[0091]
s3、构建移动设备决策参数，获取移动设备生成的任务量a
t
，无线信道增益h
t
，不同信道增益状态下历史任务卸载信息由wi中的所有卸载量的均值μi，i∈g表示，不同信道状态下均值的集合定义为下均值的集合定义为将其作为神经网络的输入参数，获得神
经网络输出的任务卸载决策χ
t
，它表示移动设备任务卸载比例。
[0092]
s4、根据任务卸载决策得出计算成本，其中，计算成本由计算延迟和能量消耗组成。计算延迟包括本地计算时间和任务传输时间，能量消耗包括本地计算能量消耗和任务传输能量消耗。在时隙t，它们的计算过程如下：
[0093]
s41、根据本地计算功率p
l
和移动设备芯片结构决定的因子k计算出移动设备的cpu频率f
t
为：
[0094][0095]
s42、根据本地计算量d
l，t
＝(1-χ
t
)a
t
和本地芯片处理1bit任务所需要的周期数l求出本地计算时间t
l，t
为：
[0096][0097]
s43、根据移动设备的上传宽带b，信道噪声功率密度n0，传输功率po计算出上传速率r
t
为：
[0098][0099]
s44、计算出任务传输时间t
o，t
为：
[0100][0101]
s45、计算出总的计算延迟d
t
为：
[0102]dt
＝max{t
l，t
，t
o，t
}
[0103]
s46、计算出本地计算能量消耗e
l，t
＝t
l
p
l
和任务传输能量消耗e
o，t
＝t
o，t
po。
[0104]
s47、计算出总能耗e
t
＝e
l，t
+e
o，t
。
[0105]
s5、基于信息熵评估任务卸载决策的隐私保护级别，从而估算收益，所述隐私保护级别的方法包含以下步骤：
[0106]
s51、基于“核密度估计”根据不同信道增益状态的任务卸载历史估计出该状态下任务卸载量的概率密度函数为：
[0107][0108]
其中，n表示集合wi的元素个数，b是带宽，k(
·
)是高斯分布概率密度函数，xj表示wi中的元素。
[0109]
s52、在时隙t，计算出从当前任务卸载量d
o，t
推断出信道增益状态为i的概率：
[0110][0111]
其中γ是一个常量，目的在于将任务卸载量d
o，t
放大到一个区间去估计概率。
[0112]
s53、根据信道状态的概率p(i)，基于信息熵计算出当前的隐私级别：
[0113][0114]
s6、在深度强化学习的框架下，更新神经网络的参数，其中，神经网络更新采用两个状态网络ψ和两个q值网络θ1和θ2，任务卸载策略决策神经网络φ构成，其中任务卸载策略决策神经网络φ用于输出决策即动作，其他四个网络用于帮助更新任务卸载策略决策神经网络。
[0115]
本步骤采用最大熵模型，即用策略熵描述策略的随机性，具体的步骤如下：
[0116]
s61、神经网络的输入为决策参数，输出为任务卸载比例，奖励函数r(s
t
，a
t
)根据隐私级别、计算延迟和能量消耗进行计算：
[0117]
r(s
t
，a
t
)＝ω1h(t)-ω2e
t-ω3d
t
[0118]
s62、将经验(s
t，at，
r(s
t
，a
t
)，s
t+1
)放入经验池中。
[0119]
s63、从经验池中采样出小批量的经验样本，通过对目标函数进行梯度下降更新状态网络ψ：
[0120][0121]
其中，v
ψ
(s
t
)为当前状态s
t
下状态网络ψ的输出值，s
t
是从经验池r采样的经验样本且a
t
由任务卸载策略决策神经网络φ采样输出。策略熵描述了策略的随机性，π
φ
(a
t
|s
t
)为任务卸载策略决策神经网络φ在状态s
t
采取动作a
t
的概率，α反应策略熵对奖励的重要程度，优选通过采用双q网络减小对q值的过高估计。
[0122]
s64、采用q值网络θ1和θ2进行q值估计，q值网络θ1或θ2进行梯度更新，其目标函数jq(θj)，j＝1，2，具体如下：
[0123][0124][0125]
其中，为当前状态下q值网络θj的输出值，β是折扣因子，为当前状态s
t
下目标网络的输出值，是目标网络，目的在于稳定q值网络的训练，。
[0126]
s65、对任务卸载策略决策神经网络φ进行梯度更新，其目标函数是：
[0127][0128]
其中，动作被重写为函数f
φ
(
·
)输出任务卸载策略决策神经网络φ在状态为s
t
下动作的均值μ和方差σ，ε
t
表示从标准正态分布采样的噪声向量，表示取双q网络输出的最小q值。
[0129]
s66、对目标状态网络进行软更新：τ为软更新参数。
[0130]
所述任务卸载策略决策神经网络，为马尔可夫决策模型，其时隙t：
[0131]
状态s
t
定义为当前决策参数，为由无线信道增益h
t
、不同信道增益状态下历史任务卸载信息由wi中的所有卸载量的均值μi，i∈g组成的向量；
[0132]
动作a
t
定义为移动设备任务卸载比例χ
t
；
[0133]
奖励r(s
t
，a
t
)为卸载任务时隐私保护带来的收益和能量消耗、计算延迟带来的成本之差；计算延迟包括本地计算时间和任务传输时间；能量消耗包括本地计算能量消耗和任务传输能量消耗；所述奖励r(s
t
，a
t
)记作：
[0134]
r(s
t
，a
t
)＝ω1h(t)-ω2e
t-ω3d
t
[0135]
其中，ω1h(t)为隐私保护级别h(t)带来的收益，ω2e
t
为能量消耗e
t
带来的成本，ω3d
t
为计算时延d
t
带来的成本，其中ω1、ω2、ω3为权值。
[0136]
s7，重复s3-s6的步骤，直到深度强化学习算法收敛。
[0137]
本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，包括以下步骤：当移动设备发送任务卸载请求时，获取移动设备生成的任务量、当前无线信道增益状态，并检查移动设备本地是否存在收敛的任务卸载策略决策神经网络，若存在则：采用所述任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化策略进行任务卸载；否则：初始化任务卸载策略决策神经网络，并读取历史决策参数以及任务卸载策略，将所述任务卸载策略决策神经网络训练至收敛，获得收敛的任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化决策进行任务策略；所述任务卸载决策χ
t
为移动设备任务卸载比例；所述卸载策略决策神经网络，为马尔可夫决策模型，其训练时所采用的奖励为卸载任务时隐私保护带来的收益和能量消耗、计算延迟带来的成本之差。2.如权利要求1所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述决策参数包括移动设备生成的任务量a
t
、当前无线信道增益h
t
、不同信道增益状态下历史任务卸载信息w
i
中卸载量的均值的集合所述不同信道增益状态下历史任务卸载信息w
i
中的所有卸载量的均值μ
i
，i∈g，g为无线信道增益状态集合，无线信道增益状态根据阈值和划分为良好(good)、正常(normal)、以及不良(bad)，无线信道增益状态集合即状态空间为g＝{good，normal，bad}；不同信道增益状态下历史任务卸载信息w
i
中卸载量的均值的集合定义为其中历史任务卸载信息w
i
为不同无线信道增益状态下的历史卸载信息，记作：道增益状态下的历史卸载信息，记作：d
o，t
为移动设备在时隙t的卸载量。3.如权利要求2所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述任务卸载策略决策神经网络为深度增强学习模型。4.如权利要求3所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述深度增强学习模型在时隙t：状态s
t
定义为当前决策参数，为由无线信道增益h
t
、移动设备生成的任务量a
t
、不同信道状态下历史卸载信息中卸载量均值μ
i
，i∈g组成的向量；动作a
t
定义为移动设备生成的任务量；奖励r(s
t
，a
t
)记作：r(s
t
，a
t
)＝ω1h(t)-ω2e
t-ω3d
t
其中，ω1h(t)为隐私保护级别h(t)带来的收益，ω2e
t
为能量消耗e
t
带来的成本，ω3d
t
为计算时延d
t
带来的成本，其中ω1、ω2、ω3为权值。5.如权利要求4所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述隐私级别h(t)优选基于信息熵评估，具体基于信息熵评估任务卸载决策的隐私保护级别的方法如下：
其中，p(i)为无线信道增益状态i的概率，计算方法如下：其中，γ是一个常量，目的在于将任务卸载量d
o，t
放大到一个区间去估计概率；为无线信道增益状态i下任务卸载量的概率密度函数，优选基于核密度估计，具体为：其中，n表示集合w
i
的元素个数，b是带宽，k(
·
)是高斯分布概率密度函数，x
j
表示w
i
中的元素。故有：6.如权利要求1所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述计算延迟为本地计算时间和卸载任务传输时间之间的较大值；记作：d
t
＝max{t
l，t
，t
o，t
}，其中t
l，t
为时隙t的本地计算时间，t
o，t
为时隙t的卸载任务传输时间。7.如权利要求1所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述能量消耗e
t
为本地计算能量消耗e
l，t
和卸载任务传输能量消耗e
o，t
之和；其中，本地计算能量消耗e
l，t
＝t
l，t
p
l
，t
l，t
为时隙t的本地计算时间，p
l
为本地计算功率；任务传输能量消耗e
o，t
＝t
o，t
p
o
，t
o，t
为时隙t的卸载任务传输时间，p
o
为传输功率。8.如权利要求1所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，所述任务卸载策略决策神经网络，采用深度强化学习神经网络对其进行梯度更新，其目标函数j
π
(φ)记作：其中，用于计算期望值，s
t
～r，a
t
～π
φ
表示状态s
t
从经验池r中采样且动作a
t
从任务卸载策略决策神经网络φ中采样输出，α反应策略熵对奖励的重要程度，π
φ
(a
t
|s
t
)为任务卸载策略决策神经网络φ在状态s
t
采取动作a
t
的概率，动作被重写为函数f
φ
(
·
)输出任务卸载策略决策神经网络φ在状态为s
t
下动作的均值μ和方差σ，ε
t
表示从标准正态分布采样的噪声向量，表示取双q网络输出的最小q值。9.如权利要求8所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，深度强化学习神经网络的参数按照如下方法更新：采用状态网络ψ，该状态网络用于评价状态的价值，输入为状态s
t
，输出状态s
t
的价值，
从经验池中采样出的经验样本，通过对目标函数进行梯度下降更新状态网络ψ；所述经验池为当前状态s
t
，行动a
t
、奖励r(s
t
，a
t
)，以及下一时刻状态s
t+1
组成的经验样本s
t
＝(s
t
，a
t
，r(s
t
，a
t
)，s
t+1
)的集合；更新状态网络ψ采用的目标函数为最大熵模型，具体为：其中，v
ψ
(s
t
)为当前状态s
t
下状态网络ψ的输出值，s
t
～r，a
t
～π
φ
表示状态s
t
从经验池r中采样且动作a
t
从任务卸载策略决策神经网络φ中采样输出，α反应策略熵对奖励的重要程度。10.如权利要求9所述的面向移动边缘计算用户隐私保护的任务卸载优化方法，其特征在于，通过采用双q网络减小对q值的过高估计；具体为：采用q值网络θ1和θ2进行q值估计，q值网络θ1与θ2进行梯度更新，其目标函数j
q
(θ
j
)，j＝1，2，具体如下：1，2，具体如下：其中，为当前状态下q值网络θ
j
输出的状态动作价值，β是折扣因子，为当前状态s
t
下目标网络输出的状态价值，是目标网络，目的在于稳定q值网络的训练，其进行软更新：湠为软更新参数。

技术总结
本发明公开了一种面向移动边缘计算用户隐私保护的任务卸载优化方法。采用获取移动设备生成的任务量、当前无线信道增益状态，采用所述任务卸载策略决策神经网络，根据决策参数决策任务卸载优化策略，并按照所述任务卸载优化策略进行任务卸载；所述卸载策略决策神经网络，为马尔可夫决策模型，其训练时所采用的奖励为卸载任务时隐私保护带来的收益和能量消耗、计算延迟带来的成本之差。本发明不仅有效地保护了用户位置隐私和使用设备模式隐私，而且兼顾了任务卸载过程中的计算成本，从而综合考虑隐私和计算成本，并在两者之间取得平衡。并在两者之间取得平衡。并在两者之间取得平衡。

技术研发人员：沈士根高正俊叶晓彤沈亦周刘建华孙攀军
受保护的技术使用者：绍兴文理学院
技术研发日：2022.02.10
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-20260.html

专利

最新回复(0)