一种自适应客户端参数更新的联邦学习方法、系统及存储介质

专利查询2022-08-14 132

1.本发明涉及无线通信网络技术领域，具体涉及一种自适应客户端参数更新的联邦学习方法、系统及存储介质。

背景技术：

2.在过去的数年里，见证了机器学习在人工智能应用领域中的迅猛发展，这些机器学习技术的成功，无一不建立在大量的数据基础之上，通过使用这些大数据，实现人工智能在许多领域执行人类难以完成的任务。
3.但是随着社会发展，人们发现在许多应用领域，满足上述规模的数据量是难以甚至无法达到的。原因在于，随着人工智能的发展，人们对于用户隐私和数据安全的关注度也在增加；所以对于数据也失去了掌控，加剧了数据孤岛的严重性，阻碍着训练人工智能模型所必需的大数据的使用。因此，联邦学习应运而生，它允许参与训练的客户端将数据保存在本地并且训练过程不共享，只在训练过程中分享本地数据上训练的机器学习模型的参数，而且模型参数可以利用压缩机制、安全多方计算、差分隐私等技术进行保护，在很大程度上保护了用户的隐私安全。
4.然而，作为新兴的技术，联邦学习仍然存在一些问题。通过浏览分析对比，发现现有联邦学习存在的问题和缺陷如下：
5.联邦学习存在数据质量问题，具体表现为：由于数据集存储在本地，服务器无法接触到数据源，难以保证数据的标签是否正确，数据是否发生了混淆等问题；联邦学习同步迭代存在等待时长问题，具体表现为：联邦服务器与客户端之间以同步的方式交换模型参数需要等待所有客户端模型全部更新完毕才能开始新的迭代过程，因为存在系统异构性问题，计算能力强的、网络状态好的客户端存在大量空闲等待时间；部分场景下联邦学习通信效率不高，当前的联邦学习大多都是同步的，一次迭代中，服务器要与众多的参与方进行数据交互。如果要采用多种防御手段保证模型与敏感信息的安全，势必会加重服务器的通信负担，甚至会造成拒绝服务攻击或单点失败。

技术实现要素：

6.本发明目的在于提供一种自适应客户端参数更新的联邦学习方法、系统及存储介质，解决了联邦学习同步迭代问题和通信效率问题，更好的发挥联邦学习的特长，将联邦学习应用到更多实际场景中。
7.为达成上述目的，本发明提出如下技术方案：一种自适应客户端参数更新的联邦学习方法，应用于中央服务器，包括：
8.在中央服务器使用q-learning的算法建立q表，其中，q表的建立过程为在中央服务器的任意状态s1下出发，选定任一动作a下发至所有客户端，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，动作a作为中央服务器进入的下一个新状态s2，重复执行计算，直至q
表不再变化或者变化在设定范围内；
9.中央服务器广播其初始化的全局模型参数至所有客户端，以便各个客户端根据其拥有的本地数据进行训练，更新本地资源信息；
10.接收客户端上传的其本地更新的资源信息，并采用马尔科夫决策过程依据所述资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，最大q值对应的动作a作为客户端下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；
11.接收所有客户端上传的本地模型的参数，采用联邦平均算法聚合，更新全局模型参数；其中，客户端上传的本地模型的参数为本地更新局部最优模型的参数；
12.下发更新后的全局模型参数至各个客户端，以便客户端重复执行上述确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。
13.进一步，所述马尔科夫决策过程定义为联邦学习系统中客户端本地更新局部最优模型的选择策略问题，记为《s，a，p，r》，其中，s、a、p和r分别为联邦学习系统的状态空间、动作空间、状态转换概率和奖励函数；
14.所述状态空间s表示为系统中所有客户端的资源信息，定义为
[0015][0016]
其中，ⅱ为笛卡尔积，n为联邦学习系统中客户端的数量，sk为客户端k的状态，客户端k的状态表示为
[0017]
sk＝{fk,ek,wk；fk≤f,ek≤e,wk≤w}
[0018]
其中，f、e、w分别为中央服务器的周期频率、能量单位和无线带宽的限制，fk为客户端k的周期频数，ek为客户端k的能量单位，wk为客户端k的无线带宽的限制；
[0019]
所述操作空间a表示为中央服务器对系统包含的所有客户端本地更新局部最优模型的选择策略的组合，定义为
[0020][0021]
其中，ak为客户端k的动作，并且ak＝0或1；
[0022]
当ak＝0表示客户端k不上传局部模型的更新，ak＝1表示客户端k上传本轮局部模型的更新；
[0023]
所述状态转换概率p表示为联邦学习系统从当前状态s1转换到下一个状态s2的概率，状态转换是根据系统中所有客户端状态的转换来确定的；
[0024]
所述中央服务器根据客户端上传的本地更新局部最优模型的参数进行全局模型参数更新，并根据积累奖赏评估根据马尔科夫决策方法寻找的客户端在本地更新最优模型策略的好坏，获得最优策略；其中，最优策略表示客户端在初始状态下一直执行该策略，直到客户端的状态达到局部的模型收敛或设定的局部模型精度；
[0025]
所述累积奖赏采用奖励函数r表示，计算方法为：
[0026][0027]
其中，rs表示客户端k达到局部的模型收敛或设定的局部模型精度的状态s下的累积奖赏，α、β均为折扣因子，m为客户端一轮训练的本地更新次数，bk为客户端每次迭代所需要的能量消耗；
[0028]
客户端k每次迭代所消耗的能量bk计算如下：
[0029]bk
＝f
k2
μg
[0030]
其中，μ为训练数据，g为处理一个本地数据所需的中央服务器周期数。
[0031]
进一步，自适应客户端参数更新的联邦学习方法应用于客户端，包括：
[0032]
接收中央服务器下发的初始化的全局模型参数，根据其拥有的本地数据进行训练，更新本地资源信息；
[0033]
上传其本地更新的资源信息至中央服务器，以便中央服务器采用马尔科夫决策过程依据该资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，q表为中央服务器使用q-learning的算法建立，建立过程为在中央服务器的任意状态s1下出发，选定任一动作a下发至所有客户端，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，动作a作为中央服务器进入的下一个新状态s2，重复执行计算，直至q表不再变化或者变化在设定范围内；
[0034]
以动作a作为下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；
[0035]
上传本地更新局部最优模型的参数至中央服务器，以便中央服务器采用联邦平均算法聚合，更新全局模型参数；
[0036]
接收中央服务器下发的更新后的全局模型参数，重复执行上述确定本地更新局部最优模型的本地更新过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。
[0037]
进一步的，定义联邦学习系统包括n个客户端，每个客户端存储有本地数据，则系统的本地损失函数和全局损失函数分别为：
[0038][0039][0040][0041]
其中，i、j分别为联邦学习系统中的任一个客户端，w为全局模型的权重矩阵，d为所有客户端存储的本地数据集合。
[0042]
进一步的，所述初始化的全局模型参数为将全局损失函数中包含的全局模型的权重矩阵w初始化为0。
[0043]
进一步的，所述客户端根据其拥有的本地数据进行训练过程为在本地数据上进行一次或多次的梯度下降更新。
[0044]
本发明另一技术方案在于公开一种自适应客户端参数更新的联邦学习系统，该系统包括中央服务器和网络连接于中央服务器的若干客户端，以及如下模块：
[0045]
建立模块，用于在中央服务器使用q-learning的算法建立q表，其中，q表的建立过程为在中央服务器的任意状态s1下出发，选定任一动作a下发至所有客户端，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，动作a作为中央服务器进入的下一个新状态s2，重复执行计算，直至q表不再变化或者变化在设定范围内；
[0046]
广播模块，用于中央服务器广播其初始化的全局模型参数至所有客户端，以便各个客户端根据其拥有的本地数据进行训练，更新本地资源信息；
[0047]
第一接收模块，用于接收客户端上传的其本地更新的资源信息，并采用马尔科夫决策过程依据所述资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，最大q值对应的动作a作为客户端下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；
[0048]
第二接收模块，用于接收所有客户端上传的本地模型的参数，采用联邦平均算法聚合，更新全局模型参数；其中，客户端上传的本地模型的参数为本地更新局部最优模型的参数；
[0049]
下发模块，用于下发更新后的全局模型参数至各个客户端；
[0050]
重复迭代模块，用于客户端根据接收的更新后的全局模型参数重复执行确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。
[0051]
本发明还公开一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联邦学习系统的控制程序，所述联邦学习系统的控制程序被所述处理器执行时实现上述的自适应客户端参数更新的联邦学习方法。
[0052]
本发明又一技术方案在于公开一种存储介质，所述存储介质上存储有联邦学习系统的控制程序，所述联邦学习系统的控制程序被处理器执行时实现上述的自适应客户端参数更新的联邦学习方法
[0053]
由以上技术方案可知，本发明的技术方案获得了如下有益效果：
[0054]
本发明公开的自适应客户端参数更新的联邦学习方法、系统及存储介质，其方法包括：先在中央服务器使用q-learning的算法建立q表；然后再由中央服务器广播其初始化的全局模型参数至所有客户端，各个客户端根据其拥有的本地数据进行训练，更新并上传本地资源信息至中央服务器；随后，中央服务器通过马尔科夫决策过程依据资源信息对应的状态s1在q表中选择最大q值对应的动作a反馈至客户端，该最大q值对应的动作a作为客户端下一个新状态s2，重复执行计算多次迭代，直至局部的模型收敛或达到设定的局部模型精度；客户端上传本地更新局部最优模型的参数，以便中央服务器采用联邦平均算法聚合，更新并下发全局模型参数；各客户端重复执行上述确定更新次数最优值的本地更新过程，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。
[0055]
本发明通过马尔科夫决策的方法寻找客户端本地更新次数的最优值，降低中央服务器全局聚合的次数，高效执行联邦学习任务，降低联邦学习模型参数所需的通信代价，并
动态选择本地更新最优值，提高联邦学习整体训练效率。
[0056]
应当理解，前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。
[0057]
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见，或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
[0058]
附图不意在按比例绘制。在附图中，在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见，在每个图中，并非每个组成部分均被标记。现在，将通过例子并参考附图来描述本发明的各个方面的实施例，其中：
[0059]
图1是本发明提出的联邦学习系统的结构图；
[0060]
图2是本发明采用强化学习中q-learning的过程图；
[0061]
图3是本发明提出的自适应客户端参数更新的联邦学习方法流程图。
[0062]
图中，各标记的具体意义为：
[0063]
1-中央服务器，2-客户端。
具体实施方式
[0064]
为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例的附图，对本发明实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于所描述的本发明的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。除非另作定义，此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。
[0065]
本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，除非上下文清楚地指明其它情况，否则单数形式的“一个”“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现在“包括”或者“包含”前面的元件或者物件涵盖出现在“包括”或者“包含”后面列举的特征、整体、步骤、操作、元素和/或组件，并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。“上”“下”“左”“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
[0066]
针对现有技术中联邦学习存在通信开销问题，导致客户端本地更新次数没有达到最优值、部分场景下联邦学习通信效率不高，不符合工业应用场景的需求的技术问题，本发明提供了一种自适应客户端参数更新的联邦学习方法、系统及存储介质，解决联邦学习通信开销问题。
[0067]
下面结合附图所示的实施例，对本发明的一种自适应客户端参数更新的联邦学习方法、系统及存储介质作进一步具体介绍。
[0068]
结合图3所示，本发明一实施例提供的自适应客户端参数更新的联邦学习方法执
行时包括如下步骤：中央服务器1下发全局模型至所属的客户端2；客户端2利用本地数据对模型进行更新；客户端2在下一个全局模型训练过程前估计能量消耗和传输延迟，利用强化学习去选择的本地更新局部最优模型；当客户端2本地更新次数达到训练的本地更新最优模型时，再将模型上传到中央服务器进行全局聚合；重复执行上述本地更新过程，直至达到预设条件。通过寻找客户端2在本地更新局部最优模型选择策略，避免客户端2在每一次本地更新后上传本地模型参数，降低全局聚合的次数，达到减少通信开销的目的。
[0069]
具体的，当本发明方法应用于中央服务器1时，包括：在中央服务器1使用q-learning的算法建立q表；广播其初始化的全局模型参数至所有客户端2，以便各个客户端2根据其拥有的本地数据进行训练，更新本地资源信息；接收客户端2上传的其本地更新的资源信息，并采用马尔科夫决策过程依据资源信息对应的状态s在q表中选择最大q值对应的动作a反馈至客户端2；其中，最大q值对应的动作a为客户端2下一个新状态s2，重复执行计算多次迭代，直至局部的模型收敛或达到设定的局部模型精度；接收所有客户端2上传的本地更新局部最优模型的参数，采用联邦平均算法聚合，更新全局模型参数；下发更新后的全局模型参数至各个客户端2，以便客户端2重复执行上述确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端2内全局模型收敛或达到设定全局模型精度。
[0070]
当本发明的方法应用于客户端2时，包括：接收中央服务器1下发的初始化的全局模型参数，根据其拥有的本地数据进行训练，更新本地资源信息；上传其本地更新的资源信息至中央服务器1，以便中央服务器1采用马尔科夫决策过程依据该资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端，最大q值对应的动作a为客户端下一个新状态s2，重复执行计算多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；客户端2上传本地更新局部最优模型的参数至中央服务器1，以便中央服务器1采用联邦平均算法聚合，更新全局模型参数；接收中央服务器1下发的更新后的全局模型参数，重复执行上述确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端2内全局模型收敛或达到设定全局模型精度。
[0071]
如图2所示，上述方法应用时，q表的建立过程如下，即在中央服务器1的任意状态s下出发，选定动作a下发至所有客户端2，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，根据选定的动作a作为客户端2下一个新状态s，重复执行计算，直至q表不再变化或者变化在设定范围内。
[0072]
另外，当客户端2上传1其更新的资源信息到中央服务器1后，中央服务器1首先观察所有客户端2的资源信息，如无线道状态以及实时能量状态，然后根据客户端2的资源信息，依据马尔科夫决策过程进行最优策略的选择。
[0073]
方法实施中，将联邦学习系统中用于训练客户端2本地更新局部最优模型的选择策略问题用马尔科夫决策过程表达，记为《s，a，p，r》，其中，s、a、p和r分别为联邦学习系统的状态空间、动作空间、状态转换概率和奖励函数；
[0074]
状态空间s表示为系统中所有客户端2的资源信息，定义为
[0075][0076]
其中，ⅱ为笛卡尔积，n为联邦学习系统中客户端2的数量，sk为客户端k的状态，客
户端k的状态表示为
[0077]
sk＝{fk,ek,wk；fk≤f,ek≤e,wk≤w}
[0078]
其中，f、e、w分别为中央服务器的周期频率、能量单位和无线带宽的限制，fk为客户端k的周期频数，ek为客户端k的能量单位，wk为客户端k的无线带宽的限制；
[0079]
操作空间a表示为中央服务器1对系统包含的所有客户端2的本地更新次数的选择策略的组合，定义为
[0080][0081]
其中，ak为客户端k的动作，并且ak＝0或1；
[0082]
当ak＝0表示客户端k不上传局部模型的更新，ak＝1表示客户端k上传本轮局部模型的更新；
[0083]
状态转换概率p表示为联邦学习系统从当前状态s1转换到下一个状态s2的概率，状态转换是根据系统中所有客户端2状态的转换来确定的；
[0084]
所述中央服务器根据客户端上传的本地更新局部最优模型的参数进行全局模型参数更新，并根据积累奖赏评估根据马尔科夫决策方法寻找的客户端在本地更新最优模型策略的好坏，获得最优策略；其中，最优策略表示客户端在初始状态下一直执行该策略，直到客户端的状态达到局部的模型收敛或设定的局部模型精度；
[0085]
所述累积奖赏采用奖励函数r表示，计算方法为：
[0086][0087]
其中，rs表示客户端k达到局部的模型收敛或设定的局部模型精度的状态s下的累积奖赏，α、β均为折扣因子，m为客户端一轮训练的本地更新次数，bk为客户端每次迭代所需要的能量消耗；
[0088]
客户端2每次迭代所消耗的能量bk计算如下：
[0089]bk
＝f
k2
μg
[0090]
其中，μ为训练数据，g为处理一个本地数据所需的中央服务器周期数。
[0091]
本发明提出的自适应客户端参数更新的联邦学习方法，适用于图1所示的联邦学习系统。具体的，定义联邦学习系统包括n个客户端2，每个客户端2存储有本地数据，则系统中单个客户端2的本地数据上训练所得的平均损失函数，即本地损失函数fi(w)，和在所有客户端2组成的本地数据集合上训练的损失函数，即全局损失函数f(w)分别为：
[0092][0093]
[0094][0095]
其中，i、j分别为联邦学习系统中的任一个客户端2，w为全局模型的权重矩阵，d为所有客户端2存储的本地数据集合。机器学习问题的核心就是通过输入数据集迭代更新求解损失函数的参数集合，使损失函数减小到设定值；联邦学习系统的训练任务同样也是求解权重矩阵w，权重矩阵w是使全局损失函数最优的解。
[0096]
实施例中，中央服务器1广播的初始化的全局模型参数获得方式为将全局损失函数中包含的全局模型的权重矩阵w初始化为0，客户端2在接收到中央服务器1反馈的客户端2本地更新次数的最优值后进行本地训练过程为在本地数据上进行一次或多次的梯度下降更新。
[0097]
在本实施例中，还提供一种电子设备，该设备包括处理器、存储器，以及存储在存储器上并可在处理器上运行的联邦学习系统的控制程序；当联邦学习系统的控制程序被处理器执行时，处理器运行上述实施例中的方法。
[0098]
上述联邦学习系统的控制程序可以运行在处理器中，或者也可以存储在计算机可读的存储介质中，存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。存储存质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，存储介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。
[0099]
这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。
[0100]
示例性的，本实施例中就提供了这样的一种系统，即自适应客户端参数更新的联邦学习系统，该系统包括中央服务器1和网络连接于中央服务器1的若干客户端2，以及如下程序模块：建立模块，用于在中央服务器使用q-learning的算法建立q表；广播模块，用于中央服务器广播其初始化的全局模型参数至所有客户端，以便各个客户端根据其拥有的本地数据进行训练，更新本地资源信息；第一接收模块，用于接收客户端上传的其本地更新的资源信息，并采用马尔科夫决策过程依据所述资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，最大q值对应的动作a作为客户端下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；第二接收模块，用于接收所有客户端上传的本地模型的参数，采用联邦平均算法聚合，更新全局模型参数；其中，客户端上传的本地模型的参数为本地更新局部最优模型的参数；下发模块，用于下发更新后的全局模型参数至各个客户端；重复迭代模块，用于客户端根据接收的更新
后的全局模型参数重复执行确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。
[0101]
可选的，建立模块中q表的建立过程为在中央服务器1的任意状态s1下出发，选定任一动作a下发至所有客户端2，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，选定的动作a作为中央服务器1进入的下一个新状态s2，重复执行计算，直至q表不再变化或者变化在设定范围内。q-learning算法的主要思想就是将状态s和动作a构建成一张q表来存储q值，然后根据q值来选取能够获得最大收益的动作。
[0102]
本系统在运行时先通过客户端2对初始化的全局参数在本地进行更新，上传资源信息，即状态s给中央服务器1，在中央服务器1利用强化学习中的马尔科夫决策从再先建立的q表中选择q值最大那个动作a反馈给客户端2，其中，最大q值对应的动作a作为客户端2下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；然后，客户端2上传更新后的本地更新局部最优模型的参数，以便中央服务器1进行全局聚合更新全局模型参数，进而很大程度上减少本地开销以及通信开销。
[0103]
通过马尔科夫决策的方法联邦学习系统中客户端本地更新局部最优模型的选择策略问题，通过在客户端2获取本地更新的局部最优模型再上传中央服务器进行全局聚合，降低中央服务器全局聚合的次数，高效执行联邦学习任务，降低联邦学习模型参数所需的通信代价，并动态选择本地更新最优值，提高联邦学习整体训练效率。
[0104]
虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种的更动与润饰。因此，本发明的保护范围当视权利要求书所界定者为准。

技术特征：
1.一种自适应客户端参数更新的联邦学习方法，其特征在于，应用于中央服务器，包括：在中央服务器使用q-learning的算法建立q表，其中，q表的建立过程为在中央服务器的任意状态s1下出发，选定任一动作a下发至所有客户端，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，动作a作为中央服务器进入的下一个新状态s2，重复执行计算，直至q表不再变化或者变化在设定范围内；中央服务器广播其初始化的全局模型参数至所有客户端，以便各个客户端根据其拥有的本地数据进行训练，更新本地资源信息；接收客户端上传的其本地更新的资源信息，并采用马尔科夫决策过程依据所述资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，最大q值对应的动作a作为客户端下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；接收所有客户端上传的本地模型的参数，采用联邦平均算法聚合，更新全局模型参数；其中，客户端上传的本地模型的参数为本地更新局部最优模型的参数；下发更新后的全局模型参数至各个客户端，以便客户端重复执行上述确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。2.根据权利要求1所述的自适应客户端参数更新的联邦学习方法，其特征在于，所述马尔科夫决策过程定义为联邦学习系统中客户端本地更新局部最优模型的选择策略问题，记为<s，a，p，r>，其中，s、a、p和r分别为联邦学习系统的状态空间、动作空间、状态转换概率和奖励函数；所述状态空间s表示为系统中所有客户端的资源信息，定义为其中，ⅱ为笛卡尔积，n为联邦学习系统中客户端的数量，s
k
为客户端k的状态，客户端k的状态表示为s
k
＝{f
k
,e
k
,w
k
；f
k
≤f,e
k
≤e,w
k
≤w}其中，f、e、w分别为中央服务器的周期频率、能量单位和无线带宽的限制，f
k
为客户端k的周期频数，e
k
为客户端k的能量单位，w
k
为客户端k的无线带宽的限制；所述操作空间a表示为中央服务器对系统包含的所有客户端本地更新局部最优模型的选择策略的组合，定义为其中，a
k
为客户端k的动作，并且a
k
＝0或1；当a
k
＝0表示客户端k不上传局部模型的更新，a
k
＝1表示客户端k上传本轮局部模型的更新；所述状态转换概率p表示为联邦学习系统从当前状态s1转换到下一个状态s2的概率，状态转换是根据系统中所有客户端状态的转换来确定的；
所述中央服务器根据客户端上传的本地更新局部最优模型的参数进行全局模型参数更新，并根据积累奖赏评估根据马尔科夫决策方法寻找的客户端在本地更新最优模型策略的好坏，获得最优策略；其中，最优策略表示客户端在初始状态下一直执行该策略，直到客户端的状态达到局部的模型收敛或设定的局部模型精度；所述累积奖赏采用奖励函数r表示，计算方法为：其中，r
s
表示客户端k达到局部的模型收敛或设定的局部模型精度的状态s下的累积奖赏，α、β均为折扣因子，m为客户端一轮训练的本地更新次数，b
k
为客户端每次迭代所需要的能量消耗；客户端k每次迭代所消耗的能量b
k
计算如下：b
k
＝f
k2
μg其中，μ为训练数据，g为处理一个本地数据所需的中央服务器周期数。3.根据权利要求1所述的自适应客户端参数更新的联邦学习方法，其特征在于，应用于客户端，包括：接收中央服务器下发的初始化的全局模型参数，根据其拥有的本地数据进行训练，更新本地资源信息；上传其本地更新的资源信息至中央服务器，以便中央服务器采用马尔科夫决策过程依据该资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，q表为中央服务器使用q-learning的算法建立，建立过程为在中央服务器的任意状态s1下出发，选定任一动作a下发至所有客户端，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，动作a作为中央服务器进入的下一个新状态s2，重复执行计算，直至q表不再变化或者变化在设定范围内；以动作a作为下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；上传本地更新局部最优模型的参数至中央服务器，以便中央服务器采用联邦平均算法聚合，更新全局模型参数；接收中央服务器下发的更新后的全局模型参数，重复执行上述确定本地更新局部最优模型的本地更新过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。4.根据权利要求1所述的自适应客户端参数更新的联邦学习方法，其特征在于，定义联邦学习系统包括n个客户端，每个客户端存储有本地数据，则系统的本地损失函数和全局损失函数分别为：失函数分别为：
其中，i、j分别为联邦学习系统中的任一个客户端，w为全局模型的权重矩阵，d为所有客户端存储的本地数据集合。5.根据权利要求4所述的自适应客户端参数更新的联邦学习方法，其特征在于，所述初始化的全局模型参数为将全局损失函数中包含的全局模型的权重矩阵w初始化为0。6.根据权利要求1所述的自适应客户端参数更新的联邦学习方法，其特征在于，所述中央服务器和任一客户端网络连接。7.根据权利要求1所述的自适应客户端参数更新的联邦学习方法，其特征在于，所述客户端根据其拥有的本地数据进行训练过程为在本地数据上进行一次或多次的梯度下降更新。8.一种自适应客户端参数更新的联邦学习系统，其特征在于，包括中央服务器和网络连接于中央服务器的若干客户端，以及如下模块：建立模块，用于在中央服务器使用q-learning的算法建立q表，其中，q表的建立过程为在中央服务器的任意状态s1下出发，选定任一动作a下发至所有客户端，获得反馈的奖赏r，根据奖赏r计算q值并填入q表，动作a作为中央服务器进入的下一个新状态s2，重复执行计算，直至q表不再变化或者变化在设定范围内；广播模块，用于中央服务器广播其初始化的全局模型参数至所有客户端，以便各个客户端根据其拥有的本地数据进行训练，更新本地资源信息；第一接收模块，用于接收客户端上传的其本地更新的资源信息，并采用马尔科夫决策过程依据所述资源信息对应的状态在q表中选择最大q值对应的动作a反馈至客户端；其中，最大q值对应的动作a作为客户端下一个新状态s2，多次迭代，直至局部的模型收敛或达到设定的局部模型精度，获得本地更新局部最优模型；第二接收模块，用于接收所有客户端上传的本地模型的参数，采用联邦平均算法聚合，更新全局模型参数；其中，客户端上传的本地模型的参数为本地更新局部最优模型的参数；下发模块，用于下发更新后的全局模型参数至各个客户端；重复迭代模块，用于客户端根据接收的更新后的全局模型参数重复执行确定本地更新局部最优模型的过程，多次迭代，直至联邦学习系统中所有客户端内全局模型收敛或达到设定全局模型精度。9.一种电子设备，其特征在于，所述电子设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的联邦学习系统的控制程序，所述联邦学习系统的控制程序被所述处理器执行时实现如权利要求1至7中任一项所述的自适应客户端参数更新的联邦学习方法。10.一种存储介质，其特征在于，所述存储介质上存储有联邦学习系统的控制程序，所述联邦学习系统的控制程序被处理器执行时实现如权利要求1至7中任一项所述的自适应客户端参数更新的联邦学习方法。

技术总结
本发明提供的自适应客户端参数更新的联邦学习方法、系统及存储介质，涉及无线通信网络技术领域；该方法包括中央服务器下发全局模型至所属的客户端；客户端利用本地数据对模型进行更新；客户端在下一个全局模型训练过程前估计能量消耗和传输延迟，利用强化学习去选择的本地更新的次数；当客户端本地更新次数达到训练的本地更新最优值时，再将模型上传到中央服务器进行全局聚合；本发明能高效执行联邦学习任务，降低联邦学习学习模型所需的通信代价，并选择客户端本地更新的局部最优模型，提高联邦学习整体训练效率。高联邦学习整体训练效率。高联邦学习整体训练效率。

技术研发人员：潘紫柔吴宣够卫琳娜张卫东
受保护的技术使用者：安徽工业大学
技术研发日：2022.02.18
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-7783.html

专利

最新回复(0)