专利 基于强化学习的联邦学习客户端智能选择方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211082292.9 (22)申请日 2022.09.06 (71)申请人哈尔滨理工大学地址 150001 黑龙江省哈尔滨市南岗区学府路52号哈尔滨理工大学 (72)发明人朱素霞　颜培森　孙广路　 (51)Int.Cl. G06N 20/00(2019.01) G06F 21/62(2013.01) (54)发明名称基于强化学习的联邦学习客户端智能选择方法 (57)摘要本发明提出一种联邦学习方法，尤其涉及一种基于强化学习的联邦学习客户端智能选取方法，属于大规模分布式边缘智能学习系统的性能优化技术领域。解决了联邦学习领域中非独立同分布数据给训练模型带来的收敛速度慢、训练准确率下降的问题。本申请在不借助任何辅助数据集，并保证客户端本地数据对服务器端不可见的隐私前提要求下，设计了一种基于数据向量的方案来揭示参与训练的联邦客户端的本地数据分布情况；在此基础上，设计一种面向平衡类分布的客户端选择算法；并基于强化学习的模型平衡每一轮联邦选择的探索与开发，从而提高联邦学习全局模型的收敛性能。权利要求书3页说明书6页附图2页 CN 115470932 A 2022.12.13 CN 115470932 A 1.一种基于强化学习的联邦学习客户端智能选择方法，其特征在于，包括以下步骤： S1.首先每一个参与联邦训练的客户端将本地数据分布向量发送给服务器端； S2.服务器得到所有参与联邦训练的客户端的本地数据分布向量后，将数据进行整理，得到客户端数据中每个类别向量的最大值，组成新的目标向量； S3.服务器端计算目标向量与每个客户端数据分布向量的Tonimoto系数，得到的值作为每个客户端的原始回报值； S4.服务器端根据训练的目标任务确定初始化模型； S5.根据多臂老虎机模型中的组合置信上界算法，由每个客户端的原始回报值确定最终回报值； S6.服务器根据 “面向平衡类分布的客户端选择算法 ”确定参与当前轮次联邦训练的客户端集合，并将服务器端全局模型发送给相应客户端； S7.被选中的客户端接收服务器端发送的全局模型，基于它们的本地数据训练若干个轮次，并将模型更新发送回服务器端； S8.服务器端聚合更新客户端发送来的模型更新，得到新的全局模型； S9.重复步骤S5 ‑S8，直至模型收敛。 2.根据权利要求1所述方法，其特征在于，步骤S1所述每一个参与联邦训练的客户端将本地数据分布向量发送给服务器端的具体方法是： S11.每个客户端设备j拥有的第i类样本的数量用表示，对于C类样本，用向量表示客户端j的本地数据构成； S12.所有参与联邦训练的客户端将本地数据分布向量vj发送给服务器端，其中j＝{1, 2,…,m}， m为参与联邦训练的客户端总个数；步骤S2所述服务器得到所有参与联邦训练的客户端的本地数据分布向量后，将数据进行整理，得到客户端数据中每个类别向量的最大值，组成新的目标向量的具体方法是： S21.服务器得到所有参与联邦训练的客户端的本地数据分布向量后组成一个大小为m ×C的矩阵，矩阵的每一行代表第 j个客户端的本地数据分布向量，矩阵的列代表第i类标签在所有客户端中的分布情况； S22.在矩阵的列方向上找到每个类别标签的最大值，从而得到大小为C的向量，记为目标向量Vtar。 3.根据权要求2所述的方法，其特征在于步骤S3所述服务器端计算目标向量与每个客户端数据分布向量的Tonimoto系数，得到的值作为每个客户端的原始回报值的具体方法是： S31.服务器端计算目标向量Vtar与每个客户端数据分布向量vj的Tonimoto系数， Tonimoto系数是余弦相似度的扩展，同时考虑了两个向量的角度和长度差异，角度和长度差异越大相似性越小，其计算按公式如下：其中A、 B分别对应两个参与比较的向量。 S32.Tonimoto系数越大证明两个向量在大小和方向两个维度上更相似，从而将计算出权　利　要　求　书 1/3 页 2 CN 115470932 A 2的目标向量Vtar与客户端数据分布向量vj的Tonimoto系数大小作为每个客户端的原始回报值，记为 4.根据权要求3所述的方法，其特征在于步骤S4所述服务器端根据训练的目标任务确定初始化模型的具体方法是：服务器端根据训练的目标任务确定训练模型的网络结构和学习率、衰减率、训练批次大小等一些超参数，从而缺确定初始化模型。 5.根据权要求4所述的方法，其特征在于步骤S5所述根据多臂老虎机模型中的组合置信上界算法，由每个客户端的原始回报值确定最终回报值的具体方法是： S51.根据多臂老虎机模型中的组合置信上界算法，由以下公式将每个客户端的原始回报值转换为最终回报值其中t是当前联邦学习进行的轮次数， Tk是截止到当前轮次第i个客户端被选择参与到联邦训练的次数，这样使得那些不经常被选择的客户端也有机会加入到联邦训练中， α 是实验中平衡开发和探索的超参数； S52.服务器端计算出每个客户端在当前联邦轮次下的最终回报值 6.根据权要求5所述的方法，其特征在于步骤S6所述服务器根据 “面向平衡类分布的客户端选择算法 ”确定参与当前轮次联邦训练的客户端集合，并将服务器端全局模型发送给相应客户端的具体方法是： S61.从S5的结果中找到最终回报值最大的客户端，将其加入到选择集合S中，并将这个客户端的本地数据分布向量作为组合向量Vcom； S62.从其余未加入到选择集合S中的所有客户端集合中选取每一个客户端本地向量与组合向量Vcom求得加权平均值后，再与目标向量Vtar求得Tonimoto系数，并根据S51中的公式确定最终回报值最终选取回报值最大的客户端作为下一个被加入的到选择集合S中的客户端； S63.将新加入选择集合S的客户端的本地向量与组合向量Vcom求得加权平均值后作为新的Vcom； S64.重复S62 ‑S63，直至选择集合S中有K个参与当前轮次的联邦客户端； S65.服务器将全局模型发送给选择集合S中的每一个客户端； S66.服务器端更新每个客户端截止到当前轮次被选为参与联邦的次数Tk，即在选择集合S中的客户端 Tk＝Tk+1。 7.根据权要求6所述的方法，其特征在于步骤S7所述被选中的客户端接收服务器端发送的全局模型，基于它们的本地数据训练若干个轮次，并将模型更新发送回服务器端的具体方法是： S71.每个被选中参与当前联邦训练的客户端在接收到服务器端发送的全局模型后，基于它们本地数据训练相同的轮次； S72.每个客户端将本地训练后的模型与服务器端模型计算得到模型更新，并将模型更权　利　要　求　书 2/3 页 3 CN 115470932 A 3

专利 基于强化学习的联邦学习客户端智能选择方法

专利基于强化学习的联邦学习客户端智能选择方法