(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211082292.9
(22)申请日 2022.09.06
(71)申请人 哈尔滨理工大 学
地址 150001 黑龙江省哈尔滨市南岗区学
府路52号哈尔滨理工大 学
(72)发明人 朱素霞 颜培森 孙广路
(51)Int.Cl.
G06N 20/00(2019.01)
G06F 21/62(2013.01)
(54)发明名称
基于强化学习的联邦学习客户端智能选择
方法
(57)摘要
本发明提出一种联邦学习方法, 尤其涉及一
种基于强化学习的联邦学习客户端智能选取方
法, 属于大规模分布式边缘智能学习系统的性能
优化技术领域。 解决了联邦学习领域中非独立同
分布数据给训练模型带来的收敛速度慢、 训练准
确率下降的问题。 本申请在不借助任何辅助数据
集, 并保证客户端本地数据对服务器端不可见的
隐私前提要求下, 设计了一种基于数据向量的方
案来揭示参与训练的联邦客户端的本地数据分
布情况; 在此基础上, 设计一种面向平衡类分布
的客户端选择算法; 并基于强化学习的模型平衡
每一轮联邦选择的探索与开发, 从而提高联邦学
习全局模型的收敛性能。
权利要求书3页 说明书6页 附图2页
CN 115470932 A
2022.12.13
CN 115470932 A
1.一种基于强化学习的联邦学习客户端智能选择 方法, 其特 征在于, 包括以下步骤:
S1.首先每一个参与联邦训练的客户端将本地数据分布向量发送给服 务器端;
S2.服务器得到所有参与联邦训练的客户端的本地数据分布向量后, 将数据进行整理,
得到客户端数据中每 个类别向量的最大值, 组成新的目标向量;
S3.服务器端计算目标向量与每个客户端数据分布向量的Tonimoto系数, 得到的值作
为每个客户端的原 始回报值;
S4.服务器端根据训练的目标任务确定初始化模型;
S5.根据多臂老虎机模型中的组合置信上界算法, 由每个客户端的原始回报值确定最
终回报值;
S6.服务器根据 “面向平衡类分布的客户端选择算法 ”确定参与当前轮次联邦训练的客
户端集合, 并将服 务器端全局模型发送给相应客户端;
S7.被选中的客户端接收服务器端发送的全局模型, 基于它们的本地数据训练若干个
轮次, 并将模型 更新发送回服 务器端;
S8.服务器端聚合更新 客户端发送来的模型 更新, 得到新的全局模型;
S9.重复步骤S5 ‑S8, 直至模型收敛。
2.根据权利要求1所述方法, 其特征在于, 步骤S1所述每一个参与联邦训练的客户端将
本地数据分布向量发送给服 务器端的具体方法是:
S11.每个客户端设备j拥有的第i类样本的数量用
表示, 对于C类样本, 用向量
表示客户端j的本地数据构成;
S12.所有参与联邦训练的客户端将本地数据 分布向量vj发送给服务器端, 其中j={1,
2,…,m}, m为参与联邦训练的客户端总个数;
步骤S2所述服务器得到所有参与 联邦训练的客户端的本地数据分布向量后, 将数据进
行整理, 得到客户端数据中每 个类别向量的最大值, 组成新的目标向量的具体方法是:
S21.服务器得到所有参与 联邦训练的客户端的本地数据分布向量后组成一个大小为m
×C的矩阵, 矩阵的每一行代表第 j个客户端的本地数据分布向量, 矩阵的列 代表第i类标签
在所有客户端中的分布情况;
S22.在矩阵的列方向上找到每个类别标签的最大值, 从而得到大小为C的向量, 记为目
标向量Vtar。
3.根据权要求2所述的方法, 其特征在于步骤S3所述服务器端计算目标向量与每个客
户端数据分布向量的Tonimoto系数, 得到的值作为每个客户端的原始回报值的具体方法
是:
S31.服务器端计算目标向量Vtar与每个客户端数据分布向量vj的Tonimoto系数,
Tonimoto系数是余弦相 似度的扩展, 同时考虑了两个向量的角度和长度差异, 角度和 长度
差异越大相似性越小, 其计算按公式如下:
其中A、 B分别对应两个参与比较的向量。
S32.Tonimoto系数越大证明两个向量在 大小和方向两个维度上更相似, 从而将计算出权 利 要 求 书 1/3 页
2
CN 115470932 A
2的目标向量Vtar与客户端数据分布向量vj的Tonimoto系数大小作为每个客户端的原始回报
值, 记为
4.根据权要求3所述的方法, 其特征在于步骤S4所述服务器端根据训练的目标任务确
定初始化模型的具体方法是:
服务器端根据训练的目标任务确定训练模型的网络结构和学习率、 衰减率、 训练批次
大小等一些超参数, 从而缺确定初始化模型。
5.根据权要求4所述的方法, 其特征在于步骤S5所述根据多臂老虎机模型中的组合置
信上界算法, 由每 个客户端的原 始回报值确定最终回报值的具体方法是:
S51.根据多臂老虎机模型中的组合置信上界算法, 由以下公式将每个客户端的原始回
报值
转换为最终回报值
其中t是当前联邦学习进行的轮次数, Tk是截止到当前轮次第i个客户端被选择参与到
联邦训练的次数, 这样使得那些不经常被选择的客户端也有机会加入到联邦训练中, α 是实
验中平衡开发和探索的超参数;
S52.服务器端计算出每 个客户端在当前 联邦轮次下的最终回报值
6.根据权要求5所述的方法, 其特征在于步骤S6所述服务器根据 “面向平衡类分布的客
户端选择算法 ”确定参与当前轮次联邦训练的客户端集合, 并将服务器端全局模型发送给
相应客户端的具体方法是:
S61.从S5的结果中找到最终 回报值
最大的客户端, 将其加入到选择集合S中, 并将这
个客户端的本地数据分布向量作为组合向量Vcom;
S62.从其余未加入到选择集合S中的所有客户端集合中选取每一个客户端本地向量与
组合向量Vcom求得加权平均值后, 再与目标向量Vtar求得Tonimoto系数, 并根据S51中的公 式
确定最终回报值
最终选取回报值最大的客户端作为下一个被加入的到选择集合S中的
客户端;
S63.将新加入选择集合S的客户端的本地向量与组合向量Vcom求得加权平均值后作为
新的Vcom;
S64.重复S62 ‑S63, 直至选择集合S中有K个参与当前轮次的联邦客户端;
S65.服务器将全局模型发送给选择集 合S中的每一个客户端;
S66.服务器端更新每个客户端截止到当前轮次被选为参与联邦的次数Tk, 即在选择集
合S中的客户端 Tk=Tk+1。
7.根据权要求6所述的方法, 其特征在于步骤S7所述被选中的客户端接收服务器端发
送的全局模型, 基于它们的本地数据训练若干个轮次, 并将模型更新发送回服务器端的具
体方法是:
S71.每个被选中参与当前联邦训练的客户端在接收到服务器端发送的全局模型后, 基
于它们本地数据训练相同的轮次;
S72.每个客户端将本地训练后的模型与服务器端模型计算得到模型更新, 并将模型更权 利 要 求 书 2/3 页
3
CN 115470932 A
3
专利 基于强化学习的联邦学习客户端智能选择方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:06上传分享