(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221094025 3.1
(22)申请日 2022.08.05
(71)申请人 北京富算科技有限公司
地址 100020 北京市朝阳区东 三环中路9号
19层2201
(72)发明人 陈立峰 卞阳 尤志强 王兆凯
(74)专利代理 机构 上海弼兴律师事务所 31283
专利代理师 罗朗 李静
(51)Int.Cl.
G06F 21/62(2013.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
(54)发明名称
全匿联邦学习模 型的训练方法、 设备和存储
介质
(57)摘要
本发明提供一种全匿联邦学习模型的训练
方法、 设备和存储介质, 方法包括: 获取第一对齐
特征矩阵分片和第一对齐索引矩阵分片; 将第一
对齐特征矩 阵分片和第一对齐索引矩 阵分片输
入改进的MPC XGBoost模型中的单方子模型训练
得到全匿联邦学习模型中的全匿单方子模型。 本
发明中求交信息以分片形式存在, 在全匿框架中
中间数据也是碎片形式, 各参与方的对齐特征矩
阵分片包括了碎片密态化的共同用户信息并且
矩阵的行高尽量小; 对齐特征矩阵分片对齐各参
与方的共同用户的数据, 并在密 态计算中使 得共
同用户的数据相加为不变, 非共同用户的数据相
加为零, 密 态分片也避免了参与方识别出非交集
用户的置零数据, 从而使 得整个流程的安全性大
大提升, 不会暴露任何数据。
权利要求书3页 说明书12页 附图10页
CN 115438370 A
2022.12.06
CN 115438370 A
1.一种全匿联邦学习模型的训练方法, 其特征在于, 两个参与方包括第一参与方和第
二参与方, 所述训练方法应用于所述第一 参与方, 所述训练方法包括:
获取第一对齐特 征矩阵分片和第一对齐索引矩阵分片;
将所述第一对齐特征矩阵分片和所述第一对齐索引矩阵分片输入改进的MPC XGBoost
模型中的单 方子模型进行训练得到全匿联邦学习模型中的全匿单 方子模型;
其中, 多个所述单方子模型联合进行训练, 所述第一对齐特征矩阵分片包括了碎片密
态化的共同用户的信息, 并且矩阵的行高与所述两个参与方中数据最少的样本量相同; 所
述第一对齐特征矩阵分片使得所述第一参与方中的共同用户对应的特征分片数据与所述
第二参与方中的共同用户对应的特征分片数据对齐, 并在密态计算中使得所述共同用户对
应的特征分片数据相加为 不变, 使得非共同用户对应的特 征分片数据相加为 零。
2.如权利要求1所述的全匿联邦学习 模型的训练方法, 其特征在于, 所述获取第 一对齐
特征矩阵分片和第一对齐索引矩阵分片, 包括:
获取所述第一 参与方的第一样本数据;
对所述第一样本数据进行分片得到第 一特征矩阵分片和第 二特征矩阵分片, 并将所述
第二特征矩阵分片发送至所述两个参与方中的第二 参与方;
接收所述第二 参与方发送的第三特 征矩阵分片;
获得第一 求交结果分片;
比较所述第 一特征矩阵分片和所述第 三特征矩阵分片的行高, 以最小的行高作为对齐
特征矩阵的行高, 基于所述第一求交结果分片和所述第三特征矩阵分片通过MPC协议的乘
法得到第三中间特 征矩阵分片;
对所述第一 求交结果分片按行求和得到所述第一对齐索引矩阵分片;
基于所述第一特征矩阵分片和所述第一对齐索引矩阵分片通过点乘得到第一中间特
征矩阵分片;
将所述第一中间特征矩阵分片和所述第三中间特征矩阵分片进行拼接得到所述第一
对齐特征矩阵分片。
3.如权利要求2所述的全匿联邦学习 模型的训练方法, 其特征在于, 所述获得第 一求交
结果分片, 包括:
获取第一求交数据集合, 其中, 所述第一求交数据集合包括所述第一参与方的用户数
据;
将所述第一求交数据集合进行分片得到第一分片和第二分片, 其中, 所述第一分片和
所述第二分片均保留所述第一 求交数据集 合中每一条 数据的一部分信息;
将所述第 二分片发送至第 二参与方, 并接收所述第 二参与方发送的第 三分片, 其中, 所
述第三分片是第二求交数据集合的一个分片, 所述第二求交数据集合包括所述第二参与方
的用户数据;
基于所述第 一分片和所述第三分片通过MPC协议的比较得到第 一求交结果分片, 其中,
所述第一求交结果分片以碎片信息的形式指示所述第一参与方和所述第二参与方 的交集
用户。
4.如权利要求3所述的全匿联邦学习 模型的训练方法, 其特征在于, 所述基于所述第 一
分片和所述第三分片通过MPC协议的比较得到第一 求交结果分片, 包括:权 利 要 求 书 1/3 页
2
CN 115438370 A
2将所述第一分片和所述第三分片中每一位置上的数值进行两两比较是否相等得到所
述第一求交结果分片; 其中, 所述第一分片为矩阵;
其中, 若相等则将所述第一求交结果分片的对应位置设置为一; 若不相等则将所述第
一求交结果分片的对应位置设置为 零。
5.如权利要求2所述的全匿联邦学习模型的训练方法, 其特征在于, 在训练过程中, 所
述单方子模型 执行以下步骤:
获取随机种子、 第一预测值分片和第一标签分片;
执行构建树的迭代直至满足迭代 停止条件。
6.如权利要求5所述的全匿联邦学习 模型的训练方法, 其特征在于, 在所述构建树的迭
代中, 所述单 方子模型 执行以下步骤:
对所述第一对齐特 征矩阵分片进行按行样本采样得到第一采样特 征矩阵分片;
基于所述第 一预测值分片和所述第 一标签分页通过MPC协议的密态计算得到第 一初始
一阶导数分片和第一初始二阶导数分片;
基于所述第 一初始一阶导数分片、 所述第 一初始二阶导数分片和所述第 一对齐特征矩
阵分片通过MPC协议的点乘得到第一 最终一阶导数分片和第一 最终二阶导数分片;
基于所述第 一采样特征矩阵分片通过MPC协议的密态计算得到第一最大值转置分片和
第一最小值转置分片;
获取第一辅助计算矩阵分片;
基于所述第 一最大值转置分片、 所述第 一最小值转置分片和所述第 一辅助计算矩阵分
片划分出B个桶, 并确定每 个桶的边界通过MPC协议的密态计算得到第一分桶边界分片;
遍历所述第一采样特征矩阵分片中每列特征数据, 提取每列特征数据的列特征分片,
基于所述列特征分片和所述第一分桶边界分片进行MPC协议的范围比较, 得到矩阵内容进
行B2A转换生成特 征分桶矩阵分片;
拼接所有特 征分桶矩阵分片得到最终特 征分桶稀疏矩阵分片;
基于所述第 一最终一阶导数分片、 所述第 一最终二阶导数分片和所述最终特征分桶稀
疏矩阵分片通过MPC协议的矩阵乘法得到第一 直方图分片;
基于所述第 一最终一阶导数分片和所述第一最终二阶导数分片通过MPC协议的密态计
算为达到停止分裂条件的节点赋值, 得到当前停止分裂的节点的第一节点 值分片;
更新树结构;
使用更新后的树 来预测原 始数据, 更新所述第一预测值分片。
7.如权利要求6所述的全匿联邦学习 模型的训练方法, 其特征在于, 在所述第 一参与方
为标签方时, 所述第一样本数据包括y标签;
所述获取随机种子、 第一预测值分片和第一标签分片, 包括:
生成所述随机种子, 初始化预测值, 将所述预测值和所述y标签分别进行分片得到第一
预测值分片、 第二预测值分片、 第一标签分片和第二标签分片;
将所述随机种子、 所述第二预测值分片和所述第二标签分片发送至所述第二 参与方;
所述获取第一辅助计算矩阵分片, 包括:
构建辅助计算矩阵, 并将所述辅助计算矩阵进行分片得到第 一辅助计算矩阵分片和第
二辅助计算矩阵分片, 将所述第二辅助计算矩阵分片发送至所述第二 参与方;权 利 要 求 书 2/3 页
3
CN 115438370 A
3
专利 全匿联邦学习模型的训练方法、设备和存储介质
文档预览
中文文档
26 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:08上传分享