专利 全匿联邦学习模型的训练方法、设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221094025 3.1 (22)申请日 2022.08.05 (71)申请人北京富算科技有限公司地址 100020 北京市朝阳区东三环中路9号 19层2201 (72)发明人陈立峰　卞阳　尤志强　王兆凯　 (74)专利代理机构上海弼兴律师事务所 31283 专利代理师罗朗　李静 (51)Int.Cl. G06F 21/62(2013.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称全匿联邦学习模型的训练方法、设备和存储介质 (57)摘要本发明提供一种全匿联邦学习模型的训练方法、设备和存储介质，方法包括：获取第一对齐特征矩阵分片和第一对齐索引矩阵分片；将第一对齐特征矩阵分片和第一对齐索引矩阵分片输入改进的MPC XGBoost模型中的单方子模型训练得到全匿联邦学习模型中的全匿单方子模型。本发明中求交信息以分片形式存在，在全匿框架中中间数据也是碎片形式，各参与方的对齐特征矩阵分片包括了碎片密态化的共同用户信息并且矩阵的行高尽量小；对齐特征矩阵分片对齐各参与方的共同用户的数据，并在密态计算中使得共同用户的数据相加为不变，非共同用户的数据相加为零，密态分片也避免了参与方识别出非交集用户的置零数据，从而使得整个流程的安全性大大提升，不会暴露任何数据。权利要求书3页说明书12页附图10页 CN 115438370 A 2022.12.06 CN 115438370 A 1.一种全匿联邦学习模型的训练方法，其特征在于，两个参与方包括第一参与方和第二参与方，所述训练方法应用于所述第一参与方，所述训练方法包括：获取第一对齐特征矩阵分片和第一对齐索引矩阵分片；将所述第一对齐特征矩阵分片和所述第一对齐索引矩阵分片输入改进的MPC XGBoost 模型中的单方子模型进行训练得到全匿联邦学习模型中的全匿单方子模型；其中，多个所述单方子模型联合进行训练，所述第一对齐特征矩阵分片包括了碎片密态化的共同用户的信息，并且矩阵的行高与所述两个参与方中数据最少的样本量相同；所述第一对齐特征矩阵分片使得所述第一参与方中的共同用户对应的特征分片数据与所述第二参与方中的共同用户对应的特征分片数据对齐，并在密态计算中使得所述共同用户对应的特征分片数据相加为不变，使得非共同用户对应的特征分片数据相加为零。 2.如权利要求1所述的全匿联邦学习模型的训练方法，其特征在于，所述获取第一对齐特征矩阵分片和第一对齐索引矩阵分片，包括：获取所述第一参与方的第一样本数据；对所述第一样本数据进行分片得到第一特征矩阵分片和第二特征矩阵分片，并将所述第二特征矩阵分片发送至所述两个参与方中的第二参与方；接收所述第二参与方发送的第三特征矩阵分片；获得第一求交结果分片；比较所述第一特征矩阵分片和所述第三特征矩阵分片的行高，以最小的行高作为对齐特征矩阵的行高，基于所述第一求交结果分片和所述第三特征矩阵分片通过MPC协议的乘法得到第三中间特征矩阵分片；对所述第一求交结果分片按行求和得到所述第一对齐索引矩阵分片；基于所述第一特征矩阵分片和所述第一对齐索引矩阵分片通过点乘得到第一中间特征矩阵分片；将所述第一中间特征矩阵分片和所述第三中间特征矩阵分片进行拼接得到所述第一对齐特征矩阵分片。 3.如权利要求2所述的全匿联邦学习模型的训练方法，其特征在于，所述获得第一求交结果分片，包括：获取第一求交数据集合，其中，所述第一求交数据集合包括所述第一参与方的用户数据；将所述第一求交数据集合进行分片得到第一分片和第二分片，其中，所述第一分片和所述第二分片均保留所述第一求交数据集合中每一条数据的一部分信息；将所述第二分片发送至第二参与方，并接收所述第二参与方发送的第三分片，其中，所述第三分片是第二求交数据集合的一个分片，所述第二求交数据集合包括所述第二参与方的用户数据；基于所述第一分片和所述第三分片通过MPC协议的比较得到第一求交结果分片，其中，所述第一求交结果分片以碎片信息的形式指示所述第一参与方和所述第二参与方的交集用户。 4.如权利要求3所述的全匿联邦学习模型的训练方法，其特征在于，所述基于所述第一分片和所述第三分片通过MPC协议的比较得到第一求交结果分片，包括：权　利　要　求　书 1/3 页 2 CN 115438370 A 2将所述第一分片和所述第三分片中每一位置上的数值进行两两比较是否相等得到所述第一求交结果分片；其中，所述第一分片为矩阵；其中，若相等则将所述第一求交结果分片的对应位置设置为一；若不相等则将所述第一求交结果分片的对应位置设置为零。 5.如权利要求2所述的全匿联邦学习模型的训练方法，其特征在于，在训练过程中，所述单方子模型执行以下步骤：获取随机种子、第一预测值分片和第一标签分片；执行构建树的迭代直至满足迭代停止条件。 6.如权利要求5所述的全匿联邦学习模型的训练方法，其特征在于，在所述构建树的迭代中，所述单方子模型执行以下步骤：对所述第一对齐特征矩阵分片进行按行样本采样得到第一采样特征矩阵分片；基于所述第一预测值分片和所述第一标签分页通过MPC协议的密态计算得到第一初始一阶导数分片和第一初始二阶导数分片；基于所述第一初始一阶导数分片、所述第一初始二阶导数分片和所述第一对齐特征矩阵分片通过MPC协议的点乘得到第一最终一阶导数分片和第一最终二阶导数分片；基于所述第一采样特征矩阵分片通过MPC协议的密态计算得到第一最大值转置分片和第一最小值转置分片；获取第一辅助计算矩阵分片；基于所述第一最大值转置分片、所述第一最小值转置分片和所述第一辅助计算矩阵分片划分出B个桶，并确定每个桶的边界通过MPC协议的密态计算得到第一分桶边界分片；遍历所述第一采样特征矩阵分片中每列特征数据，提取每列特征数据的列特征分片，基于所述列特征分片和所述第一分桶边界分片进行MPC协议的范围比较，得到矩阵内容进行B2A转换生成特征分桶矩阵分片；拼接所有特征分桶矩阵分片得到最终特征分桶稀疏矩阵分片；基于所述第一最终一阶导数分片、所述第一最终二阶导数分片和所述最终特征分桶稀疏矩阵分片通过MPC协议的矩阵乘法得到第一直方图分片；基于所述第一最终一阶导数分片和所述第一最终二阶导数分片通过MPC协议的密态计算为达到停止分裂条件的节点赋值，得到当前停止分裂的节点的第一节点值分片；更新树结构；使用更新后的树来预测原始数据，更新所述第一预测值分片。 7.如权利要求6所述的全匿联邦学习模型的训练方法，其特征在于，在所述第一参与方为标签方时，所述第一样本数据包括y标签；所述获取随机种子、第一预测值分片和第一标签分片，包括：生成所述随机种子，初始化预测值，将所述预测值和所述y标签分别进行分片得到第一预测值分片、第二预测值分片、第一标签分片和第二标签分片；将所述随机种子、所述第二预测值分片和所述第二标签分片发送至所述第二参与方；所述获取第一辅助计算矩阵分片，包括：构建辅助计算矩阵，并将所述辅助计算矩阵进行分片得到第一辅助计算矩阵分片和第二辅助计算矩阵分片，将所述第二辅助计算矩阵分片发送至所述第二参与方；权　利　要　求　书 2/3 页 3 CN 115438370 A 3

专利 全匿联邦学习模型的训练方法、设备和存储介质

专利全匿联邦学习模型的训练方法、设备和存储介质