专利 一种基于生成的衡量联邦学习协议数据安全性的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211366378.4 (22)申请日 2022.11.03 (71)申请人电子科技大学地址 611731 四川省成都市高新区（西区）西源大道 2006号 (72)发明人杨浩淼　薛冬昀　李洪伟　李发根　黄大彬　向坤兰　卢锐恒　白雪珺　 (74)专利代理机构电子科技大学专利中心 51203 专利代理师周刘英 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 21/62(2013.01) (54)发明名称一种基于生成的衡量联邦学习协议数据安全性的方法 (57)摘要本发明公开了一种基于生成的衡量联邦学习协议数据安全性的方法，属于联邦学习的隐私安全技术领域。本发明借由辅助数据集和被测联邦学习模型，提前训练生成器；使用该生成器，借由模拟用户产生的梯度，重构用户数据。最终通过计算模拟用户真实数据和借由梯度重构的重构数据之间的相似度，来衡量被测联邦学习模型的安全性。本发明只需对用户梯度进行简单处理，即可送入生成器直接生成用户的重构数据，该生成过程本身耗时极短。而生成器本身在联邦学习一个更新轮次中可以反复使用，做到 “训练一次，多次使用 ”，从而大大降低了梯度泄露的总体时间开销。同时，本发明无需对模型权重进行修改，因而兼顾了隐蔽性。权利要求书2页说明书8页附图2页 CN 115438753 A 2022.12.06 CN 115438753 A 1.一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，包括下列步骤：步骤1，离线训练生成器：从联邦学习系统的参数服务器上提取被测联邦学习模型，所述被测联邦学习模型包括两部分：特征提取部分和基于全连接层的分类部分；采集与被测联邦学习模型的输入相匹配的多个数据样本作为辅助数据集；将辅助数据集中的数据样本输入被测联邦学习模型，基于被测联邦学习模型的特征提取部分的输出得到数据样本的编码特征x；构建以数据样本的编码特征x为输入的生成器，所述生成器用于重构编码特征x对应的数据样本，输出编码特征x的重构数据；以最小化重构数据与数据样本之间的损失为训练目标，将数据样本的编码特征x输入生成器，对其网络参数进行训练，当满足预置的训练结束条件，得到训练好的生成器；步骤2，在线数据捕获：模拟用户端基于联邦学习协议接入参数服务器，并接收参数服务器下发的被测联邦学习模型；模拟用户端采用本端的用户数据训练被测联邦学习模型，并将本端训练得到的梯度数据上传给参数服务器；从参数服务器中解析模拟用户端上传的梯度数据，得到模拟用户端上传的被测联邦学习模型的分类部分的最后一层全连接层的权重矩阵梯度和偏置矩阵梯度，其中，权重矩阵梯度和偏置矩阵梯度包括的行数相同，均为被测联邦学习模型的分类部分的类别数，且权重矩阵梯度和偏置矩阵梯度的行编号方式与类别标签值的编号方式相同；基于权重矩阵梯度和偏置矩阵梯度提取模拟用户端的编码特征xk，下标k为用户数据编号；步骤3，重构用户数据并评估安全性：将模拟用户端的编码特征xk输入训练好的生成器，基于其输出得到编码特征xk的重构数据；基于预置的相似度度量方式，获取用户数据和对应的重构数据之间的相似度；用户数据与对应的重构数据间的相似度的值域被离散为多个安全等级，基于用户数据和对应的重构数据间的相似度所属的安全等级确定被测联邦学习模型的安全等级。 2.如权利要求1所述的一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，步骤2中，基于权重矩阵梯度和偏置矩阵梯度提取模拟用户端的编码特征xk 具体为：若被测联邦学习模型的训练批次大小B为1，则根据得到模拟用户端的编码特征xk，其中，和分别表示权重矩阵梯度和偏置矩阵梯度的第i行，且i为任一行；若训练批次大小B大于1，则根据得到模拟用户端的编码特征xk，其中， tk表示模拟用户端的第k个用户数据的真实标签值，和分别表示权重矩阵梯度权　利　要　求　书 1/2 页 2 CN 115438753 A 2和偏置矩阵梯度的第tk行。 3.如权利要求2所述的一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，步骤2中，当训练批次大小B大于1时，模拟用户端的编码特征xk为：其中，、分别表示权重梯度和偏置项梯度的估计偏差，且， t表示用户数据的真实类别标签值集合， j表示满足j ∉t的行编号， n表示满足j ∉t的行数，和分别表示权重矩阵梯度和偏置矩阵梯度的第j行。 4.如权利要求1所述的一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，步骤3中，基于峰值信噪比计算恢复数据与对应的训练样本之间的相似度。 5.如权利要求1所述的一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，所述被测联邦学习模型为用于图像分类的神经网络模型，其特征提取部分为基于卷积神经网络的特征提取网络，分类部分为一层全连接层，用于输出各个图像类别的分类概率。 6.如权利要求1所述的一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，所述生成器为多个全卷积网络的堆叠结构，所述全卷积网络依次包括多层卷积层和一层反卷积层。 7.如权利要求1至6任一项所述的一种基于生成的衡量联邦学习协议数据安全性的方法，其特征在于，所述辅助数据集的各数据样本为图像数据。权　利　要　求　书 2/2 页 3 CN 115438753 A 3

专利 一种基于生成的衡量联邦学习协议数据安全性的方法

专利一种基于生成的衡量联邦学习协议数据安全性的方法