(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211380238.2
(22)申请日 2022.11.05
(71)申请人 北京淇瑀信息科技有限公司
地址 100012 北京市朝阳区双营路1 1号院3
号楼2层4单元207
(72)发明人 王垚炜 沈赟
(74)专利代理 机构 北京清诚知识产权代理有限
公司 11691
专利代理师 宋红艳
(51)Int.Cl.
H04L 9/40(2022.01)
H04L 41/16(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于差分隐私的加密数据生成方法及
装置
(57)摘要
本发明公开了一种基于差分隐私的加密数
据生成方法及装置, 涉及数据处理技术领域, 解
决共享数据的隐私安全问题, 该方法包括: 将共
享数据训练集输入模型的生成网络层得到模拟
数据; 根据模拟数据前向输出至模 型其他网络层
得到的输 出结果计算损失梯度值; 将损失梯度值
输入差分隐私处理层进行去隐私化处理, 将满足
差分隐私条件的损失梯度值回传至生成网络层
更新参数, 训练模型; 提取训练好的模型的生成
网络层封装成采样器, 并对输入采样器的结构化
数据处理生成去隐私的加密数据。 本发明通过提
取训练好的生成 网络层封装成采样器, 通过采样
器对数据处理生成去隐私的加密数据。 满足在隐
私保护的基础上增强共享数据的需求的同时能
够保护共享数据安全。
权利要求书2页 说明书7页 附图4页
CN 115426205 A
2022.12.02
CN 115426205 A
1.一种基于 差分隐私的加密数据生成方法, 其特 征在于, 所述方法包括:
获取不同终端间的历史共享结构化数据, 生成共享数据训练集;
将所述共享数据训练集输入 模型的生成网络层得到模拟数据;
根据所述模拟数据前向输出至所述模型的其他网络层得到的输出结果计算损失梯度
值;
将所述损失梯度值输入差分隐私处理层进行去隐私化处理, 得到满足差分隐私条件的
损失梯度值;
将所述满足差分隐私条件的损失梯度值回传至生成网络层更新参数, 并进行迭代训
练, 直至满足训练目标时, 结束训练所述模型;
提取训练好的所述模型的生成网络层封装成采样器, 并基于所述采样器, 对输入所述
采样器的结构化数据进行处 理生成去隐私的加密数据。
2.根据权利要求1所述的方法, 其特征在于, 所述将所述损失梯度值输入差分隐私处理
层进行去隐私化处 理包括:
配置预设超参数;
根据预设超参数将损失梯度值截断;
对截断后的损失梯度值加入噪声数据, 得到满足差分隐私条件的损失梯度值。
3.根据权利要求2所述的方法, 其特征在于, 所述对截断后的损失梯度值加入噪声数据
之前, 所述方法还 包括:
根据噪声分布函数生成噪声数据;
或者, 根据K均值聚类对共享数据训练集中的数据进行聚类, 然后根据 各个类别中数据
的数据量确定噪声数据;
或者, 根据共享数据训练集中各个数据的离 散程度确定噪声数据;
或者, 将共享数据训练集中的数据拟合 为平滑曲线, 根据平 滑曲线确定噪声数据。
4.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 根据其他网络层的输出
结果计算损失函数, 所述训练目标为: 达 到预定迭代次数, 或者, 所述损失函数小于阈值。
5.根据权利要求1所述的方法, 其特征在于, 将所述共享数据训练集输入模型的生成网
络层得到模拟数据之前, 所述方法还 包括:
将共享数据训练集中的枚举型 数据映射成数值型 数据, 并对缺失值进行填充。
6.一种基于 差分隐私的加密数据生成装置, 其特 征在于, 所述装置包括:
获取模块, 用于获取不同终端间的历史共享结构化数据, 生成共享数据训练集;
输入模块, 用于将所述共享数据训练集输入 模型的生成网络层得到模拟数据;
输出计算模块, 用于根据所述模拟数据前向输出至所述模型的其他网络层得到的输出
结果计算损失梯度值;
去隐私化处理模块, 用于将所述损 失梯度值输入差分隐私处理层进行去隐私化处理,
得到满足差分隐私条件的损失梯度值;
训练模块, 用于将所述满足差分隐私条件的损 失梯度值回传至生成网络层更新参数,
并进行迭代训练, 直至满足训练目标时, 结束训练所述模型;
生成模块, 用于提取训练好的所述模型的生成网络层封装成采样器, 并基于所述采样
器, 对输入所述采样器的结构化数据进行处 理生成去隐私的加密数据。权 利 要 求 书 1/2 页
2
CN 115426205 A
27.根据权利要求6所述的装置, 其特 征在于, 所述去隐私化处 理模块包括:
配置模块, 用于配置预设超参数;
设置模块, 用于根据预设超参数将损失梯度值截断;
子处理模块, 用于对截断后的损 失梯度值加入噪声数据, 得到满足差分隐私条件的损
失梯度值。
8.根据权利要求7 所述的装置, 其特 征在于, 所述装置还 包括:
子生成模块, 用于根据噪声分布函数生成噪声数据;
或者, 子生成模块, 用于根据K均值聚类对共享数据训练集中的数据进行聚类, 然后根
据各个类别中数据的数据量确定噪声数据;
或者, 子生成模块, 用于根据共享数据训练集中各个数据的离 散程度确定噪声数据;
或者, 子生成模块, 用于将共享数据训练集中的数据拟合为平滑曲线, 根据平滑曲线确
定噪声数据。
9.根据权利要求6所述的装置, 其特征在于, 所述训练模块, 还根据其他网络层的输出
结果计算损失函数, 所述训练目标为: 达 到预定迭代次数, 或者, 所述损失函数小于阈值。
10.根据权利要求6所述的装置, 其特 征在于, 所述装置还 包括:
映射模块, 用于将共享数据训练集中的枚举型数据映射成数值型数据, 并对缺失值进
行填充。
11.一种电子设备, 包括:
处理器; 以及
存储计算机可执行指令的存储器, 所述计算机可执行指令在被执行时使所述处理器执
行根据权利要求1至 5中任一项所述的方法。
12.一种计算机可读存储介质, 其中, 所述计算机可读存储介质存储一个或多个程序,
当所述一个或多个程序被处 理器执行时, 实现权利要求1至 5中任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115426205 A
3
专利 一种基于差分隐私的加密数据生成方法及装置
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:55上传分享