说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211231173.5 (22)申请日 2022.10.10 (71)申请人 国网浙江省电力有限公司杭州供电 公司 地址 310016 浙江省杭州市上城区解 放东 路59号 申请人 国网浙江省电力有限公司信息通信 分公司 (72)发明人 钱锦 李昂 王红凯 毛冬  樊立波 孙智卿 韩荣杰 来益博  周鹏 杜猛俊 陈元中 张吉  许敏 周昕悦  (74)专利代理 机构 杭州华鼎知识产权代理事务 所(普通合伙) 33217 专利代理师 魏亮(51)Int.Cl. G06K 9/62(2022.01) G06F 16/27(2019.01) G06N 20/00(2019.01) (54)发明名称 基于差分隐私策略的分布式机器学习方法 及系统 (57)摘要 本发明公开了一种基于差分隐私策略的分 布式机器学习方法及系统, 包括: 获取与第一发 布请求单元内相对应的数据存储单元内的第一 数据集, 确定数据存储单元内先前 发送至第一请 求端或第二请求端的第二数据集; 得到新增数据 集, 获取新增数据集内所有新增数据条的第一数 据条数量以及每个新增数据条的数据属性特征; 若判断第一差异数量达到第一数量条件、 数据属 性特征达到第一特征条件, 则将第二数据集发布 至第一请求端; 根据第一差异数量、 所有新增数 据条的数据属性特征生成噪音数据数量、 噪音属 性特征; 根据噪音数据数量、 噪音属性特征对第 一数据集进行更新, 得到相对应的第三数据集, 将第三数据集发布至第一请求端。 权利要求书5页 说明书16页 附图2页 CN 115329898 A 2022.11.11 CN 115329898 A 1.基于差分隐私策略的分布式机器学习方法, 其特 征在于, 包括: S1, 在判断接收到第一请求端的第一发布请求时, 获取与第一发布请求相对应的数据 存储单元内的第一数据集, 确定数据存储单元内先前发送至第一请求端或第二请求端的第 二数据集; S2, 将所述第一数据集内的第一数据条与第二数据集内的第二数据条进行比对, 得到 新增数据集, 获取所述新增数据集内所有新增数据条的第一数据条数量以及每个新增数据 条的数据属性特 征; S3, 基于新增数据集得到第一差异数量, 若判断所述第一差异数量达到第一数量条件 和数据属性特 征达到第一特 征条件, 则将所述第一数据集发布至所述第一请求端; S4, 若判断所述第一差异数量达到第一数量条件, 且数据属性特征未达到第一特征条 件, 则根据所述第一差异数量、 所有新增数据条的数据属性特征生成噪音 数据数量、 噪音属 性特征; S5, 根据所述噪音数据数量、 噪音属性特征对所述第 一数据集进行更新, 得到相对应的 第三数据集, 将所述第三数据集发布至所述第一请求端。 2.根据权利要求1所述的基于 差分隐私策略的分布式机器学习方法, 其特 征在于, 所述S1包括: 提取所述第 一发布请求所对应的请求标签, 根据 所述请求标签确定至少一个数据存储 单元, 每个请求标签具有与其预 先对应设置的数据存 储单元; 遍历所述数据存储单元内满足预设要求的数据条得到第 一数据集, 所述第 一数据集内 的数据条 具有与其对应的第一数据标签, 统计所有的第一数据标签得到第一标签列表; 获取与所确定的数据存储单元对应的数据发布记录表, 所述数据发布记录表中具有每 次发布时的发布时间信息、 发布起始数据条 的起始数据标签、 发布终止数据条 的终止数据 标签; 选取与当前时刻最接近的发布时间信 息作为第 一发布时间信 息, 根据第 一发布时间信 息的起始数据标签、 终止数据标签生成第二标签列表, 统计数据存储单元内第二标签列表 所对应的所有数据条 得到第二数据集。 3.根据权利要求2所述的基于 差分隐私策略的分布式机器学习方法, 其特 征在于, 所述S2包括: 将第一标签列表与 所述第二标签列表进行比对, 若判断第 一标签列表的所有第 一数据 标签完全包含第二标签列表的第二数据标签, 则确定第一标签列表内具有、 第二标签列表 内不具有的第一数据标签, 得到第一 新增标签列表; 统计数据存 储单元内所有的第一 新增标签列表对应的数据条, 得到新增数据集; 获取所述数据存储单元内的数据条的数据属性种类, 根据 所述数据属性种类得到相对 应的多个数据属性特 征, 每个数据属性种类具有与其对应的多个数据属性特 征; 统计第一新增标签列表内第 一新增数据标签的数量得到第 一数据条数量, 以及第 一新 增标签列 表内每个第一新增数据标签所对应的数据属性特征, 使得每个第一新增数据标签 具有相对应的数据属性标识。 4.根据权利要求2所述的基于 差分隐私策略的分布式机器学习方法, 其特 征在于, 所述S2包括:权 利 要 求 书 1/5 页 2 CN 115329898 A 2将第一标签列表与 所述第二标签列表进行比对, 若判断第 一标签列表的所有第 一数据 标签不完全包含第二标签列表的第二数据标签, 则确定第一标签列表内具有、 第二标签列 表内不具有的第一数据标签, 得到第一新增标签列表, 确定第一标签列 表内不具有、 第二标 签列表内具有的第二数据标签, 得到第一减少标签列表; 统计数据存储单元内第一新增标签列表对应的所有的数据条, 得到新增数据集, 统计 数据存储单元内第一减少标签列表对应的所有的数据条, 得到减少数据集; 获取所述数据存储单元内的数据条的数据属性种类, 根据 所述数据属性种类得到相对 应的多个数据属性特 征, 每个数据属性种类具有与其对应的多个数据属性特 征; 统计第一新增标签列表内第 一新增数据标签的数量得到第 一数据条数量, 以及第 一新 增标签列 表内每个第一新增数据标签所对应的数据属性特征, 使得每个第一新增数据标签 具有相对应的数据属性标识; 统计第一减少标签列表内第 一减少数据标签的数量得到第 二数据条数量, 以及第 一减 少标签列 表内每个第一减少数据标签所对应的数据属性特征, 使得每个第一减少数据标签 具有相对应的数据属性标识。 5.根据权利要求3或4中任意一项所述的基于差分隐私策略的分布式机器学习方法, 其 特征在于, 所述S3包括: 基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量, 若所述 第一差异数量大于等于第一预设数量, 则判断第一差异数量达 到第一数量条件; 获取所有的第 一新增数据标签的数据属性标识和/或第 一减少数据标签具有的数据属 性标识, 根据每 个数据属性标识所对应的数据属性特 征, 得到相对应的属性特 征占比; 根据数据属性特征的数量、 不同类型的数据属性特征的属性特征占比进行计算, 得到 每种数据属性特征的融合属 性占比, 若所述融合属 性占比位于预设占比区间内, 则判断数 据属性特 征达到第一特 征条件, 将所述第一数据集发布至所述第一请求端。 6.根据权利要求5所述的基于 差分隐私策略的分布式机器学习方法, 其特 征在于, 所述基于第一数据条数量和/或第二数据条数量进行综合计算得到第一差异数量, 若 所述第一差异数量大于等于第一预设数量, 则判断第一差异数量达 到第一数量条件, 包括: 若判断仅存在第一数据条数量, 不存在第二数据条数量, 则将第一数据条数量作为第 一差异数量; 若判断同时存在第 一数据条数量和第 二数据条数量, 且第 一数据条数量大于等于最小 数据条数量, 则根据第一数据条数量和 第二数据条数量进行综合计算, 得到第一差异数量, 通过以下公式计算第一差异数量, 其中, 为最小数据条数量, 为第一差异数量, 为第一数据条数量, 为第一 数据条权 重, 为第二数据条 数量, 为第二数据条权 重; 若判断第一差异数量大于等于第一预设数量, 则判断第一差异数量达到第一数量条 件。 7.根据权利要求6所述的基于 差分隐私策略的分布式机器学习方法, 其特 征在于,权 利 要 求 书 2/5 页 3 CN 115329898 A 3

PDF文档 专利 基于差分隐私策略的分布式机器学习方法及系统

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于差分隐私策略的分布式机器学习方法及系统 第 1 页 专利 基于差分隐私策略的分布式机器学习方法及系统 第 2 页 专利 基于差分隐私策略的分布式机器学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:30:05上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。