(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211349169.9
(22)申请日 2022.10.31
(71)申请人 国网黑龙江省电力有限公司信息通
信公司
地址 150090 黑龙江省哈尔滨市经开区南
岗集中区汉水路76 -10号3层
申请人 国家电网有限公司
(72)发明人 吴迪 刘国辉 吴伟东 商可易
金雪松 王巍
(74)专利代理 机构 哈尔滨市松花江专利商标事
务所 23109
专利代理师 时起磊
(51)Int.Cl.
G06F 16/2458(2019.01)
G06Q 50/06(2012.01)
(54)发明名称
一种并行的电力大数据挖掘方法、 存储介质
及设备
(57)摘要
一种并行的电力大数据挖掘方法、 存储介质
及设备, 涉及电力领域。 本发明是为了解决目前
的电力数据挖掘方法还存在需要多次扫描数据
库导致数据挖掘运行效率低以及项集丢失导致
挖掘结果准确率下降、 丢失部分关联规则的问
题。 本发明包括: 对电力大数据集进行预处理, 从
而将电力大数据集转换为频繁1 ‑项集; 对所有的
频繁1‑项集的位图两两进行交集运算, 筛选得到
正频繁2‑项集; 执行Map流程读取正频繁2 ‑项集
生成分发表并判断项目集的相关性, 执行
Reudece流程利用分发表生成频繁3 ‑项集; 对频
繁项集迭代执行分发表的生 成与分发, 得到频繁
K‑项集。 本发明用于电力大 数据的准确挖掘。
权利要求书2页 说明书8页 附图8页
CN 115544122 A
2022.12.30
CN 115544122 A
1.一种并行的电力大 数据挖掘方法, 其特 征在于所述方法具体过程 为:
步骤一、 对电力大 数据集进行 预处理, 从而将电力大 数据集转换为频繁1 ‑项集;
步骤二、 对所有的频繁1 ‑项集的位图两 两进行交集 运算, 筛选得到正频繁2 ‑项集;
步骤三、 执行Map流程读取步骤二获得的正频繁2 ‑项集生成分发表并判断项目集的相
关性, 执行Reudece流 程利用分发表生成频繁 3‑项集;
步骤四、 重复执行步骤三, 对频繁项集迭代执行分发表的生成与分发, 获得频繁K ‑项
集;
其中, K>2。
2.根据权利要求1所述的一种并行的电力大数据挖掘方法, 其特征在于: 所述步骤一中
的对电力大 数据集进行 预处理, 从而将电力大 数据集转换为频繁1 ‑项集, 包括以下步骤:
步骤一一、 将电力大 数据集的形式转换为垂直数据形式获得垂直数据集;
步骤一二、 删除垂直数据集中小于预设最小支持度阈值的项集获得 频繁1‑项集;
步骤一三、 利用位图保存所有频繁1 ‑项集中的Tid;
其中, Tid为事务编号。
3.根据权利要求2所述的一种并行的电力大数据挖掘方法, 其特征在于: 所述垂直数据
的形式为: <itemID :Tid>。
其中, itemID为事务数据集的内容。
4.根据权利要求3或2所述的一种 并行的电力大数据挖掘方法, 其特征在于: 所述步骤
二中的对所有的频繁1 ‑项集的位图两 两进行交集 运算, 筛选得到正频繁2 ‑项集, 具体为:
首先, 对步骤一获得的频繁1 ‑项集中的数据的itemID两两求并集, 同时对Tid两两求交
集, 获得求交集后的每 个Tid长度;
然后, 将求交集后的每个Tid长度与预设最小支持度阈值比较, 若交集后的Tid长度大
于预设最小支持度阈值, 则将该 交集后的Tid长度对应的频繁1 ‑项集保存, 得到正频繁2 ‑项
集。
5.根据权利要求4所述的一种并行的电力大数据挖掘方法, 其特征在于: 所述步骤三中
的执行Map流程读取步骤二获得的正频繁2 ‑项集生成分发表并判断项目集的相关性, 执行
Reudece流 程利用分发表生成频繁 3‑项集, 包括以下步骤:
步骤三一、 执行Map流程读取步骤二获得的正频繁2 ‑项集生成分发表:
对频繁2‑项集中itemID的全部元素进行一次读入, 然后将第一个读到的项作为父项,
第二个作为子项;
步骤三二、 执行Reudece流 程利用分发表生成频繁 3‑项集。
6.根据权利要求5所述的一种并行的电力大数据挖掘方法, 其特征在于: 所述步骤三二
中的执行Reudece流 程利用分发表生成频繁 3‑项集, 包括以下步骤:
首先, 获得分发表中的每个子项, 把每一个子项当做候选1 ‑项集求频繁2 ‑项集, 得到的
频繁2‑项集与父项合并, 获得合并后的集 合支持度和置信度;
然后, 将合并后集合的支持度与预设最小支持度阈值比较, 置信度和预设最小接受度
比较, 若合并后的集合支持度不小于预设最小支持度阈值且置信度不小于预设最小置信度
阈值, 则计算 合并后集 合的兴趣度cor r;
最后, 以合并后集 合的兴趣度cor r的大小为判断依据输出 频繁3‑项集;权 利 要 求 书 1/2 页
2
CN 115544122 A
2所述频繁 3‑项集包括: 正频繁 3‑项集、 负频繁 3‑项集。
7.根据权利要求6所述的一种并行的电力大数据挖掘方法, 其特征在于: 所述以合并后
集合的兴趣度cor r的大小为判断依据输出 频繁3‑项集, 具体为:
若corr>1, 则输出正频繁 3‑项集;
若corr<1, 则将由子项生成的频繁2 ‑项集的第二项取反后与父项进行合并, 再计算合
并后的负候选项集的支持度和置信度, 若支持度不小于预设最小支持度阈值且置信度不小
于预设最小置信度阈值, 则输出当前负项集;
corr=1则丢弃当前项集;
所述将由子项生成的频繁2 ‑项集的第二项取反为对key2和val2取反;
所述对key2取反即为取key2的相反数;
所述对val2取反为将位图中0的位置变成1, 1的位置变成0 。
8.根据权利要求7所述的一种并行的电力大数据挖掘方法, 其特征在于: 所述获得频繁
K‑项集包括获得正频繁K ‑项集和负频繁K ‑项集, 具体为:
首先计算正K ‑项集, 如果是正频繁K ‑项集则保存; 如果不是正频繁K ‑项集, 则对该项集
中最后一个项取反, 然后计算负K ‑项集, 如果是负频繁K ‑项集, 则保存当前负频繁K ‑项集。
9.一种并行的电力大数据挖掘存储介质, 其特征在于: 所述存储介质至少存储一条指
令, 所述至少一条指令由处理器加载并执行以实现权利要求1 ‑8任一项所述的一种并行 的
电力大数据挖掘方法。
10.一种并行的电力大数据挖掘设备, 其特征在于: 所述设备包括: 存储器、 处理器; 所
述存储器中至少存储一条指令, 所述至少一条指令用于实现权利要求1 ‑8任一项所述的一
种并行的电力大 数据挖掘方法。权 利 要 求 书 2/2 页
3
CN 115544122 A
3
专利 一种并行的电力大数据挖掘方法、存储介质及设备
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:33上传分享