全网唯一标准王
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211204960.0 (22)申请日 2022.09.30 (71)申请人 中孚安全技 术有限公司 地址 250000 山东省济南市高新区经十路 7000号汉峪金谷A1- 5号楼24层 (72)发明人 王敏 张雷 李本学  (74)专利代理 机构 济南舜源专利事务所有限公 司 37205 专利代理师 刘雪萍 (51)Int.Cl. G06F 16/13(2019.01) G06F 16/21(2019.01) G06F 16/215(2019.01) G06F 16/22(2019.01) (54)发明名称 一种基于多数据版本的数据清理方法、 系统 及设备 (57)摘要 本申请公开了一种基于多数据版本的数据 清理方法、 系统及设备, 主要涉及数据清理技术 领域, 用以解决现有的有效版本元数据和数据块 总个数的获取效率较低问题。 包括: 在生成版本 元数据时, 将版本元数据的版本元数据ID和更新 时间作为版本元数据索引信息添加至预设索引 文件的预设批次文件中; 获取有效版本时间阈 值, 以确定有效版本时间阈值定位的索引信息; 确定有效版本元数据; 确定有效文件数据块; 进 而根据有效文件数据块和布隆过滤器的预设大 小, 创建具有动态链表结构的若干布隆过滤器; 通过若干布隆过滤器同步遍历磁盘数据块, 以确 定有效文件 数据块是否有效。 本申请通过上述方 法提高了有效版本元数据和数据块总个数的获 取效率。 权利要求书2页 说明书5页 附图3页 CN 115292248 A 2022.11.04 CN 115292248 A 1.一种基于多数据版本的数据清理方法, 其特 征在于, 所述方法包括: 在生成版本元数据时, 将所述版本元数据的版本元数据ID和更新 时间作为版本元数据 索引信息添加至预设索引文件的预设批次文件中; 其中, 预设索引文件按照预设切分时间 段划分若干预设批次文件, 且处于同一预设批次文件的若干索引信息根据所述更新时间顺 序排列; 获取有效版本时间阈值, 以确定所述有 效版本时间阈值在预设索引文件的预设批次文 件中定位的索引信息; 确定所述索引信息对应更新时间点之后的全部索引信息对应的版本 元数据均为有效版本元 数据; 基于所述有效版本元数据, 确定有效文件数据块; 进而根据所述有效文件数据块和布 隆过滤器的预设大小, 创建具有动态链表结构的若干布隆过滤器; 通过若干布隆过滤器同 步遍历磁 盘数据块, 以确定有效文件数据块是否有效。 2.根据权利要求1所述的基于多数据版本的数据清 理方法, 其特征在于, 所述方法还包 括: 根据预设批次间隔, 在预设索引文件中创建预设批次文件; 且所述预设批次文件的文 件名携带时间信息 。 3.根据权利要求2所述的基于多数据版本的数据清 理方法, 其特征在于, 获取有 效版本 时间阈值, 以确定所述有效版本时间阈值在预设索引文件的预设批次文件中定位的索引信 息, 具体包括: 通过预设获取界面, 获取有效版本时间阈值; 基于预设批次文件的携带时间信 息和有效版本时间阈值, 从若干预设批次文件中确定 待检测批次文件; 基于所述待检测批次文件中各个版本元数据对应的更新 时间, 确定有效版本时间阈值 对应的版本元 数据。 4.根据权利要求1所述的基于多数据版本的数据清 理方法, 其特征在于, 根据 所述有效 文件数据块和布隆过滤器的预设大小, 创建具有动态链表结构的若干布隆过滤器, 具体包 括: 初始化具有动态链表结构的布隆过滤器, 预设布隆过滤器大小为n, HASH值为k, 在动态 链表头部预创建布隆过 滤器节点; 根据有效版本元数据扫描到有效文件数据块后, 将有效文件数据块ID写入布隆过滤器 并计数, 当计数 大于n时, 新构建布隆过 滤器, 并添加到动态 链表中。 5.一种基于多数据版本的数据清理系统, 其特 征在于, 所述系统包括: 添加模块, 用于在生成版本元数据时, 将所述版本元数据的版本元数据ID和更新时间 作为版本元数据索引信息添加至预设索引文件的预设批次文件中; 其中, 预设索引文件按 照预设切分时间段划分若干预设批次文件, 且处于同一预设批次文件的若干索引信息根据 所述更新时间顺序排列; 确定模块, 用于获取有效版本时间阈值, 以确定所述有效版本时间阈值在预设索引文 件的预设批次文件中定位的索引信息; 确定所述索引信息对应更新时间点之后的全部索引 信息对应的版本元 数据均为有效版本元 数据; 遍历模块, 用于基于所述有效版本元数据, 确定有效文件数据块; 进而根据所述有效文权 利 要 求 书 1/2 页 2 CN 115292248 A 2件数据块和布隆过滤器的预设大小, 创建具有动态链表结构的若干布隆过滤器; 通过若干 布隆过滤器同步遍历磁 盘数据块, 以确定有效文件数据块是否有效。 6.根据权利要求5所述的基于多数据版本的数据清 理系统, 其特征在于, 确定模块还包 括确定单 元; 用于通过预设获取界面, 获取有效版本时间阈值; 基于预设批次文件的携带时间信息 和有效版本时间阈值, 从若干预设批次文件中确定待检测批次文件; 基于所述待检测批次 文件中各个版本元 数据对应的更新时间, 确定有效版本时间阈值对应的版本元 数据。 7.根据权利要求5所述的基于多数据版本的数据清 理系统, 其特征在于, 遍历模块包括 添加单元; 用于初始化具有动态链表结构的布隆过滤器, 预设布隆过滤器大小为n, HASH值为k, 在 动态链表头部预创建布隆过滤器节点; 根据有效版本元数据扫描到有效文件数据块后, 将 有效文件数据块ID写入布隆过滤器并计数, 当计数大于n时, 新构建布隆过滤器, 并添加到 动态链表中。 8.一种基于多数据版本的数据清理设备, 其特 征在于, 所述设备包括: 处理器; 以及存储器, 其上存储有可执行代码, 当所述可执行代码被执行时, 使得所述处理器执 行如权利要求1 ‑4任一项所述的一种基于多数据版本的数据清理方法。权 利 要 求 书 2/2 页 3 CN 115292248 A 3

.PDF文档 专利 一种基于多数据版本的数据清理方法、系统及设备

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多数据版本的数据清理方法、系统及设备 第 1 页 专利 一种基于多数据版本的数据清理方法、系统及设备 第 2 页 专利 一种基于多数据版本的数据清理方法、系统及设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 11:32:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。