(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211063642.7
(22)申请日 2022.09.01
(71)申请人 山东慧创信息科技有限公司
地址 276000 山东省临沂市高新 技术产业
开发区临沂应用科 学城A14楼
(72)发明人 王立宝 王英石 张琛 王茂法
梁靖 白佳朔
(74)专利代理 机构 山东诺诚智汇知识产权代理
事务所(普通 合伙) 37309
专利代理师 李文静
(51)Int.Cl.
G06F 16/28(2019.01)
G06F 16/27(2019.01)
G06F 16/2453(2019.01)
G06F 16/215(2019.01)G06F 16/182(2019.01)
G06F 16/11(2019.01)
G06F 16/176(2019.01)
(54)发明名称
多维数据元融合实现数据收集和共享的时
空数据湖方法
(57)摘要
本发明公开了多维数据元融合实现数据收
集和共享的时空数据湖方法, 涉及数据处理技术
领域, 包括以下步骤: S1、 数据收集; S2、 建立数据
仓管理模型; S3、 数据分类; S4、 数据融合; S5、 数
据湖的建立。 该多维数据元融合实现数据收集和
共享的时空数据湖方法, 采用构建存储数据的数
据湖使其能够存储大量的原始数据, 利用数据仓
对数据进行处理通过数据仓的建立不仅能够降
低数据存储的成本同时能够 去除数据的重复性,
同时能够对 数据进行补偿补 充数据的完整性, 在
存储数据的过程中每一次存储前后均会自动生
成时间戳, 从而可以实现在仅查询某个时间点之
后成功提交的数据或是仅查询某个时间点之前
的数据, 有效避免了扫描更 大时间范围的数据。
权利要求书2页 说明书5页
CN 115168512 A
2022.10.11
CN 115168512 A
1.多维数据元融合实现数据收集和共享的时空数据湖方法, 其特征在于, 包括以下步
骤:
S1、 数据收集
从移动设备、 网站、 移动应用程序、 社交媒体和企业应用程序中获取非关系与关系数
据, 其中获取的数据包括储存结构化数据、 半结构化数据、 非结构化数据和二进制数据, 得
到的数据为源数据;
S2、 建立数据仓管理模型
建立数据仓管理模型并将 获取的源数据导入其中, 利用数据仓管理模型对导入的源数
据进行预 处理, 其中数据的预 处理包括数据的清洗、 数据补偿与数据格式处理统一, 使得源
数据能够精炼标准;
S3、 数据分类
将数据仓中的源数据进行分类, 并根据源数据的类型进行分类, 然后对分类后的源数
据根据数据的相似程度和相关性进行归类;
S4、 数据融合
将归类后的源数据进行 数据融合;
S5、 数据湖的建立
基于HDFS可以构建存储数据的数据湖, 并利用Spark引擎将融合后的源数据摄取到数
据湖中进行储存, 并以数据湖为基础架构建时空大数据分析云平台, 用于时空湖内部存储
数据的共享;
S6、 资源共享
在时空大数据分析云平台中接入共享登录入口, 其中共享登录入口需要个人注册账号
登录使用, 账号的唯一性与等级性作为读取数据湖内部数据的基础, 根据账号等级的权限
用于读取获取对数据湖 内部数据的操作, 其中账号的等级根据使用者的使用时长权限决
定, 并建立搜索引擎, 利用搜索引擎搜索共享数据湖中存 储的信息 。
2.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其
特征在于: 所述在步骤S1数据收集过程中采用的储存结构化数据为关系 型数据库中的表,
半结构化数据为CSV、 日志、 XML和JSON文件, 非结构化数据为电子邮件、 文档和PDF, 二进制
数据为图形、 音频和视频 数据。
3.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其
特征在于: 所述在步骤S2建立数据仓管理模型过程中的将获取的源数据进行处理, 其中处
理过程为数据 清洗将源数据中重复性相似性较多的数据删除, 并在数据 清洗的过程中对源
数据进行补偿查缺, 将源数据中不完整数据进行联想补充, 接着将补偿后的源数据进行规
格统一, 保证数据流 通格式的一 致性。
4.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其
特征在于: 所述在步骤S3数据分类过程中对于源数据的分类首先根据数据 的类型进行分
类, 并在分类后将源数据再次整合 根据源数据中数据的相关性进行 单元的归类。
5.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其
特征在于: 所述在步骤S5数据湖的建立过程中采用的数据湖允许存储大量的原始数据, 不
会拒绝任何数据的包容 性, 从源头获取源数据时不受数据结构的约束。权 利 要 求 书 1/2 页
2
CN 115168512 A
26.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其
特征在于: 所述在步骤S5数据湖的建立过程中利用引擎Spark将融合后的源数据摄取到数
据湖中进 行储存, 并在 存储时加入时间轴, 根据时间, 在每一次存储 前后均会自动生成时间
戳, 从而可以实现在仅查询某个时间点之后 成功提交的数据, 或是仅查询某个时间点之前
的数据, 有效避免了扫描更 大时间范围的数据。
7.根据权利要求1所述的多维数据元融合实现数据收集和共享的时空数据湖方法, 其
特征在于: 所述在S6资源共享的过程中采用的搜索引擎分别为快照查询、 增量查询和读优
化查询, 即快照查询为查询某个增 量提交操作中数据集的最新快照, 先进行动态合并最新
的基本文件和增量文件来提供近实时数据集, 增量查询为仅查询新写入数据集的文件, 需
要指定一个即时时间作为条件, 来查询此条件之后的新数据, 读优化查询为直接查询 基本
文件。权 利 要 求 书 2/2 页
3
CN 115168512 A
3
专利 多维数据元融合实现数据收集和共享的时空数据湖方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:50:22上传分享