(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211013487.8
(22)申请日 2022.08.23
(71)申请人 矩阵起源 (深圳) 信息科技有限公司
地址 518000 广东省深圳市南 山区粤海街
道高新区社区高新南十道16号金地威
新中心A座2805
(72)发明人 谢泽雄 郑岩
(74)专利代理 机构 深圳汉林汇融知识产权代理
事务所(普通 合伙) 44850
专利代理师 吴洪波
(51)Int.Cl.
G06F 16/172(2019.01)
G06F 11/14(2006.01)
G06F 16/16(2019.01)
G06F 16/182(2019.01)G06F 21/62(2013.01)
H04L 67/1097(2022.01)
(54)发明名称
分布式数据处理方法、 装置、 设备及存储介
质
(57)摘要
本发明涉及计算机技术领域, 公开了一种分
布式数据处理方法、 装置、 设备及存储介质, 用于
提高数据安全性。 所述分布式数据处理方法包
括: 接收待处理的数据处理请求, 并根据所述数
据处理请求确定待处理的文件数据; 调用预置的
分布式大数据平台并根据所述数据处理请求获
取所述文件数据对应的第一存储节点, 其中, 所
述第一存储节点为多个第二存储节点的主存储
节点; 根据所述文件数据生 成所述文件 数据对应
的多个文件 数据副本, 并对每个文件 数据副本进
行数据块分割, 得到每个副本对应的多个数据
块; 基于所述多个数据块生 成所述多个数据块对
应的分布信息, 并通过所述多个第二存储节点对
所述多个文件数据副本和所述分布信息进行数
据存储。
权利要求书2页 说明书9页 附图4页
CN 115080527 A
2022.09.20
CN 115080527 A
1.一种分布式数据处 理方法, 其特 征在于, 所述分布式数据处 理方法包括:
接收待处 理的数据处 理请求, 并根据所述数据处 理请求确定待处 理的文件数据;
调用预置的分布式大数据平台并根据所述数据处理请求获取所述文件数据对应的第
一存储节点, 其中, 所述第一存 储节点为多个第二存 储节点的主存 储节点;
根据所述文件数据生成所述文件数据对应的多个文件数据副本, 并对每个文件数据副
本进行数据块分割, 得到每 个副本对应的多个数据块;
基于所述多个数据块生成所述多个数据块对应的分布信 息, 并通过所述多个第 二存储
节点对所述多个文件数据副本和所述分布信息进行 数据存储。
2.根据权利要求1所述的分布式数据处理方法, 其特征在于, 所述分布式数据处理方法
还包括:
基于所述分布式大数据平台爬取所述文件数据对应的第一计算节点, 其中, 所述第一
计算节点 为多个第二计算节点的主计算节点;
查询所述多个第二计算节点中的可分配 计算资源, 得到计算单 元数量;
根据所述分布信息和所述计算单 元数量生成操作信息;
根据所述操作信息生成文件数据读取 策略。
3.根据权利要求2所述的分布式数据处理方法, 其特征在于, 所述根据 所述操作信 息生
成文件数据读取 策略, 包括:
根据所述操作信 息确定目标文件数据副本, 并获取所述目标文件数据副本对应的目标
数据块;
获取所述目标数据块的参数信 息, 并根据 所述参数信 息确定所述目标数据块对应的特
征值;
根据所述参数信息和所述特征值生成所述目标文件数据副本对应的文件数据读取策
略。
4.根据权利要求3所述的分布式数据处理方法, 其特征在于, 所述获取所述目标数据块
的参数信息, 并根据所述 参数信息确定所述目标 数据块对应的特 征值, 包括:
查询所述目标数据块所在的第二存储节点, 得到目标第二存储节点, 并获取所述目标
第二存储节点对应的负载度;
计算所述目标 数据块和所述第二计算节点之间的距离;
获取所述目标 数据块的数据块大小;
将所述负载度、 所述距离和所述数据块大小确定为所述目标 数据块的参数信息;
根据所述 参数信息生成所述目标 数据块对应的特 征值。
5.根据权利要求1所述的分布式数据处理方法, 其特征在于, 所述基于所述多个数据块
生成所述多个数据块对应的分布信息, 并通过所述多个第二存储节点对所述多个文件数据
副本和所述分布信息进行 数据存储, 包括:
提取所述多个数据块的位置分布, 并根据 所述位置分布生成所述多个文件数据副本对
应的分布信息;
根据所述分布信息和所述多个第二存 储节点生成所述数据块对应的存 储策略;
基于所述存储策略并通过所述多个第二存储节点接收并存储所述多个文件数据副本
和所述分布信息 。权 利 要 求 书 1/2 页
2
CN 115080527 A
26.根据权利要求5所述的分布式数据处理方法, 其特征在于, 所述提取所述多个数据块
的位置分布, 并根据所述 位置分布生成所述多个文件数据副本对应的分布信息, 包括:
查询所述多个数据块的位置数据, 并根据 所述位置数据生成所述数据块对应的位置分
布;
根据所述多个文件数据副本和所述多个数据块生成所述多个文件数据副本和所述多
个数据块对应的映射关系;
根据所述 位置分布和所述映射关系生成所述多个数据块对应的分布信息 。
7.根据权利要求1 ‑6中任一项所述的分布式数据处理方法, 其特征在于, 所述分布式数
据处理方法还 包括:
当每个第二存储节点完成数据存储操作时, 通过所述第 二存储节点对所述第 一存储节
点发送响应消息 。
8.一种分布式数据处 理装置, 其特 征在于, 所述分布式数据处 理装置包括:
接收模块, 用于接收待处理的数据处理请求, 并根据所述数据处理请求确定待处理的
文件数据;
获取模块, 用于调用预置的分布式大数据平台并根据所述数据处理请求获取所述文件
数据对应的第一存 储节点, 其中, 所述第一存 储节点为多个第二存 储节点的主存 储节点;
生成模块, 用于根据所述文件数据生成所述文件数据对应的多个文件数据副本, 并对
每个文件数据副本进行 数据块分割, 得到每 个副本对应的多个数据块;
存储模块, 用于基于所述多个数据块生成所述多个数据块对应的分布信息, 并通过所
述多个第二存 储节点对所述多个文件数据副本和所述分布信息进行 数据存储。
9.一种分布式数据处理设备, 其特征在于, 所述分布式数据处理设备包括: 存储器和至
少一个处 理器, 所述存 储器中存 储有指令;
所述至少一个处理器调用所述存储器中的所述指令, 以使得所述分布式数据处理设备
执行如权利要求1 ‑7中任一项所述的分布式数据处 理方法。
10.一种计算机可读存储介质, 所述计算机可读存储介质上存储有指令, 其特征在于,
所述指令被处 理器执行时实现如权利要求1 ‑7中任一项所述的分布式数据处 理方法。权 利 要 求 书 2/2 页
3
CN 115080527 A
3
专利 分布式数据处理方法、装置、设备及存储介质
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:33:05上传分享