(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211065468.X
(22)申请日 2022.09.01
(71)申请人 望海康信 (北京) 科技股份公司
地址 100176 北京市大兴区北京经济技 术
开发区荣华中路22号院3号楼8层801-
2
(72)发明人 李庆超 张亚平 赵曦子 张志昌
(74)专利代理 机构 北京金阙华进专利事务所
(普通合伙) 11224
专利代理师 陈建春
(51)Int.Cl.
G06F 16/21(2019.01)
G06F 16/27(2019.01)
G06F 16/25(2019.01)
G06F 16/22(2019.01)
(54)发明名称
数据迁移工具及相应计算机设备和存储介
质
(57)摘要
本申请公开了数据迁移工具及相应计算机
设备和存储介质, 其中所述数据迁移工具用于配
置源数据库和目标数据库的连接信息、 设置一个
或多个基于开源Debezium的数据同步自动任务
的信息、 设置一个或多个第一调用式任务的信
息、 调用嵌入的开源Debezium将所述数据同步自
动任务相应的源数据库的相应源表的数据全量
同步到相应目标数据库的相应目标表并自动监
测和同步相应源表的变化、 调用第一调用式任务
根据设置的数据筛选条件从相应源数据库抽取
数据并导入到相应目标数据库。 本发 明使能既利
用CDC工具捕获数据变化进行同步又解决CDC工
具不适合对 数据筛选后再迁移的问题, 避免了同
时使用CDC工 具和ETL工具的冗余, 同时降低开发
人员的学习成本 。
权利要求书1页 说明书6页 附图1页
CN 115543958 A
2022.12.30
CN 115543958 A
1.一种数据迁移工具, 其特 征在于, 所述数据迁移工具包括:
数据库配置模块, 用于配置源数据库和目标 数据库的连接信息;
自动任务信息设置模块, 用于设置一个或多个基于开源Debezium的数据同步自动任务
的信息, 所述信息包括源数据库名称、 源表名称、 目标 数据库名称、 目标表名称;
第一调用式任务信息设置模块, 用于设置一个或多个第一调用式任务的信息, 所述一
个或多个第一调用式任务的信息包括源数据库名称、 源数据库数据筛选条件、 目标数据库
名称、 目标表名称和导入 模式;
第一数据迁移模块, 用于调用所述数据迁移工具中嵌入的开源Debezium将所述数据同
步自动任务相 应的源数据库的相 应源表的数据全量同步到相 应目标数据库的相 应目标表
并自动监测 和同步相应源表的变化;
第二数据迁移模块, 用于调用所述第 一调用式任务根据设置的数据筛选条件从相应源
数据库抽取 数据并导入到相应目标 数据库。
2.根据权利要求1所述的数据迁移工具, 其特 征在于, 所述数据迁移工具还 包括:
第二调用式任务信息设置模块, 用于设置一个或多个第二调用式任务的信息;
第三数据迁移模块, 用于调用所述第 二调用式任务并根据相应第 二调用式任务设置的
信息将相应数据从目标 数据库导回到源数据库。
3.根据权利要求1所述的数据迁移工具, 其特征在于, 所述导入模式包括: 追加、 覆盖和
先删再写。
4.根据权利要求1所述的数据迁移工具, 其特征在于, 所述源数据库 数据筛选条件为数
据抽取脚本的形式。
5.根据权利要求 4所述的数据迁移工具, 其特 征在于, 所述第二数据迁移模块用于:
解析所述数据抽取脚本所包 含的参数;
将参数和相应输入的参数值列表传给相应第一调用式任务;
用参数值 替换所述数据抽取脚本中的参数;
执行替换参数值后的数据抽取脚本从源数据库中抽取相应数据并导入到目标 数据库。
6.根据权利要求1所述的数据迁移工具, 其特征在于, 所述第 一调用式任务信 息设置模
块还包括查看参数子模块, 用于查看源数据库数据筛 选条件包含的参数。
7.根据权利要求1所述的数据迁移工具, 其特征在于, 所述第 一调用式任务信 息设置模
块还包括查看字段映射子模块, 用于查看源表的字段名与目标表的字段名的对照关系。
8.根据权利要求1所述的数据迁移工具, 其特征在于, 目标数据库为分布式数据库, 源
数据库为非分布式数据库。
9.一种计算机设备, 包括处理器、 存储器及存储在所述存储器上并可在所述处理器上
运行的计算机程序, 其中所述处理器执行所述计算机程序时实现根据权利要求1 ‑8任一所
述的数据迁移工具的功能。
10.一种计算机可读存储介质, 其上存储有计算机程序, 所述计算机程序被处理器执行
时实现根据权利要求1 ‑8任一所述的数据迁移工具的功能。权 利 要 求 书 1/1 页
2
CN 115543958 A
2数据迁移工具及相应计算机设 备和存储介质
技术领域
[0001]本申请涉及电数字数据处理领域, 尤其涉及数据迁移工具及相应计算机设备和计
算机可读存 储介质。
背景技术
[0002]成本费率法是国家卫健委发布的 《公立医院成本核算规范》 中的自下而上法核算
DRG组/病 种成本的一种实现方法, 其核算 流程包含以下5个步骤:
[0003]1)建立病组价 值链模型;
[0004]2)归集各个作业中心的收入;
[0005]3)计算各作业中心成本费率;
[0006]4)计算患者成本;
[0007]5)计算DRG组/病 种成本。
[0008]其中第4)步的计算要使用患者病例的收入明细根据作业中心的配置分别汇总收
入金额, 再乘以作业中心成本费率, 然后再汇总来计算。 由于收入明细数据量大, 计算起来
非常慢, 甚至会因为数据量巨大而内存溢出, 导 致结果计算 不出来。
[0009]一种解决方案是根据患者病例分批计算, 每次只计算1000个患者病例, 这样可以
保证计算过程中不会内存溢出, 计算 流程可以顺利进行。 但是不能解决计算速度慢的问题。
[0010]另一种解决方案是在分批计算的基础上, 启动多线程并行计算, 这样可以在一定
程度上提升计算速度。 但是这样会导致计算的时候占用大量的数据库连接, 同时会占用数
据库服务器的大量内存和CPU, 严重影响系统其 他功能的使用。
[0011]即使使用了以上两种方案, 计算速度仍然不能让人满意。 例如, 一年的病例数量可
能在10万以上, 计算患者成本需要半小时乃至更久, 极大地影响了用户体验。
[0012]使用ETL工具将计算的输入数据迁移到分布式数据库例如Greenplum(简称GP)中
去计算, 利用GP数据库的特性, 可使计算效率提升70%以上。 然而, 收入明细数据量大, 使用
ETL工具迁移数据速度 慢, 反而适合使用CDC工具做数据同步。 而CD C工具是针对 数据变化捕
获的, 又不适合对数据筛选后再迁移的场景。 如果同时使用ETL工具和CD C工具又显得冗余,
增加开发人员的学习成本 。
[0013]因此, 提供一 款新的数据迁移工具 是使用GP数据库优化患者成本计算的关键 。
发明内容
[0014]本发明提供一种数据迁移工具及相应计算机设备和存储介质, 其在利用CDC工具
捕获数据变化进行同步的同时解决了CDC工具不适合对数据筛选后再迁移的问题, 解决了
ETL工具和CDC 工具同时使用冗余问题。
[0015]在本发明的第一方面, 提供一种数据迁移工具, 该 数据迁移工具包括:
[0016]数据库配置模块, 用于配置源数据库和目标 数据库的连接信息;
[0017]自动任务信息设置模块, 用于设置一个或多个基于开源Debeziu m的数据同步自动说 明 书 1/6 页
3
CN 115543958 A
3
专利 数据迁移工具及相应计算机设备和存储介质
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 00:50:44上传分享