(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211374618.5
(22)申请日 2022.11.04
(71)申请人 之江实验室
地址 311121 浙江省杭州市余杭区之江实
验室南湖总部
(72)发明人 金雨青 刘智 李劲松 李栓
(74)专利代理 机构 北京志霖恒远知识产权代理
有限公司 1 1435
专利代理师 戴莉
(51)Int.Cl.
G16H 20/10(2018.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于迁移学习的中医罕见病中药处方
生成方法和系统
(57)摘要
本发明公开了一种基于迁移学习的中医罕
见病中药处方生成方法和系统, 包括以下步骤:
步骤S1: 得到中医知 识学习模型; 步骤S2: 基于多
头自注意力机制的LSTM模型生成对应的中药名
序列; 步骤S3: 得到中药剂量生成模型; 步骤S4:
将所述中药名序列和所述特征数据集合并作为
所述中药剂量生成模型的输入, 依次生成每味中
药推荐的剂量, 最终生成完整的中药处方。 本发
明使用两段式迁移学习算法, 以自建中医语料库
为基础, 训练中医领域的中医知识学习模型, 使
用中医临床罕见病例对中医知识学习模型进行
修正。 本方法模拟了中医医生的学习过程, 其生
成的中药处方也将更加契合患者的病情, 充分利
用了医生在临床诊 疗过程中产生的经验性知识。
权利要求书2页 说明书11页 附图4页
CN 115424696 A
2022.12.02
CN 115424696 A
1.一种基于 迁移学习的中 医罕见病中药处方生成系统, 其特 征在于, 包括:
拟人式中医知识学习 模块: 用于从中医书籍或/和文献中提取中医知识样本, 并利用所
述中医知识样本使用RoBERTa模型进行建模, 得到中 医知识学习模型;
中医临床 罕见病处方生成模块: 用于利用所述中医知识学习模型将中医临床 罕见病例
中患者病史、 医学体征和 患者主诉等信息进 行表征生成, 利用池化操作融合所述表征, 得到
中药表征, 并将所述中药表征利用基于多头自注意力机制的LSTM模 型生成对应的中药名序
列;
中药剂量生成模块: 用于对中药处方中的中药名、 中药处方中药物对应的功效信息和
人口统计学数据进行处理得到特征数据集, 将所述特征数据集作为模型 的输入, 对模型进
行训练, 得到中药剂量生成模型, 并将所述中药名序列和所述特征数据集合并作为所述中
药剂量生成模型的输入, 依次生成每味中药推荐的剂量, 最终生成完整的中药处方。
2.如权利要求1所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述拟人式 中医知识学习模块的具体功能流 程包括以下步骤:
步骤S11: 通过自然语言处理方法对中医书籍或/和文献资料中的文本数据进行数据清
洗, 得到非结构化中 医语料库;
步骤S12: 从所述非结构化中医语料库抽取完整连续的、 分词后的语句, 构建长度上 限
为预设值的中 医知识样本;
步骤S13: 使用RoBERTa模型中的掩码工具对所述中医知识样本进行动态掩码, 得到经
过掩码后的中医知识样本, 以及每个所述中医知识样本对应的掩码词的集合, 将所述掩码
后的中医知识样本作为训练样 本输入, 所述掩码词的集合作为预测目标, 通过所述 RoBERTa
模型输出中 医知识样本中对应的掩码词的预测值;
步骤S14: 将所述中医知识样本对应的掩码词与所述中医知识样本对应的掩码词的预
测值计算交叉熵损失, 并利用所述交叉熵损失优化所述 RoBERTa模 型, 得到中医知识学习模
型。
3.如权利要求2所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述步骤S11 中所述自然语言处理方法包括对所述文本数据中的字符进 行全角‑半角转
换、 删除无效字符、 将繁体字转换为简体字、 去除停用词并将文本中与病例相关的句子删
除。
4.如权利要求2所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述步骤S13具体包括以下子步骤:
步骤S131: 使用RoBERTa模型中的掩码工具对所述中医知识样本进行动态掩码, 得到经
过掩码后的中医知识样本, 以及每个所述中医知识样本对应的掩码词的集合, 对所述掩码
后的中医知识样本分别计算对应的词向量、 块向量和位置向量;
步骤S132: 将所述词向量、 所述块向量和所述位置向量转换成由相同维度向量组成的
语句矩阵;
步骤S133: 将所述语句矩阵输入所述RoBERTa模型中的文本语义特征抽取模块, 经过计
算, 得到由所述文本语义特 征抽取模块 最后一层输出的中间语义表征;
步骤S134: 所述词向量通过所述RoBERTa模型中的掩码词预测模块将所述中间语义表
征映射到词表空间, 得到所述中医知识样本的掩码词位置对应的词表上 的概率分布, 基于权 利 要 求 书 1/2 页
2
CN 115424696 A
2所述概率分布得到中 医知识样本对应的掩码词的预测值。
5.如权利要求1所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述中 医临床罕见病处方生成模块的具体功能流 程包括以下步骤:
步骤S21: 通过自然语言处理方法提取中医临床 罕见病例中的病史信息、 病人主诉信息
和医学体征信息, 构建对应的病史信息序列、 病人主诉信息序列和医学体征信息序列;
步骤S22: 基于多头自注意力机制, 将所述病 史信息序列、 病人主诉信息序列和医学体
征信息序列利用所述中医知识学习模型中对应的文本语义特征抽取模块生成表征, 得到病
史信息表征、 病人主诉信息表征和医学体征信息表征;
步骤S23: 将所述 步骤S22中的三类表征利用池化操作进行融合, 并生成中药表征;
步骤S24: 将所述中药表征输入至LSTM模型, 输出中药名序列。
6.如权利要求1所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述中药剂量 生成模块的具体功能流 程包括以下步骤:
步骤S31: 对中药处方中的中药名、 中药处方中药物对应的功效信息和人口统计学数据
进行预处理, 得到预处理特征数据集, 对所述预处理特征数据集中的连续型变量进行分段
处理, 对所述预处理特征数据集中的其他 非连续型变量进行类别划分, 得到 分组, 将所述分
组后的全部变量 合并, 构建特 征数据集;
步骤S32: 将所述特征数据集作为模型的输入, 对模型进行训练并使用网格搜索对模型
进行调参, 采用K折交叉验证的方式优化模型, 得到中药剂量 生成模型;
步骤S33: 将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输
入, 依次生成每味中药推荐的剂量, 最终生成完整的中药处方。
7.如权利要求6所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述步骤S31中所述预处理包括文本信息抽取、 数据分组、 数据标准化、 数据去重、 缺失
值处理和/或异常值处 理。
8.如权利要求6所述的一种基于迁移学习的中医罕见病中药处方生成系统, 其特征在
于, 所述步骤S32中对 模型的训练为采用CART回归树 算法。
9.一种基于 迁移学习的中 医罕见病中药处方生成方法, 其特 征在于, 包括以下步骤:
步骤S1: 从中医书籍或/和文献中提取中医知识样本, 并利用所述中医知识样本使用
RoBERTa模型进行建模, 得到中 医知识学习模型;
步骤S2: 利用所述中医知识学习模型对中医临床罕见病例中的患者病史、 医学体征和
主诉信息进 行表征生成, 利用池化操作融合所述表征, 得到中药表征, 并将所述中药表征利
用基于多头自注意力机制的LSTM模型生成对应的中药名序列;
步骤S3: 对中药处方中的中药名、 中药处方中药物对应的功效信息和人口统计学数据
进行处理得到特征数据集, 将所述特征数据集作为模型的输入, 对模 型进行训练, 得到中药
剂量生成模型;
步骤S4: 将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输
入, 依次生成每味中药推荐的剂量, 最终生成完整的中药处方。权 利 要 求 书 2/2 页
3
CN 115424696 A
3
专利 一种基于迁移学习的中医罕见病中药处方生成方法和系统
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:56上传分享