专利 一种基于迁移学习的中医罕见病中药处方生成方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211374618.5 (22)申请日 2022.11.04 (71)申请人之江实验室地址 311121 浙江省杭州市余杭区之江实验室南湖总部 (72)发明人金雨青　刘智　李劲松　李栓　 (74)专利代理机构北京志霖恒远知识产权代理有限公司 1 1435 专利代理师戴莉 (51)Int.Cl. G16H 20/10(2018.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06F 40/30(2020.01) (54)发明名称一种基于迁移学习的中医罕见病中药处方生成方法和系统 (57)摘要本发明公开了一种基于迁移学习的中医罕见病中药处方生成方法和系统，包括以下步骤：步骤S1：得到中医知识学习模型；步骤S2：基于多头自注意力机制的LSTM模型生成对应的中药名序列；步骤S3：得到中药剂量生成模型；步骤S4：将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输入，依次生成每味中药推荐的剂量，最终生成完整的中药处方。本发明使用两段式迁移学习算法，以自建中医语料库为基础，训练中医领域的中医知识学习模型，使用中医临床罕见病例对中医知识学习模型进行修正。本方法模拟了中医医生的学习过程，其生成的中药处方也将更加契合患者的病情，充分利用了医生在临床诊疗过程中产生的经验性知识。权利要求书2页说明书11页附图4页 CN 115424696 A 2022.12.02 CN 115424696 A 1.一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，包括：拟人式中医知识学习模块：用于从中医书籍或/和文献中提取中医知识样本，并利用所述中医知识样本使用RoBERTa模型进行建模，得到中医知识学习模型；中医临床罕见病处方生成模块：用于利用所述中医知识学习模型将中医临床罕见病例中患者病史、医学体征和患者主诉等信息进行表征生成，利用池化操作融合所述表征，得到中药表征，并将所述中药表征利用基于多头自注意力机制的LSTM模型生成对应的中药名序列；中药剂量生成模块：用于对中药处方中的中药名、中药处方中药物对应的功效信息和人口统计学数据进行处理得到特征数据集，将所述特征数据集作为模型的输入，对模型进行训练，得到中药剂量生成模型，并将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输入，依次生成每味中药推荐的剂量，最终生成完整的中药处方。 2.如权利要求1所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述拟人式中医知识学习模块的具体功能流程包括以下步骤：步骤S11：通过自然语言处理方法对中医书籍或/和文献资料中的文本数据进行数据清洗，得到非结构化中医语料库；步骤S12：从所述非结构化中医语料库抽取完整连续的、分词后的语句，构建长度上限为预设值的中医知识样本；步骤S13：使用RoBERTa模型中的掩码工具对所述中医知识样本进行动态掩码，得到经过掩码后的中医知识样本，以及每个所述中医知识样本对应的掩码词的集合，将所述掩码后的中医知识样本作为训练样本输入，所述掩码词的集合作为预测目标，通过所述 RoBERTa 模型输出中医知识样本中对应的掩码词的预测值；步骤S14：将所述中医知识样本对应的掩码词与所述中医知识样本对应的掩码词的预测值计算交叉熵损失，并利用所述交叉熵损失优化所述 RoBERTa模型，得到中医知识学习模型。 3.如权利要求2所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述步骤S11 中所述自然语言处理方法包括对所述文本数据中的字符进行全角‑半角转换、删除无效字符、将繁体字转换为简体字、去除停用词并将文本中与病例相关的句子删除。 4.如权利要求2所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述步骤S13具体包括以下子步骤：步骤S131：使用RoBERTa模型中的掩码工具对所述中医知识样本进行动态掩码，得到经过掩码后的中医知识样本，以及每个所述中医知识样本对应的掩码词的集合，对所述掩码后的中医知识样本分别计算对应的词向量、块向量和位置向量；步骤S132：将所述词向量、所述块向量和所述位置向量转换成由相同维度向量组成的语句矩阵；步骤S133：将所述语句矩阵输入所述RoBERTa模型中的文本语义特征抽取模块，经过计算，得到由所述文本语义特征抽取模块最后一层输出的中间语义表征；步骤S134：所述词向量通过所述RoBERTa模型中的掩码词预测模块将所述中间语义表征映射到词表空间，得到所述中医知识样本的掩码词位置对应的词表上的概率分布，基于权　利　要　求　书 1/2 页 2 CN 115424696 A 2所述概率分布得到中医知识样本对应的掩码词的预测值。 5.如权利要求1所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述中医临床罕见病处方生成模块的具体功能流程包括以下步骤：步骤S21：通过自然语言处理方法提取中医临床罕见病例中的病史信息、病人主诉信息和医学体征信息，构建对应的病史信息序列、病人主诉信息序列和医学体征信息序列；步骤S22：基于多头自注意力机制，将所述病史信息序列、病人主诉信息序列和医学体征信息序列利用所述中医知识学习模型中对应的文本语义特征抽取模块生成表征，得到病史信息表征、病人主诉信息表征和医学体征信息表征；步骤S23：将所述步骤S22中的三类表征利用池化操作进行融合，并生成中药表征；步骤S24：将所述中药表征输入至LSTM模型，输出中药名序列。 6.如权利要求1所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述中药剂量生成模块的具体功能流程包括以下步骤：步骤S31：对中药处方中的中药名、中药处方中药物对应的功效信息和人口统计学数据进行预处理，得到预处理特征数据集，对所述预处理特征数据集中的连续型变量进行分段处理，对所述预处理特征数据集中的其他非连续型变量进行类别划分，得到分组，将所述分组后的全部变量合并，构建特征数据集；步骤S32：将所述特征数据集作为模型的输入，对模型进行训练并使用网格搜索对模型进行调参，采用K折交叉验证的方式优化模型，得到中药剂量生成模型；步骤S33：将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输入，依次生成每味中药推荐的剂量，最终生成完整的中药处方。 7.如权利要求6所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述步骤S31中所述预处理包括文本信息抽取、数据分组、数据标准化、数据去重、缺失值处理和/或异常值处理。 8.如权利要求6所述的一种基于迁移学习的中医罕见病中药处方生成系统，其特征在于，所述步骤S32中对模型的训练为采用CART回归树算法。 9.一种基于迁移学习的中医罕见病中药处方生成方法，其特征在于，包括以下步骤：步骤S1：从中医书籍或/和文献中提取中医知识样本，并利用所述中医知识样本使用 RoBERTa模型进行建模，得到中医知识学习模型；步骤S2：利用所述中医知识学习模型对中医临床罕见病例中的患者病史、医学体征和主诉信息进行表征生成，利用池化操作融合所述表征，得到中药表征，并将所述中药表征利用基于多头自注意力机制的LSTM模型生成对应的中药名序列；步骤S3：对中药处方中的中药名、中药处方中药物对应的功效信息和人口统计学数据进行处理得到特征数据集，将所述特征数据集作为模型的输入，对模型进行训练，得到中药剂量生成模型；步骤S4：将所述中药名序列和所述特征数据集合并作为所述中药剂量生成模型的输入，依次生成每味中药推荐的剂量，最终生成完整的中药处方。权　利　要　求　书 2/2 页 3 CN 115424696 A 3

专利 一种基于迁移学习的中医罕见病中药处方生成方法和系统

专利一种基于迁移学习的中医罕见病中药处方生成方法和系统