专利 基于命名实体识别与关系抽取模型的政策匹配方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211363986.X (22)申请日 2022.11.02 (71)申请人江苏鸿程大数据技术与应用研究院有限公司地址 211800 江苏省南京市江北新区研创园团结路9 9号孵鹰大厦1 120室 (72)发明人麦丞程　于辉　黄宜华　 (74)专利代理机构南京众联专利代理有限公司 32206 专利代理师许小莉 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 50/26(2012.01)G06F 40/295(2020.01) (54)发明名称基于命名实体识别与关系抽取模型的政策匹配方法及系统 (57)摘要本发明公开了基于命名实体识别与关系抽取模型的政策匹配方法及系统。本发明的方法包括如下步骤：构造政策语句或政策语句片段的命名实体识别与关系抽取数据集，并进行人工标签标注；基于已标注数据，训练所需的算法模型以及编写专家规则；使用算法模型及专家规则，将政策文章中的政策申报条件语句文本转化为多个政策要素关系表达式，并将形成政策关系逻辑表达式与企业条件列表计算匹配得分。本发明充分利用命名实体识别与关系抽取技术解决政策服务领域的政策条件分解和政策条件与企业条件匹配度计算的难题。方法融合深度学习方法和专家规则的政策分解方法，可以细粒度地抽取政策条件语句中的要素实体、所包含关系以及关系值。权利要求书6页说明书15页附图2页 CN 115470871 A 2022.12.13 CN 115470871 A 1.一种基于命名实体识别和关系抽取模型的政策匹配方法，其特征在于，该方法包括如下步骤： S1.构造政策语句分类数据集，对政策语句分类数据集进行人工标签标注； S2.基于步骤S1中已标注的政策语句分类数据集，训练政策语句分类算法模型，并使用政策语句分类算法模型对政策文章中的句子进行分类，识别出包含政策要素条件关系的句子； S3.构造政策要素实体边界识别数据集，对政策要素实体边界识别数据集进行人工标签标注； S4.基于步骤S3中的已标注的政策要素实体边界识别数据集，训练政策要素实体边界识别算法模型，并使用政策要素实体边界识别算法模型，对S2中政策语句分类算法模型识别出的包含政策要素条件关系的句子进行政策要素实体边界识别； S5.构造政策要素实体分类数据集，并对政策要素实体分类数据集进行人工标签标注； S6.基于步骤S5中已标注的政策要素实体分类数据集，训练政策要素实体分类算法模型，并使用政策要素实体分类算法模型，对S4中政策要素实体边界识别算法模型识别出的政策要素实体进行政策要素实体分类； S7.构造政策要素关系分类数据集，并对政策要素关系分类数据集进行人工标签标注； S8.基于步骤S7中已标注的政策要素关系分类数据集，训练政策要素关系分类算法模型，并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则，对S6中政策要素实体分类算法模型识别出的已分类的政策要素实体进行政策要素关系实体分类，识别已分类的政策要素实体中包含的关系类型； S9.构造数值关系类型的政策要素中的关系值边界识别数据集，并对政策要素关系值边界识别数据集进行标签标注； S10.基于步骤S9中已标注的政策要素关系值边界识别数据集，训练政策要素关系值边界识别算法模型，并使用训练政策要素关系值边界识别算法模型，对步骤S8 中政策要素关系分类算法模型识别出的包含数值关系类型的政策要素，识别其关系值的边界； S11.基于步骤S1 ‑S10的文本分类、命名实体识别和关系抽取算法模型及专家规则，政策文章中的政策申报条件语句文本可以转化为多个 “条件名称 ‑关系‑值”这样的政策要素关系表达式，并在政策要素关系表达式间以逻辑关系 “And”或“Or”连接，形成政策关系逻辑表达式； S12.使用同样已规范化成 “条件名称 ‑关系‑值”格式的企业条件列表和政策关系逻辑表达式计算匹配路径得分，以最大值作为匹配得分。 2.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法，其特征在于，步骤S1中所述构造政策语句分类数据集具体方法是： S101.对于预先收集好的政策文档集合 D，将政策文档集合 D中的每一篇政策文档 d分割为多个句子，形成政策语句分类数据集 S1； S102.对于政策语句分类数据集 S1中的每一个句子，人工进行标签标注，类标1表示该句子包含政策要素条件关系，类标0表示该句子不包含政策要素条件关系； S103.对于步骤S101中标注好的政策语句分类数据集 S1，将其中80%分为训练集， 20%分为验证集。权　利　要　求　书 1/6 页 2 CN 115470871 A 23.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法，其特征在于，步骤S2中所述训练政策语句分类算法模型具体方法是： S201.参数定义：对于一篇给定的政策句子，n表示该政策句子中包含n个字符，表示该政策文本中的第 i个字符，模型的输出为每个句子是否包含政策要素条件关系，其中，标签“1”表示这句话包含政策要素条件关系，标签 “0”表示这句话不包含政策要素条件关系； S202.模型训练：基于神经网络搭建的短文本分类模型，训练政策语句分类器，具体方法是： S2021.用词表，对来自训练集的句子批次中的政策句子 s进行“one‑hot”向量化，即将每个字符映射到维数等于词表的one ‑hot向量上，不在词表的字符统一以 “[UNK]”表示，然后输入到前向和后向LSTM中进行特征提取； S2022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态，即句子中的第i个字符的隐状态； S2023.将每个字符的隐状态拼接后输入到线性分类器得到每个政策句子对应的分类标签 yi； S2024.对于每个句子的真实标签，使用二元交叉熵作为损失函数进行模型训练，直至模型收敛； S203.模型推理：使用政策语句分类模型，识别政策语句是否包含政策要素条件关系，具体方法是： S20231.对待分类的政策句子进行“one‑hot”向量化； S20232.然后输入到训练好的前向和后向LSTM和线性分类器中； S20233.模型输出 “1”表示该句子包含政策要素条件关系，输出 “0”表示该句子不包含政策要素条件关系。 4.根据权利要求3所述的基于命名实体识别和关系抽取模型的政策匹配方法，其特征在于，步骤S3中所述构造政策要素实体边界识别数据集具体方法是： S301.使用步骤S2中的政策语句分类算法模型，从政策语句分类数据集S1中识别出包含政策要素条件关系的政策语句，并加以人工校验，形成政策要素实体边界识别数据集 S2； S302.对于政策要素实体边界识别数据集 S2中的每一个句子，人工进行边界标签标注：给定一个包含 n个字符的句子，输出每个单词对应的边界标签，其中，边界标签B表示对应字符为政策要素实体的起始字符， E对应字符为政策要素实体的结束字符， I对应字符为政策要素实体的非起始且非结束字符， O表示对应字符不在政策要素实体中，并且一个句子中可能包含不只一个政策语句要素实体； S303.对于步骤S301中标注好的政策语句分类数据集 S2，将其中80%分为训练集， 20%分为验证集。 5.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法，其特征权　利　要　求　书 2/6 页 3 CN 115470871 A 3

专利 基于命名实体识别与关系抽取模型的政策匹配方法及系统

专利基于命名实体识别与关系抽取模型的政策匹配方法及系统