(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211363986.X
(22)申请日 2022.11.02
(71)申请人 江苏鸿程大 数据技术与应用研究院
有限公司
地址 211800 江苏省南京市江北新区研创
园团结路9 9号孵鹰大厦1 120室
(72)发明人 麦丞程 于辉 黄宜华
(74)专利代理 机构 南京众联专利代理有限公司
32206
专利代理师 许小莉
(51)Int.Cl.
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06Q 50/26(2012.01)G06F 40/295(2020.01)
(54)发明名称
基于命名实体识别与关系抽取模型的政策
匹配方法及系统
(57)摘要
本发明公开了基于命名实体识别与关系抽
取模型的政 策匹配方法及系统。 本发 明的方法包
括如下步骤: 构造政策语句或政 策语句片段的命
名实体识别与关系抽取数据集, 并进行人工标签
标注; 基于已标注数据, 训练所需的算法模型 以
及编写专家规则; 使用算法模型及专家规则, 将
政策文章中的政策申报条件语句文本转化为多
个政策要素关系表达式, 并将形成政 策关系逻辑
表达式与企业条件列表计算匹配得分。 本发明充
分利用命名实体识别与关系抽取技术解决政策
服务领域的政策条件分解和政策条件与企业条
件匹配度计算的难题。 方法融合深度学习方法和
专家规则的政 策分解方法, 可以细粒度地抽取政
策条件语句中的要素实体、 所包含关系以及关系
值。
权利要求书6页 说明书15页 附图2页
CN 115470871 A
2022.12.13
CN 115470871 A
1.一种基于命名实体识别和关系抽取模型的政策匹配方法, 其特征在于, 该方法包括
如下步骤:
S1.构造政策语句分类数据集, 对 政策语句分类数据集进行 人工标签标注;
S2.基于步骤S1中已标注的政策语句分类数据集, 训练政策语句分类算法模型, 并使用
政策语句分类算法模型对政策文章中的句子进行分类, 识别出包含政策要 素条件关系的句
子;
S3.构造政策要素实体边界识别数据集, 对政策要素实体边界识别数据集进行人工标
签标注;
S4.基于步骤S3中的已标注的政策要素实体边界识别数据集, 训练政策要素实体边界
识别算法模型, 并使用政策要素实体边界识别算法模型, 对S2中政策语句分类算法模型识
别出的包 含政策要素 条件关系的句子进行政策要素实体边界识别;
S5.构造政策要素实体分类数据集, 并对 政策要素实体分类数据集进行 人工标签标注;
S6.基于步骤S5中已标注的政策要素实体分类数据集, 训练政策要素实体分类算法模
型, 并使用政策要素实体分类算法模型, 对S4中政策要素实体边界识别算法模型识别出 的
政策要素实体进行政策要素实体分类;
S7.构造政策要素关系分类数据集, 并对 政策要素关系分类数据集进行 人工标签标注;
S8.基于步骤S7中已标注的政策要素关系分类数据集, 训练政策要素关系分类算法模
型, 并使用政策要素关系分类算法模型和政策领域专家知识编写的人工规则, 对S6中政策
要素实体分类算法模型识别出的已分类的政策要 素实体进 行政策要素关系实体分类, 识别
已分类的政策要素实体中包 含的关系类型;
S9.构造数值关系类型的政策要素中的关系值边界识别数据集, 并对政策要素关系值
边界识别数据集进行 标签标注;
S10.基于步骤S9中已标注的政策要素关系值边界识别数据集, 训练政策要素关系值边
界识别算法模型, 并使用训练政策要素关系值边界识别算法模型, 对步骤S8 中政策要素关
系分类算法模型识别出的包 含数值关系类型的政策要素, 识别其关系值的边界;
S11.基于步骤S1 ‑S10的文本分类、 命名实体识别和 关系抽取算法模型及专家规则, 政
策文章中的政策申报条件语句文本可以转化为多个 “条件名称 ‑关系‑值”这样的政策要素
关系表达式, 并在政 策要素关系表达式间以逻辑关系 “And”或“Or”连接, 形成政 策关系逻辑
表达式;
S12.使用同样已规范化成 “条件名称 ‑关系‑值”格式的企业条件列表和政策关系逻辑
表达式计算匹配路径得分, 以最大值作为匹配得分。
2.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法, 其特征
在于, 步骤S1中所述构造政策语句分类数据集具体方法是:
S101.对于预先收集好的政策文档集合 D, 将政策文档集合 D中的每一篇政策文档 d分割
为多个句子, 形成政策语句分类数据集 S1;
S102.对于政策语句分类数据集 S1中的每一个句子, 人工进行标签标注, 类标1表示该句
子包含政策要素 条件关系, 类标0表示该句子不包 含政策要素 条件关系;
S103.对于步骤S101中标注好的政策语句分类数据集 S1, 将其中80%分为训练集, 20%分
为验证集。权 利 要 求 书 1/6 页
2
CN 115470871 A
23.根据权利要求2所述的基于命名实体识别和关系抽取模型的政策匹配方法, 其特征
在于, 步骤S2中所述训练政策语句分类算法模型 具体方法是:
S201.参数定义: 对于一篇给定的政策句子
,n表示该政策句
子
中包含n个字符,
表示该政策文本中的第 i个字符, 模型的输出为每个句子是否
包含政策要素条件关系
, 其中
, 标签“1”表示这句话包含政策要
素条件关系, 标签 “0”表示这句话不包含政策要素 条件关系;
S202.模型训练: 基于神经网络搭建的短文本分类模型, 训练政策语句 分类器, 具体方
法是:
S2021.用词表, 对来自训练集的句子批次中的政策句子 s进行“one‑hot”向量化, 即将
每个字符映射到维数等于词表的one ‑hot向量上, 不在词表的字符统一以 “[UNK]”表示, 然
后输入到前向和后向LSTM中进行 特征提取;
S2022.将前向和后向LSTM的输出隐状态拼接后得到每个字符的隐状态
, 即句子中
的第i个字符的隐状态;
S2023.将每个字符的隐状态
拼接后输入到线性分类器得到每个政策句子对应的
分类标签 yi;
S2024.对于每个句子的真实标签
, 使用二元交叉熵作为损失函数进行模型训
练, 直至模型收敛;
S203.模型推理: 使用政策语句 分类模型, 识别政策语句是否包含政策要素条件关系,
具体方法是:
S20231.对待分类的政策句子
进行“one‑hot”向量化;
S20232.然后输入到训练好的前向和后向LSTM和线性分类 器中;
S20233.模型输出 “1”表示该句子包含政策要素条件关系, 输出 “0”表示该句子不包含
政策要素 条件关系。
4.根据权利要求3所述的基于命名实体识别和关系抽取模型的政策匹配方法, 其特征
在于, 步骤S3中所述构造政策要素实体边界识别数据集具体方法是:
S301.使用步骤S2中的政策语句分类算法模型, 从政策语句分类 数据集S1中识别出包含
政策要素 条件关系的政策语句, 并加以人工校验, 形成政策要素实体边界识别数据集 S2;
S302.对于政策要素实体边界识别数据集 S2中的每一个句子, 人工进行边界标签标注:
给定一个包含 n个字符的句子
, 输出每个单词对应的边界标签
, 其中
, 边界标签B表示对应字符为政策
要素实体的起始字符, E对应字符为政策要素实体的结束字符, I对应字符为政策要素实体
的非起始且非结束字符, O表 示对应字符不在 政策要素实体中, 并且一个句子中可能包含不
只一个政策语句要素实体;
S303.对于步骤S301中标注好的政策语句分类数据集 S2, 将其中80%分为训练集, 20%分
为验证集。
5.根据权利要求1所述的基于命名实体识别和关系抽取模型的政策匹配方法, 其特征权 利 要 求 书 2/6 页
3
CN 115470871 A
3
专利 基于命名实体识别与关系抽取模型的政策匹配方法及系统
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:00上传分享