(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211351675.1
(22)申请日 2022.10.31
(71)申请人 中国电信股份有限公司
地址 100033 北京市西城区金融大街31号
(72)发明人 刘珮 钱兵 谢汉垒 薛艳茹
马冲
(74)专利代理 机构 北京律智知识产权代理有限
公司 11438
专利代理师 孙宝海
(51)Int.Cl.
G06F 16/36(2019.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
事件抽取模 型训练方法、 事件抽取方法以及
相关设备
(57)摘要
本发明提供了事件抽取模型训练方法、 事件
抽取方法以及相关设备, 事件抽取模型训练方
法, 包括: 基于指导信息、 专家 案例以及通信字典
生成知识图谱; 对所述知识图谱进行编码获得知
识图谱编码; 将事件案例进行编码, 获得文本编
码; 将所述知识图谱编码以及所述文本编码进行
融合, 获得融合编码; 将所述融合编码输入第一
抽取模型, 获得所述事件案例的伪数据标签; 基
于所述事件案例以及所述伪数据标签训练第二
抽取模型。 本发明在样本数据小的情况下, 提高
事件抽取模型的泛化能力以及抽取准确性。
权利要求书2页 说明书9页 附图6页
CN 115525776 A
2022.12.27
CN 115525776 A
1.一种事 件抽取模型训练方法, 其特 征在于, 包括:
基于指导信息、 专 家案例以及通信字典生成知识图谱;
对所述知识图谱进行编码获得知识图谱编码;
将事件案例进行编码, 获得文本编码;
将所述知识图谱编码以及所述文本编码进行融合, 获得融合编码;
将所述融合编码输入第一抽取模型, 获得 所述事件案例的伪数据标签;
基于所述事 件案例以及所述伪数据标签训练第二抽取模型。
2.根据权利要求1所述的事件抽取模型训练方法, 其特征在于, 所述基于指导信息、 专
家案例以及通信字典生成知识图谱 包括:
对所述指导信息进行格式转换, 以获得知识块;
基于所述文本数据生成知识块树形结构, 所述知识块树形结构的根节点为文件名, 所
述知识块树形结构的叶子节点为知识块, 所述知识 块树形结构除了根节点和叶子节点之外
的节点为多级标题。
3.根据权利要求1所述的事件抽取模型训练方法, 其特征在于, 所述对所述知识图谱进
行编码获得知识图谱编码包括:
抽取所述专家案例的第一实体;
基于所述第一实体自所述知识图谱中搜索关联的实体以及实体关系;
对所述实体以及实体关系进行编码。
4.根据权利要求3所述的事件抽取模型训练方法, 其特征在于, 所述对所述实体以及实
体关系进行编码包括:
利用图神经网络或者TransE算法对所述实体以及实体关系进行编码。
5.根据权利要求1所述的事件抽取模型训练方法, 其特征在于, 所述将所述知识图谱编
码以及所述文本编码进行融合, 获得融合编码包括:
对所述知识图谱编码以及所述文本编码进行拼接、 相乘、 相加或者加权求和, 获得融合
编码。
6.根据权利要求1所述的事件抽取模型训练方法, 其特征在于, 所述第 一抽取模型为基
于DMCNN的事件抽取模型, 或者 为ALBERT、 Bi LSTM、 CRF的复合事 件抽取模型。
7.根据权利要求1所述的事件抽取模型训练方法, 其特征在于, 所述第 二抽取模型为基
于完全子图搜索的事 件抽取模型。
8.一种事 件抽取方法, 其特 征在于, 包括:
将待抽取事件输入至第二抽取模型, 所述第二抽取模型经由如权利要求1至7任一项所
述的事件抽取模型训练方法训练;
获得所述第二抽取模型输出的实体。
9.一种事 件抽取模型训练装置, 其特 征在于, 包括:
知识图谱生成模块, 配置成基于指导信息、 专 家案例以及通信字典生成知识图谱;
知识图谱编码模块, 配置成对所述知识图谱进行编码获得知识图谱编码;
事件编码模块, 配置成将事 件案例进行编码, 获得文本编码;
融合模块, 配置成将所述知识图谱编码以及所述文本编码进行融合, 获得融合编码;
伪数据标签获取模块, 配置成将所述融合编码输入第一抽取模型, 获得所述事件案例权 利 要 求 书 1/2 页
2
CN 115525776 A
2的伪数据标签;
训练模块, 配置成基于所述事 件案例以及所述伪数据标签训练第二抽取模型。
10.一种事 件抽取装置, 其特 征在于, 包括:
输入模块, 配置成将待抽取事件输入至第二抽取模型, 所述第二抽取模型经由如权利
要求1至7任一项所述的事 件抽取模型训练方法训练;
抽取模块, 配置成获得 所述第二抽取模型输出的实体。
11.一种处 理设备, 其特 征在于, 包括:
处理器;
存储器, 其中存 储有所述处 理器的可 执行指令;
其中, 所述处 理器配置为经由执 行所述可执行指令来执 行:
权利要求1至7任意 一项所述事 件抽取模型训练方法; 和/或
权利要求8所述事 件抽取模型训练方法。
12.一种计算机可读存 储介质, 用于存 储程序, 其特 征在于, 所述 程序被执 行时实现:
权利要求1至7任意 一项所述事 件抽取模型训练方法; 和/或
权利要求8所述事 件抽取模型训练方法。权 利 要 求 书 2/2 页
3
CN 115525776 A
3
专利 事件抽取模型训练方法、事件抽取方法以及相关设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:06上传分享