(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211365207.X
(22)申请日 2022.11.03
(71)申请人 南京信息 工程大学
地址 210044 江苏省南京市江北新区宁六
路219号
(72)发明人 陈先意 刘艳艳 钱郁滔 付章杰
闫雷鸣 许娟
(74)专利代理 机构 南京纵横知识产权代理有限
公司 32224
专利代理师 韩红莉
(51)Int.Cl.
G06F 40/279(2020.01)
G06F 40/30(2020.01)
G06F 16/35(2019.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
G06Q 50/18(2012.01)
(54)发明名称
基于BERT和GAT的裁判文书争议焦点识别方
法
(57)摘要
本发明公开基于BERT和GAT的裁判文书争议
焦点识别方法, 预处理待识别的裁判文书, 获得
具有文本语义联系的待识别标签特征P, 包括: 拆
分文本获取文本一及文本一对应的标签组成的
数据对Data1和文本二及文本二对应的标签组成
的数据对 Data2; 将Data1和Data2输入到文本表
征神经网络, 获得文本表征;将预先获取的标签
邻接矩阵和标签向量矩 阵输入图注意力神经网
络, 得到标签特征; 对文本表征与标签特征关联
的相似特征进行提取, 获得基于文本语义联系的
待识别标签特征P。 本发 明有效地处理长文本, 引
入图注意力神经网络对多 标签进行关联性建模,
识别与标签相关的信息, 在每个 法律文本中提取
与对应标签相关的区别性信息 。
权利要求书3页 说明书10页 附图2页
CN 115422920 A
2022.12.02
CN 115422920 A
1.基于BERT和GAT的裁判文 书争议焦点识别方法, 其特 征在于, 包括:
预处理待识别的裁判 文书, 获得具有文本语义联系的待识别标签特征P, 通过以下步骤
实现:
预先获取文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标
签组成的数据对 Data2;
将文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标签组成
的数据对 Data2输入到文本表征神经网络, 获得文本表征 M;
将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络, 得到标签特 征
;
对文本表 征M与标签特征
关联的相似特征进行提取, 获得基于文本语义联系的待识别
标签特征P;
预先获取文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标
签组成的数据对 Data2, 通过以下步骤实现:
步骤1, 待识别的裁判文书包括裁判文书的文本编号、 案情描述、 预先定义的标签类别
和标签的个数;
案情描述包括诉请和答辩内容;
将列表形式的案情描述 拼接成文本形式, 获得文本;
将文本中低于设定字数且包含的标签个数大于设定标签个数的文本剔除, 得到裁判 文
书
,Ci表示第i个裁判文书, yi为第i个裁判文书包含的标
签类别,
,k表示所有预 先定义的所有标签 类别总数;
基于诉辩双方, 将第 i个裁判文书拆分成文本一 Ci1和文本二 Ci2, 文本一和文本二的标签
相同;
文本一及文本一对应的标签组成数据对
,文本二及
文本二对应的标签组成数据对
;
将文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标签组成
的数据对 Data2输入到文本表征神经网络, 获得文本表征 M, 通过以下步骤实现:
文本表征网络包括孪生网络BERT模型和双向长短时记 忆网络;
步骤2, 将 Data1和Data2输入到孪生网络BERT模型中, 生成 Data1对应的文本向量TCLS1、
Data1对应的具有上下文语义信息的词向量
、Data2对应的文本向
量TCLS2和Data2对应的具有上 下文语义信息的词向量
;
将词向量 T1输入到双向长短时记忆网络中, 得到涵盖文本双向语义信息的文本 H1=
{h11,h21,…,hn1};
将词向量 T2输入到双向长短时记忆网络中, 得到涵盖文本双向语义信息的文本 H2=
{h12,h22,…,hn2};
将最大池化后的文本向量TCLS1和文本H1拼接, 得到文本 TH1;
将最大池化后的文本向量TCLS2和文本H2拼接, 得到文本 TH2;
将TH1和TH2拼接, 得到 完整的句子 TH;
利用自注意力机制处 理完整的句子 TH, 获得文本表征 M。
2.根据权利要求1所述的基于BERT和GAT的裁判文 书争议焦点识别方法, 其特 征在于,权 利 要 求 书 1/3 页
2
CN 115422920 A
2将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络, 得到标签特征
, 通过以下步骤实现:
步骤3, 构建标签图 G=(V,E),V是标签图的节点, E是标签图的边;
将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络,
利用图注意力神经网络聚合每个标签图的节点 V来自领域标签图的节点的信息, 得到
标签特征
。
3.根据权利要求2所述的基于BERT和GAT的裁判文 书争议焦点识别方法, 其特 征在于,
对文本表征 M与标签特征
关联的相似特征进行提取, 获得基于文本语义联系的待识
别标签特 征P, 通过以下步骤实现:
步骤4, 利用交互注意力机制对文本表征 M与标签特征
关联的相似特征进行提取, 获
取基于文本语义联系的待识别标签特 征
,
为预先获取的交互注意力向量。
4.根据权利要求3所述的基于BERT和GAT的裁判文 书争议焦点识别方法, 其特 征在于,
预先获取交 互注意力向量, 通过以下步骤实现:
将文本表征 M与标签特 征
进行点乘运 算, 得到信息交互矩阵Q:
,
式中,Qaj是矩阵Q的第 a个词对第 j个标签的元素, m为矩阵Q的总 行数,n为矩阵Q的总列
数;
分别对Q的行与 列作归一化处理, 获得αaj和βaj:
,
,
αaj表示上下文中第 a个词对第 j个标签的注意力权重, βaj表示第a个标签对上下文中第 j
个词的注意力权 重; 利用αaj, 构建矩阵A:
;
利用βaj, 构建矩阵B:
;
对矩阵B按列求平均值, 得到矩阵
,
的转置矩阵为
;
计算交互注意力向量 γ:权 利 要 求 书 2/3 页
3
CN 115422920 A
3
专利 基于BERT和GAT的裁判文书争议焦点识别方法
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:23:58上传分享