专利 基于BERT和GAT的裁判文书争议焦点识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211365207.X (22)申请日 2022.11.03 (71)申请人南京信息工程大学地址 210044 江苏省南京市江北新区宁六路219号 (72)发明人陈先意　刘艳艳　钱郁滔　付章杰　闫雷鸣　许娟　 (74)专利代理机构南京纵横知识产权代理有限公司 32224 专利代理师韩红莉 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G06Q 50/18(2012.01) (54)发明名称基于BERT和GAT的裁判文书争议焦点识别方法 (57)摘要本发明公开基于BERT和GAT的裁判文书争议焦点识别方法，预处理待识别的裁判文书，获得具有文本语义联系的待识别标签特征P，包括：拆分文本获取文本一及文本一对应的标签组成的数据对Data1和文本二及文本二对应的标签组成的数据对 Data2；将Data1和Data2输入到文本表征神经网络，获得文本表征;将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征；对文本表征与标签特征关联的相似特征进行提取，获得基于文本语义联系的待识别标签特征P。本发明有效地处理长文本，引入图注意力神经网络对多标签进行关联性建模，识别与标签相关的信息，在每个法律文本中提取与对应标签相关的区别性信息。权利要求书3页说明书10页附图2页 CN 115422920 A 2022.12.02 CN 115422920 A 1.基于BERT和GAT的裁判文书争议焦点识别方法，其特征在于，包括：预处理待识别的裁判文书，获得具有文本语义联系的待识别标签特征P，通过以下步骤实现：预先获取文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标签组成的数据对 Data2；将文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标签组成的数据对 Data2输入到文本表征神经网络，获得文本表征 M; 将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征；对文本表征M与标签特征关联的相似特征进行提取，获得基于文本语义联系的待识别标签特征P；预先获取文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标签组成的数据对 Data2，通过以下步骤实现：步骤1，待识别的裁判文书包括裁判文书的文本编号、案情描述、预先定义的标签类别和标签的个数；案情描述包括诉请和答辩内容；将列表形式的案情描述拼接成文本形式，获得文本；将文本中低于设定字数且包含的标签个数大于设定标签个数的文本剔除，得到裁判文书，Ci表示第i个裁判文书， yi为第i个裁判文书包含的标签类别，，k表示所有预先定义的所有标签类别总数；基于诉辩双方，将第 i个裁判文书拆分成文本一 Ci1和文本二 Ci2，文本一和文本二的标签相同；文本一及文本一对应的标签组成数据对 ,文本二及文本二对应的标签组成数据对；将文本一及文本一对应的标签组成的数据对 Data1和文本二及文本二对应的标签组成的数据对 Data2输入到文本表征神经网络，获得文本表征 M，通过以下步骤实现：文本表征网络包括孪生网络BERT模型和双向长短时记忆网络；步骤2，将 Data1和Data2输入到孪生网络BERT模型中，生成 Data1对应的文本向量TCLS1、 Data1对应的具有上下文语义信息的词向量、Data2对应的文本向量TCLS2和Data2对应的具有上下文语义信息的词向量；将词向量 T1输入到双向长短时记忆网络中，得到涵盖文本双向语义信息的文本 H1= {h11,h21,…,hn1}；将词向量 T2输入到双向长短时记忆网络中，得到涵盖文本双向语义信息的文本 H2= {h12,h22,…,hn2}；将最大池化后的文本向量TCLS1和文本H1拼接，得到文本 TH1；将最大池化后的文本向量TCLS2和文本H2拼接，得到文本 TH2；将TH1和TH2拼接，得到完整的句子 TH；利用自注意力机制处理完整的句子 TH，获得文本表征 M。 2.根据权利要求1所述的基于BERT和GAT的裁判文书争议焦点识别方法，其特征在于，权　利　要　求　书 1/3 页 2 CN 115422920 A 2将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，得到标签特征，通过以下步骤实现：步骤3，构建标签图 G=(V,E)，V是标签图的节点， E是标签图的边；将预先获取的标签邻接矩阵和标签向量矩阵输入图注意力神经网络，利用图注意力神经网络聚合每个标签图的节点 V来自领域标签图的节点的信息，得到标签特征。 3.根据权利要求2所述的基于BERT和GAT的裁判文书争议焦点识别方法，其特征在于，对文本表征 M与标签特征关联的相似特征进行提取，获得基于文本语义联系的待识别标签特征P，通过以下步骤实现：步骤4，利用交互注意力机制对文本表征 M与标签特征关联的相似特征进行提取，获取基于文本语义联系的待识别标签特征，为预先获取的交互注意力向量。 4.根据权利要求3所述的基于BERT和GAT的裁判文书争议焦点识别方法，其特征在于，预先获取交互注意力向量，通过以下步骤实现：将文本表征 M与标签特征进行点乘运算，得到信息交互矩阵Q：，式中，Qaj是矩阵Q的第 a个词对第 j个标签的元素， m为矩阵Q的总行数，n为矩阵Q的总列数；分别对Q的行与列作归一化处理，获得αaj和βaj：，， αaj表示上下文中第 a个词对第 j个标签的注意力权重， βaj表示第a个标签对上下文中第 j 个词的注意力权重；利用αaj，构建矩阵A：；利用βaj，构建矩阵B：；对矩阵B按列求平均值，得到矩阵，的转置矩阵为 ; 计算交互注意力向量 γ：权　利　要　求　书 2/3 页 3 CN 115422920 A 3

专利 基于BERT和GAT的裁判文书争议焦点识别方法

专利基于BERT和GAT的裁判文书争议焦点识别方法