(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211098589.4
(22)申请日 2022.09.09
(71)申请人 之江实验室
地址 311100 浙江省杭州市余杭区中泰街
道之江实验室南湖总部
申请人 浙江大学
(72)发明人 王永恒 金雄男 蒋雷 王芷霖
王超 巫英才
(74)专利代理 机构 杭州浙科专利事务所(普通
合伙) 33213
专利代理师 孙孟辉
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/194(2020.01)
G06F 40/295(2020.01)G06F 40/30(2020.01)
G06N 3/08(2006.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种面向知识图谱实体对齐的自监督联合
学习方法
(57)摘要
本发明公开一种面向知识图谱实体对齐的
自监督联合学习方法, 包括: 步骤一, 使用图像预
训练深度学习模 型学习实体的图像特征, 通过计
算图像特征之间欧氏距离来测量图像相似度, 选
择相似度最高的实体对作为种子对齐; 步骤二,
在步骤一的种子对齐的监督下, 利用知识图谱的
多模态信息, 基于知识嵌入模型, 将知识图谱嵌
入到计算机低维向量空间; 步骤三, 基于步骤二
的知识图谱的嵌入, 计算实体多模态交互相似度
向量, 之后通过模态融合学习各模态的权重并生
成最终的实体嵌入, 最后, 基于实体嵌入计算余
弦距离以测量实体 之间的对齐可能性, 并输出对
齐实体列表。 本发明以自监督联合学习的方式进
行实体对齐, 全程无需人工干预, 确保了其拓展
性。
权利要求书3页 说明书8页 附图3页
CN 115168620 A
2022.10.11
CN 115168620 A
1.一种面向知识图谱实体对齐的自监 督联合学习方法, 其特 征在于, 包括以下步骤:
步骤一, 使用图像预训练深度学习模型来学习实体的图像特征, 通过计算图像特征之
间的欧氏距离来测量图像的相似度, 再根据图像相似度, 选择相似度最高的实体对作为种
子对齐;
步骤二, 在步骤一的种子对齐的监督下, 利用知识图谱的结构信息、 实体描述、 属性值、
实体类型信息, 基于图卷积网络、 语言预训练模型、 层次类型嵌入模型, 将知识图谱嵌入到
计算机低维向量空间;
步骤三, 基于步骤二的知识图谱的嵌入, 计算实体成对描述交互、 邻居描述交互、 属性
交互、 类型交互相似度向量, 之后通过模态融合学习各模态的权重并生成最 终的实体嵌入,
最后, 基于实体嵌入计算 余弦距离以测量实体之间的对齐可能性, 并输出对齐实体列表。
2.如权利要求1所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在
于, 所述步骤一具体为: 采用在ImageNet图像数据库的识别任务上预先训练的ResNet ‑152
模型作为图像预训练深度学习模型, 从模型 的第一层提取输出作为每个实体图像的特征,
然后利用提取特征之间的欧氏距离来度量实体的图像对之间的相似度; 最后, 根据图像相
似度, 选择相似度最高的top ‑k对实体作为种子对齐。
3.如权利要求2所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在
于, 所述步骤二, 具体包括以下子步骤:
步骤 (2.1) 基于实体的文字描述和属性信息, 利用语言预训练模型对实体进行嵌入, 使
文字描述相似的实体在向量空间相邻, ;
步骤 (2.2) 基于知识图谱的结构信息, 利用图卷积网络对知识图谱嵌入进行邻居信息
增强;
步骤 (2.3) 基于实体的类型信息, 通过层次类型嵌入模型, 使类型相似的实体在向量空
间相邻。
4.如权利要求3所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在
于, 所述步骤 (2.1) 具体为:
首先, 基于种子对齐构建训练数据集
,
是实体
在种子对齐的对应实体,
即相似实体,
是随机选取的非
的相异实体;
然后, 将实体的文字描述 导入到语言预训练模型BERT为知识图谱嵌入做微调;
最后, 利用多层感知器, 过滤语言预训练模型BERT的CLS嵌入, 得到实体的嵌入
,
CLS是模型BERT中使用的一种特殊分类标记;
在微调中使用的成对margi n分类损失函数
如下:
其中,
是通过
与
之间的
距离进行初始化,
∈
或
,
表示相似
实体对与相异实体对之间采用的margin,
越小表示两个实体在描述嵌入方面越相权 利 要 求 书 1/3 页
2
CN 115168620 A
2似。
5.如权利要求4所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在
于, 所述步骤 (2.2) 具体为:
基于图卷积网络GCN通过信息传播的方式使实体嵌入聚合邻居实体信息, 所述信息传
播的方式, 规则如下:
其中,
表示添加了自连接的邻接矩阵,
是单位矩阵,
与
意味着层特定可训练权重矩阵,
则表示一个激活函数,
表示在第l层的激活
矩阵, 其中N表示实体的个数, D表示实体向量的维度。
6.如权利要求5所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在
于, 所述步骤 (2.3) 具体为:
通过层次类型感知距离函数
以计算两个实体在类型嵌入空间的距离, 再基于
层次类型嵌入 模型HTE学习实体在类型嵌入空间的向量表示;
所述层次类型感知距离函数如下:
其中,
是距离参数,
表示两个实体之间的类型相似度,
用与范化类
型相似度的值, 类型相似度通过最近共同父类型的信息内容进行计算, 具体如下:
其中,
表示同时为
与
的父类的集合,
意味着类型t的信息内容值,
信息内容越具体, 则 信息内容的值越高。
7.如权利要求6所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在
于, 所述步骤三, 具体包括以下子步骤:
步骤 (3.1) 基于步骤 (2.1) 的实体文字描述嵌入, 计算两个实体向量间的余弦距离, 并
为每一个实体生成一维相似度向量, 即计算得到成对描述相似度向量;
步骤 (3.2) 基于步骤 (2.2) 的实体邻居信息嵌入, 计算邻居 描述相似度向量;
步骤 (3.3) 基于步骤 (2.1) 的实体属性信息嵌入, 计算属性相似度向量;
步骤 (3.4) 基于步骤 (2.3) 的实体类型嵌入, 计算两个实体向量间的余弦距离, 并为每
一个实体生成一维相似度向量, 即计算得到类型相似度向量;
步骤 (3.5) 在步骤一种子对齐的监督下, 联合学习成对描述、 邻居描述、 属性、 类型相似
度, 生成最终 实体对之间的相似度, 并基于实体相似度找出相应的对齐实体;
步骤 (3.6) 采用贪婪对齐策略, 对每个实体选取对齐概率最大的候选实体生成对齐实
体对, 并从相应的知识图谱中删除已对齐的实体, 反复步骤 (3.6) 直至其中一个知识图谱中
的实体为空。
8.如权利要求7所述的一种面向知识图谱实体对齐的自监督联合学习方法, 其特征在权 利 要 求 书 2/3 页
3
CN 115168620 A
3
专利 一种面向知识图谱实体对齐的自监督联合学习方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:21上传分享