(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210629686.5
(22)申请日 2022.06.02
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号
(72)发明人 王笛 田玉敏 万波 田佳博
王泉 罗雪梅 王义峰 吴自力
赵辉 潘蓉
(74)专利代理 机构 陕西电子 工业专利中心
61205
专利代理师 程晓霞 王品华
(51)Int.Cl.
G06F 16/332(2019.01)
G06F 16/38(2019.01)
G06F 16/532(2019.01)
G06F 16/583(2019.01)G06K 9/62(2022.01)
G06V 10/42(2022.01)
G06V 10/74(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
多粒度特 征融合的跨模态图文检索方法
(57)摘要
本发明公开了一种多粒度特征融合的跨模
态图文检索方法, 解决了 现有跨模态检索方法不
能全面提取模态数据的信息, 且不能在跨模态数
据间进行细粒度信息交互的技术问题, 实现包
括: 建立图文检索数据集; 图文特征提取; 构建基
于注意力的细粒度跨模态交互网络和多粒度特
征融合网络; 使用联合损失函数对交互网络和融
合网络进行训练, 完成图文的双向检索。 本发明
使用预训练模 型提取特征, 用特征融合网络学习
更强大的特征表示, 使 得本发明构建的跨模态检
索模型在双路编码结构下具有较高的检索效率
和精度, 本发明检索精度和 效率高, 应用于人工
智能领域, 如信息 推荐和信息 检索等。
权利要求书3页 说明书14页 附图3页
CN 115033670 A
2022.09.09
CN 115033670 A
1.一种多粒度特 征融合的跨模态图文检索方法, 其特 征在于, 包括有以下步骤:
(1)建立图文检索数据集: 收集图像和其对应的文字描述作为样本, 每个样本是由一张
图片和与图片对应的文字描述共同组成, 简称为图像文本对样本; 建立跨模态检索数据集,
分为训练集、 验证集与测试集;
(2)样本的图文特征提取: 对训练集、 验证集和测试集所有样本中的每张图片, 使用
Faster‑RCNN提取每张 图片的k个区域特征, 即局部特征, 使用预训练模型Vilt提取每张图
片的全局特征; 对于样本中的图像所对应的文字描述, 使用Bert提取文字描述文本中每个
单词的特征, 得到局部特征, 在局部特征后连接门控循环单元GRU, 进 行池化, 得到文字描述
的全局特征; 通过对每个样 本中图像文本对的各自的特征提取, 分别得到训练集、 验证集和
测试集中所有的样本的图像和文字描述各自对应的局部特征和全局特征, 并分别 保存; 每
个数据集包 含4个特征文件, 总共为12个特 征文件;
(3)构建基于注意力的细粒度跨模态交互网络: 构建基于注意力机制的细粒度跨模态
交互网络, 交互网络输入为一个样本中的图像和文字描述各自的局部特征, 交互网络依 次
连接有用于图像和文字描述的联合特征表示的全连接层、 基于注意力的特征交互层、 图像
和文字描述的交互特征输出层, 特征交互层用于捕捉数据内部的相关性, 进行跨模态数据
的细粒度 交互, 将图像和文字描述的交互特征输出层的输出特征作为交互网络输出, 交互
网络输出即为细粒度跨模态交 互后的图像和文字描述各自的局部特 征;
(4)构建多粒度特征融合网络: 构建多粒度特征融合网络对图像和文字描述的不同粒
度的特征进行融合, 融合网络输入为并行输入的四个特征, 即图像和文字描述各自的局部
特征和全局特征, 其中, 局部特征为跨模态交互网络的输出, 全局特征输入来自训练集的全
局特征文件; 多粒度特征融合网络包括图像特征融合和文本特征融合两个子网络, 两个子
网络的并行输出即为融合网络输出; 两个子网络并行独立存在, 图像特征融合子网络将图
像的全局特征嵌入到与局部特征相同的维度之后, 通过注意力机制来平衡全局特征和局部
特征的相对贡献, 最后平均池化后得到最 终的图像嵌入I; 文本特征融合子网络的将文字描
述的全局特征嵌入到与局部特征相同的维度之后, 用全局特征去引导局部特征, 最后平均
池化后得到最 终的文本嵌入T; 图像嵌入I为图像特征融合子网络的输出, 文本嵌入T为文本
特征融合子网络的输出, 两个输出为多粒度特 征融合网络的并行输出;
(5)使用联合损失函数同时对所构建的交互网络和融合网络进行训练: 定义联合损失
函数为三元组损失、 角损失和文本生成损失之和, 使用联合损失函数对跨模态交互网络和
多粒度特征融合网络同时进行训练, 通过角损失的影响因子θ来约束角损失对整个损失的
影响, 增大正负 样本之间的距离, 更新网络参数;
(6)完成图像和文本的双向检索: 使用图像去检索对应的文字描述时, 将测试集中的每
张图像与其对应的文字描述作为样本输入到网络模型中得到图像和文字描述各自的编码
表示, 对于每张图像, 使用欧氏距离函数计算与所有文字描述的相似度大小, 距离越小则相
似度越高, 最相似的特征所对应的文本描述即为检索结果; 使用文字描述去检索对应的图
像时, 将测试集所有文字描述与测试集中所有的图像作为样本输入到网络模型中得到文字
描述和图像各自的编码表示, 对于每句文字描述, 同样使用欧氏距离函数计算与所有图像
的相似度大小, 最相似的图像特征所对应的图像即为检索结果; 统计测试集中所有图像和
文字描述的检索准确率, 完成多粒度特 征融合的跨模态图文检索。权 利 要 求 书 1/3 页
2
CN 115033670 A
22.根据权利要求1中所述的多粒度特征融合的跨模态图文检索方法, 其特征在于, 步骤
(3)所述的构建基于注意力的细粒度跨模态交 互网络, 包括有如下步骤:
3a)构建用于图像和文字描述的联合特征表示的全连接层: 在构建的基于注意力的细
粒度跨模态交互网络, 交互网络的输入为一个样本中的图像和文字描述各自的局部特征,
首先构建用于图像和文字描述的联合特征表示的全连接层, 该全连接层由并行的两个不同
的全连接层构成, 两个并行 的全连接层分别用于图像和文字描述两个模态的嵌入, 将样本
中的图像局部特征和对应文字描述的局部特征并行嵌入到相同的语义空间, 在该语义空间
中, 图像的第i个局部区域特征表示为vi, 图像局部特征V表示为: V=[v1,v2,…,vr],
其中, i表示图像局部区域特征v的序号, r表示局部区域的总个数; 文字描述的第j
个单词特征表示为wj, 文字描述的局 部特征W表示为W=[w1,w2,…,wr],wj∈Rq×D, 其中, j表
示局部区域特征w的序号, q表示文字描述中的单词总个数, 将局部特征V和W串联后得到联
合特征Z:
Z=concat[V,W]
3b)构建基于注意力的特征交互层: 构建用于将联合特征进行细粒度模态交互的特征
交互层, 该特征交互层依 次连接有多头注意力层、 第一正则化层、 前馈神经网络层、 第二正
则化层, 前两层由多头注意力层和第一正则化层构成, 其输入为联合特征Z, 输出为Y, 后两
层为前馈神经网络层和第二 正则化层, 后两层将Y作为输入:
zk=LayerNorm(yk+FFN(yk)),k=1…,r+q.
其中, yk是Y中的第k个特征, zk为交互后联合特征的第k个输出特征, 即是特征交互层的
输出;
3c)构建图像和文字描述的交互特征输出层: 将特征交互层的输出作为交互后的图像
和文本特征, 该层输出为交互后联合特征的按位截取, 得到交互后的图像特征
和文字描
述特征
其中,
表示交互后的 图像特征,
表示交互后的文字描 述特征, 交互后的 图像特征和
文字描述特 征即为基于注意力的细粒度跨模态交 互网络的输出。
3.根据权利要求1所述的多粒度特征融合的跨模态图文检索方法, 其特征在于, 步骤
(4)所述的构建多粒度特 征融合网络, 包括有如下步骤:
4a)构建图像特征融合子网络: 在多粒度特征融合网络中, 首先构建图像特征融合子网
络, 该子网络由全连接层和 CRGN网络层连接, 图像特征子网络的输入为并行的图像的局部
特征与全局特 征, 输出为 最终的图像嵌入I,所构建的网络如下:
V”=FC(FC(V') )权 利 要 求 书 2/3 页
3
CN 115033670 A
3
专利 多粒度特征融合的跨模态图文检索方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:01上传分享