(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210781046.6
(22)申请日 2022.07.05
(71)申请人 人民中科 (北京) 智能技 术有限公司
地址 100176 北京市大兴区北京经济技 术
开发区科谷一街8号院8号楼14层1401
(北京自贸试验区高端产业片区亦庄
组团)
(72)发明人 阮晓峰 王坚 李兵 余昊楠
胡卫明
(74)专利代理 机构 北京万思博知识产权代理有
限公司 1 1694
专利代理师 刘冀
(51)Int.Cl.
G06F 16/903(2019.01)
G06V 10/74(2022.01)G06V 10/80(2022.01)
G06K 9/62(2022.01)
(54)发明名称
一种跨模态检索方法、 装置以及存 储介质
(57)摘要
本申请公开了一种跨模态检索方法、 装置以
及存储介质。 其中, 跨模态检索方法包括: 接收检
索数据, 并确定检索数据的模态; 将检索数据输
入至具有至少两个特征提取单元的特征提取模
型, 并通过与检索数据的模态对应的特征提取单
元提取检索数据的特征表示向量; 根据特征表示
向量对索引库进行遍历, 查询出与检索数据相关
的多个候选检索结果; 以及将检索数据与候选检
索结果输入至具有多模态融合特征提取单元的
相似度计算模型, 进行相似度计算, 根据相似度
对候选检索结果进行排序。
权利要求书2页 说明书16页 附图5页
CN 114861016 A
2022.08.05
CN 114861016 A
1.一种跨模态检索方法, 其特 征在于, 包括:
接收检索数据, 并确定所述检索数据的模态;
将所述检索数据输入至具有至少两个特征提取单元的特征提取模型, 并通过与所述检
索数据的模态对应的特 征提取单元提取所述检索数据的特 征表示向量;
根据所述特征表示向量对索引库进行遍历, 查询出与 所述检索数据相关的多个候选检
索结果; 以及
将所述检索数据与候选检索结果输入至具有多模态融合特征提取单元的相似度计算
模型, 进行相似度计算, 根据相似度对候选检索结果进行排序。
2.根据权利要求1所述的方法, 其特征在于, 所述特征提取模型包括文本特征提取单元
和图像特征提取单元, 并且通过与所述检索数据的模态对应的特征提取单元提取所述检索
数据的特 征表示向量的操作, 包括:
在所述检索数据为文本检索数据的情况下, 利用所述文本特征提取单元确定与所述文
本检索数据对应的特 征表示向量; 以及
在所述检索数据为图像检索数据或视频检索数据的情况下, 利用图像特征提取单元确
定与所述图像 检索数据或所述视频检索数据对应的特 征表示向量。
3.根据权利要求2所述的方法, 其特征在于, 还包括通过以下操作对所述特征提取模型
进行训练:
创建用于训练所述特征提取模型的训练样本集, 其中所述训练样本集的每个训练样本
包括配对的文本数据以及图像数据;
将所述训练样本的文本数据输入所述文本特征提取单元, 并将所述训练样本的图像数
据输入所述图像特 征提取单元; 以及
根据所述文本特征提取单元的输出结果与所述图像特征提取单元的输出结果之间的
互信息对所述特 征提取模型进行训练。
4.根据权利要求2所述的方法, 其特征在于, 利用所述文本特征提取单元确定与所述文
本检索数据对应的特 征表示向量的操作, 包括:
将所述文本检索数据输入所述文本特 征提取单元;
获取所述文本特 征提取单元的多个特 征提取层的输出 特征; 以及
对所述多个特征提取层的输出特征进行加权求和, 得到与所述文本检索数据对应的特
征表示向量。
5.根据权利要求2所述的方法, 其特征在于, 利用所述图像特征提取单元确定与所述图
像检索数据或所述视频检索数据对应的特 征表示向量的操作, 包括:
将所述图像 检索数据或所述视频检索数据输入所述图像特 征提取单元;
获取所述图像特 征提取单元的多个特 征提取层的输出 特征; 以及
对所述多个特征提取层的输出特征进行加权求和, 得到与所述图像检索数据或所述视
频检索数据对应的特 征表示向量。
6.根据权利要求1所述的方法, 其特征在于, 根据所述特征表示向量对索引库进行遍
历, 查询出与所述检索数据相关的多个候选检索结果的操作, 包括:
根据所述特征表示向量对索引库进行遍历, 查询与所述特征表示向量的相关度由高至
低排列的预定数量个候选特征表示向量, 并获取所述候选特征表示向量对应的候选检索结权 利 要 求 书 1/2 页
2
CN 114861016 A
2果。
7.根据权利要求6所述的方法, 其特征在于, 还包括通过以下操作对所述相似度计算模
型进行训练:
创建用于对所述相似度计算模型进行训练 的训练样本集, 所述训练样本集的每个训练
样本包括配对的文本数据和图像数据;
对所述配对的文本数据和图像数据之间的相似度进行 标注;
将所述配对的文本数据和图像数据输入所述相似度计算模型; 以及
根据所标注的相似度和所述相似度计算模型所计算的相似度, 对所述相似度计算模型
进行训练。
8.一种存储介质, 其特征在于, 所述存储介质包括存储的程序, 其中, 在所述程序运行
时由处理器执行权利要求1至7中任意 一项所述的方法。
9.一种跨模态检索装置, 其特 征在于, 包括:
检索数据接收模块, 用于 接收检索数据, 并确定所述检索数据的模态;
特征提取模块, 用于将所述检索数据输入至具有至少两个特征提取单元的特征提取模
型, 并通过与所述检索数据的模态对应的特征提取单元提取所述检索数据 的特征表示向
量;
查询模块, 用于根据所述特征表示向量对索引库进行遍历, 查询出与所述检索数据相
关的多个候选检索结果; 以及
排序显示模块, 用于将所述检索数据与候选检索结果输入至具有多模态融合特征提取
单元的相似度计算模型, 进行相似度计算, 根据相似度对候选检索结果进行排序。
10.一种跨模态检索装置, 其特 征在于, 包括:
处理器; 以及
存储器, 与所述处 理器连接, 用于为所述处 理器提供处 理以下处 理步骤的指令:
接收检索数据, 并确定所述检索数据的模态;
将所述检索数据输入至具有至少两个特征提取单元的特征提取模型, 并通过与所述检
索数据的模态对应的特 征提取单元提取所述检索数据的特 征表示向量;
根据所述特征表示向量对索引库进行遍历, 查询出与 所述检索数据相关的多个候选检
索结果; 以及
将所述检索数据与候选检索结果输入至具有多模态融合特征提取单元的相似度计算
模型, 进行相似度计算, 根据相似度对候选检索结果进行排序。权 利 要 求 书 2/2 页
3
CN 114861016 A
3
专利 一种跨模态检索方法、装置以及存储介质
文档预览
中文文档
24 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:55上传分享