(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211002415.3
(22)申请日 2022.08.22
(65)同一申请的已公布的文献号
申请公布号 CN 115080769 A
(43)申请公布日 2022.09.20
(73)专利权人 南京大数据集团有限公司
地址 211135 江苏省南京市江宁区麒 麟科
技创新园智汇路3 00号A座
(72)发明人 许扬汶 刘天鹏 韩冬 孙腾中
刘灵娟
(74)专利代理 机构 南京苏高专利商标事务所
(普通合伙) 32204
专利代理师 柏尚春
(51)Int.Cl.
G06F 16/383(2019.01)G06F 16/583(2019.01)
G06K 9/62(2022.01)
G06N 20/00(2019.01)
G06V 10/74(2022.01)
G06V 10/40(2022.01)
(56)对比文件
CN 114298158 A,202 2.04.08
CN 113010700 A,2021.0 6.22
CN 109299341 A,2019.02.01
审查员 高沛沛
(54)发明名称
基于双分支制衡互学习的图文检索方法、 系
统及存储介质
(57)摘要
本发明公开了一种基于双分支制衡互学习
的图文检索方法及系统, 所述方法利用特征生成
模型生成图像、 文本的特征向量, 特征生成模型
包括互相指导学习的第一分支特征生成模型和
第二分支特征生成模型, 利用模态区分模型区分
输入的模态, 利用正反例组合损失函数和相似度
正则极小化损失函数指导含有双分支的特征生
成模型和模态区分模型参数的交替更新, 用第一
分支特征生成模 型生成的特征进行相似度计算,
相似度最高的为检索结果; 本发明将图像、 文本
通过双分支的特征生成模型映射到公共空间, 利
用制衡互学习缩小图片和文本模态之间的异构
差距, 并通过对损失函数的优化, 提高相似度运
算准确度, 拉大正反例之间的距离, 从而更准确
地得到检索结果。
权利要求书3页 说明书8页 附图3页
CN 115080769 B
2022.12.02
CN 115080769 B
1.一种基于双分支制衡互学习的图文检索方法, 其特征在于, 用户在图文检索模型中
输入特定的图像或文本, 检索得到相似度最高的文本或 图像, 所述图文检索模型 的训练方
法包括如下步骤:
(1)对图像和文本数据集进行 预处理;
(2)预处理后的数据集经过特征生成模型生成图像特征和文本特征, 生成特征生成模
型的初始参数; 所述特征生成模型包括第一分支特征生成模型和第二分支特征生成模型,
互相指导学习; 所述图像特征包括第一分支图像特征v和第二分支图像特征vs, 所述文本特
征包括第一分支文本特 征t和第二分支文本特 征ts;
(3)将图像特征及文本特征输入到模态区分模型, 生成模态区分模型的初始参数; 所述
模态区分模型的损失函数为:
其中, D(fi; θD)是输入特征为fi时模态区分模型的真实输出, yi是模态区分模型的期望
输出, n表示特 征数量;
(4)交替更新所述特征生成模型和所述模态区分模型的参数, 方法为: 先利用图文检索
模型训练的损失函数更新所述特征生成模型的网络参数, 根据优化后的所述特征生成模型
输出的特征得到图文检索模型训练的损失函数, 然后更新所述模态 区分模型 的网络参数,
依此方法迭代更新; 其中, 所述损失函数中包括正反例组合损失函数, 所述正反例组合损失
函数拉近特征和正例的距离, 推远特征和反例的距离, 所述正反例组合损失函数Ltrip的公
式为:
Ltrip=Ltrip,v+Ltrip,t
其中, Ltrip,v为图像的正反例组合损失函数, Ltrip,t为文本的正反例组合损失函数, ti为
第i个第一分支文本特征,
和
分别表示图像的第j个文本正例和第k个文本反例的第二
分支文本特征, vi为第i个第一分支图像特征;
和
分别表示文本的第j个图像正例 和第k
个图像反例的第二分支图像特征; α1和α2分别为图像和文本正例损失所占的比例, μ1和 μ2调
控整体损失的值; | |·||sim为相似度计算公式:
其中||·||2为欧拉乘方距离函数;
(5)根据所述第一分支特征生成模型生成的文本和图像特征计算相似度, 相似度最高
的为图文检索的结果。
2.根据权利要求1所述的基于双分支制衡互学习的图文检索方法, 其特征在于, 步骤
(4)中用相似度正则极小化损失函数指导第一分支图像特征和第一分支文本特征的生成,权 利 要 求 书 1/3 页
2
CN 115080769 B
2所述相似度正则极小化损失函数Lmin为:
Lmin=Lmin,v+Lmin,t
其中Lmin,v和Lmin,t分别表示图像和文本的相似度正则极小化损失函数。
3.根据权利要求1所述的基于双分支制衡互学习的图文检索方法, 其特征在于, 步骤
(2)中, 所述第二分支特征生成模 型包括第二分支图像模 型和第二分支文本模型, 第二分支
特征生成模型的参数 更新方法为:
其中
是第二分支图像模型的参数, θv是第一分支图像模型的参数;
是第二分支文本
模型的参数, θt是第一分支文本模型的参数; k控制 相加的比例。
4.根据权利要求1所述的基于双分支制衡互学习的图文检索方法, 其特征在于, 步骤
(1)中, 图像数据集的预 处理方法包括对图像尺寸调整、 图像翻转、 图像比例缩放、 图像裁剪
和图像亮度色温饱和度调整, 并将像素值 转换到[0,1]的范围内。
5.根据权利要求1所述的基于双分支制衡互学习的图文检索方法, 其特征在于, 步骤
(1)中, 文本数据集的预 处理方法包括进 行向量化处理, 将文本中出现过的词语统计为一个
序列, 若一句文本中的核心词语出现在所述序列中, 则文本 向量中该核心词语的元素值为
1, 否则为0 。
6.根据权利要求1所述的基于双分支制衡互学习的图文检索方法, 其特征在于, 步骤
(4)中, 将第一分支图像特征和第一分支文本特征通过Softmax函数p转换为类别概率, 由真
实标签l指导, 对图像和文本内部的不同特 征进行区分, 概 率归一损失函数为:
7.一种基于双分支制衡互学习的图文检索系统, 其特 征在于, 包括:
预处理模块, 用于对图像、 文本数据集进行 预处理;
模型训练模块, 包括图文检索模型, 用于交替更新特征生成模型和模态区分模型的参
数, 先利用图文检索模型训练的损失函数更新所述特征生成模型 的网络参数, 根据优化后
的所述特征生成模型输出的特征得到图文检索 模型训练的损失函数, 然后更新所述模态区
分模型的网络参数, 进行迭代更新; 所述特征生成模型包括相互指导学习的第一分支特征
生成模型和第二分支特征生成模型, 所述模态区分模型用于区分输入的特征是属于图像还
是文本, 所述模态区分模型的损失函数为:
权 利 要 求 书 2/3 页
3
CN 115080769 B
3
专利 基于双分支制衡互学习的图文检索方法、系统及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:07上传分享