专利 基于双分支制衡互学习的图文检索方法、系统及存储介质

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211002415.3 (22)申请日 2022.08.22 (65)同一申请的已公布的文献号申请公布号 CN 115080769 A (43)申请公布日 2022.09.20 (73)专利权人南京大数据集团有限公司地址 211135 江苏省南京市江宁区麒麟科技创新园智汇路3 00号A座 (72)发明人许扬汶　刘天鹏　韩冬　孙腾中　刘灵娟　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师柏尚春 (51)Int.Cl. G06F 16/383(2019.01)G06F 16/583(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) G06V 10/74(2022.01) G06V 10/40(2022.01) (56)对比文件 CN 114298158 A,202 2.04.08 CN 113010700 A,2021.0 6.22 CN 109299341 A,2019.02.01 审查员高沛沛 (54)发明名称基于双分支制衡互学习的图文检索方法、系统及存储介质 (57)摘要本发明公开了一种基于双分支制衡互学习的图文检索方法及系统，所述方法利用特征生成模型生成图像、文本的特征向量，特征生成模型包括互相指导学习的第一分支特征生成模型和第二分支特征生成模型，利用模态区分模型区分输入的模态，利用正反例组合损失函数和相似度正则极小化损失函数指导含有双分支的特征生成模型和模态区分模型参数的交替更新，用第一分支特征生成模型生成的特征进行相似度计算，相似度最高的为检索结果；本发明将图像、文本通过双分支的特征生成模型映射到公共空间，利用制衡互学习缩小图片和文本模态之间的异构差距，并通过对损失函数的优化，提高相似度运算准确度，拉大正反例之间的距离，从而更准确地得到检索结果。权利要求书3页说明书8页附图3页 CN 115080769 B 2022.12.02 CN 115080769 B 1.一种基于双分支制衡互学习的图文检索方法，其特征在于，用户在图文检索模型中输入特定的图像或文本，检索得到相似度最高的文本或图像，所述图文检索模型的训练方法包括如下步骤： (1)对图像和文本数据集进行预处理； (2)预处理后的数据集经过特征生成模型生成图像特征和文本特征，生成特征生成模型的初始参数；所述特征生成模型包括第一分支特征生成模型和第二分支特征生成模型，互相指导学习；所述图像特征包括第一分支图像特征v和第二分支图像特征vs，所述文本特征包括第一分支文本特征t和第二分支文本特征ts； (3)将图像特征及文本特征输入到模态区分模型，生成模态区分模型的初始参数；所述模态区分模型的损失函数为：其中， D(fi； θD)是输入特征为fi时模态区分模型的真实输出， yi是模态区分模型的期望输出， n表示特征数量； (4)交替更新所述特征生成模型和所述模态区分模型的参数，方法为：先利用图文检索模型训练的损失函数更新所述特征生成模型的网络参数，根据优化后的所述特征生成模型输出的特征得到图文检索模型训练的损失函数，然后更新所述模态区分模型的网络参数，依此方法迭代更新；其中，所述损失函数中包括正反例组合损失函数，所述正反例组合损失函数拉近特征和正例的距离，推远特征和反例的距离，所述正反例组合损失函数Ltrip的公式为： Ltrip＝Ltrip,v+Ltrip,t 其中， Ltrip,v为图像的正反例组合损失函数， Ltrip,t为文本的正反例组合损失函数， ti为第i个第一分支文本特征，和分别表示图像的第j个文本正例和第k个文本反例的第二分支文本特征， vi为第i个第一分支图像特征；和分别表示文本的第j个图像正例和第k 个图像反例的第二分支图像特征； α1和α2分别为图像和文本正例损失所占的比例， μ1和 μ2调控整体损失的值； | |·||sim为相似度计算公式：其中||·||2为欧拉乘方距离函数； (5)根据所述第一分支特征生成模型生成的文本和图像特征计算相似度，相似度最高的为图文检索的结果。 2.根据权利要求1所述的基于双分支制衡互学习的图文检索方法，其特征在于，步骤 (4)中用相似度正则极小化损失函数指导第一分支图像特征和第一分支文本特征的生成，权　利　要　求　书 1/3 页 2 CN 115080769 B 2所述相似度正则极小化损失函数Lmin为： Lmin＝Lmin,v+Lmin,t 其中Lmin,v和Lmin,t分别表示图像和文本的相似度正则极小化损失函数。 3.根据权利要求1所述的基于双分支制衡互学习的图文检索方法，其特征在于，步骤 (2)中，所述第二分支特征生成模型包括第二分支图像模型和第二分支文本模型，第二分支特征生成模型的参数更新方法为：其中是第二分支图像模型的参数， θv是第一分支图像模型的参数；是第二分支文本模型的参数， θt是第一分支文本模型的参数； k控制相加的比例。 4.根据权利要求1所述的基于双分支制衡互学习的图文检索方法，其特征在于，步骤 (1)中，图像数据集的预处理方法包括对图像尺寸调整、图像翻转、图像比例缩放、图像裁剪和图像亮度色温饱和度调整，并将像素值转换到[0,1]的范围内。 5.根据权利要求1所述的基于双分支制衡互学习的图文检索方法，其特征在于，步骤 (1)中，文本数据集的预处理方法包括进行向量化处理，将文本中出现过的词语统计为一个序列，若一句文本中的核心词语出现在所述序列中，则文本向量中该核心词语的元素值为 1，否则为0 。 6.根据权利要求1所述的基于双分支制衡互学习的图文检索方法，其特征在于，步骤 (4)中，将第一分支图像特征和第一分支文本特征通过Softmax函数p转换为类别概率，由真实标签l指导，对图像和文本内部的不同特征进行区分，概率归一损失函数为： 7.一种基于双分支制衡互学习的图文检索系统，其特征在于，包括：预处理模块，用于对图像、文本数据集进行预处理；模型训练模块，包括图文检索模型，用于交替更新特征生成模型和模态区分模型的参数，先利用图文检索模型训练的损失函数更新所述特征生成模型的网络参数，根据优化后的所述特征生成模型输出的特征得到图文检索模型训练的损失函数，然后更新所述模态区分模型的网络参数，进行迭代更新；所述特征生成模型包括相互指导学习的第一分支特征生成模型和第二分支特征生成模型，所述模态区分模型用于区分输入的特征是属于图像还是文本，所述模态区分模型的损失函数为：权　利　要　求　书 2/3 页 3 CN 115080769 B 3

专利 基于双分支制衡互学习的图文检索方法、系统及存储介质

专利基于双分支制衡互学习的图文检索方法、系统及存储介质