专利 视觉定位驱动的跨模态行人检索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 20221098902 2.X (22)申请日 2022.08.17 (71)申请人苏州大学地址 215000 江苏省苏州市吴中区石湖西路188号 (72)发明人王海光　曹敏　张民　 (74)专利代理机构苏州市中南伟业知识产权代理事务所(普通合伙) 32257 专利代理师陈华红子 (51)Int.Cl. G06F 16/532(2019.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06V 40/10(2022.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视觉定位驱动的跨模态行人检索方法 (57)摘要本发明涉及一种视觉定位驱动的跨模态行人检索方法，包括获取候选文本和候选图像、输入文本和待检索图像，提取文本的短语；使用训练完成的跨模态预训练模型提取候选文本的短语的特征和候选图像的特征并输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，使用热点图训练跨模态交互模块；使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征并输入训练完成的跨模态交互模块计算待检索图像与候选图像的相似度，选择相似度最大的候选图像作为检索结果。本发明可以提高文本和图像语义信息的对应能力、提升局部对应能力，从而提高检索的准确率。权利要求书4页说明书12页附图2页 CN 115292533 A 2022.11.04 CN 115292533 A 1.一种视觉定位驱动的跨模态行人检索方法，其特征在于，包括以下步骤：步骤1：获取训练集、候选文本和候选图像、输入文本和待检索图像，提取所述候选文本和输入文本的短语；步骤2：使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型，使用训练完成的跨模态预训练模型提取所述候选文本的短语的特征和候选图像的特征；步骤3：将所述候选文本的短语的特征和候选图像的特征输入跨模态交互模块计算候选图像对于每个候选文本的短语的热点图，使用热点图训练跨模态交互模块得到训练完成的跨模态交互模块；步骤4：使用训练完成的跨模态预训练模型提取输入文本的特征、输入文本的短语的特征和待检索图像的特征，将所述输入文本的特征、输入文本的短语的特征和待检索图像的特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度，选择相似度最大的候选图像作为检索结果。 2.根据权利要求1所述的视觉定位驱动的跨模态行人检索方法，其特征在于：所述跨模态预训练模型为ALBEF模型。 3.根据权利要求2所述的视觉定位驱动的跨模态行人检索方法，其特征在于：训练所述 ALBEF模型时，建立对比学习的损失函数的过程为：获取ALBEF模型提取的文本Texti的短语的特征tt∈RL×d和图像Imagei的特征vi∈Rp×d，其中L表示文本的长度， p表示提取图像特征时划分的特征图中的特征总数， d表示特征维度， R表示欧几里得空间；计算损失函数为：其中，表示ALBEF模型获取的图像vi的全局特征，其中表示取vi 的第一维；表示ALBEF模型获取的文本ti的全局特征，其中表示取ti的第一维；表示数据域，是输入的批数据中和的集合；表示期望计算，表示数据域中的数据个数， H (·,·) 表示交叉熵计算，表示所述与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度，表示所述与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度；表示vi和Tm中所有文本特征是否匹配，如果匹配则如果不匹配则表示ti和Vm中所有图像特征是否匹配，如果匹配则如果不匹配则权　利　要　求　书 1/4 页 2 CN 115292533 A 24.根据权利要求3所述的视觉定位驱动的跨模态行人检索方法，其特征在于：所述与 ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度中的第j个相似度为：其中， τ是可学习参数， s()是计算余弦相似度的函数， |Tm|表示Tm的队列长度, 表示队列Tm的第j个特征， exp()表示自然指数函数；所述与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相似度中的第j个相似度为：其中， |Vm|表示Vm的队列长度，表示队列Vm的第j个特征。 5.根据权利要求3或4所述的视觉定位驱动的跨模态行人检索方法，其特征在于：训练所述ALBEF模型时，建立文本和图像精细匹配的损失函数的过程为：获取ALBEF模型提取的文本的短语的特征tj和图像的特征vi，计算损失函数为：其中， norm (·)表示归一化操作；表示文本和图像对的语义相同或不同的概率；数据域其中 b 表示数据批的大小， s.t.id(i)≠id(j)，其中cos( ·,·)表示余弦相似度计算， id(·)表示特征vi和ti所属行人的编号， argmax( ·)表示最大值所对应的特征， s.t. 表示需要满足的条件； s.t.id(i)≠id(j)； yi,j表示 vi,tj是否属于同一个行人，若属于则为1，反之则为0；的计算方法为：所述ALBEF模型将tj和vi输入ALBEF模型中的跨模态编码器，得到的跨模态编码的全局权　利　要　求　书 2/4 页 3 CN 115292533 A 3

专利 视觉定位驱动的跨模态行人检索方法

专利视觉定位驱动的跨模态行人检索方法