(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 20221098902 2.X
(22)申请日 2022.08.17
(71)申请人 苏州大学
地址 215000 江苏省苏州市吴中区石湖西
路188号
(72)发明人 王海光 曹敏 张民
(74)专利代理 机构 苏州市中南伟业知识产权代
理事务所(普通 合伙) 32257
专利代理师 陈华红子
(51)Int.Cl.
G06F 16/532(2019.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06V 40/10(2022.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
视觉定位驱动的跨模态行 人检索方法
(57)摘要
本发明涉及一种视觉定位驱动的跨模态行
人检索方法, 包括获取候选文本和候选图像、 输
入文本和待检索图像, 提取文本的短语; 使用训
练完成的跨模态预训练模型提取候选文本的短
语的特征和候选图像的特征并输入跨模态交互
模块计算候选图像对于每个候选文本的短语的
热点图, 使用热点图训练跨模态交互模块; 使用
训练完成的跨模态预训练模型提取输入文本的
特征、 输入文本的短语的特征和待检索图像的特
征并输入训练完成的跨模态交互模块计算待检
索图像与候选图像的相似度, 选择相似度最大的
候选图像作为检索结果。 本发明可以提高文本和
图像语义信息的对应能力、 提升局部对应能力,
从而提高检索的准确率。
权利要求书4页 说明书12页 附图2页
CN 115292533 A
2022.11.04
CN 115292533 A
1.一种视 觉定位驱动的跨模态行 人检索方法, 其特 征在于, 包括以下步骤:
步骤1: 获取训练集、 候选文本和候选图像、 输入文本和待检索图像, 提取所述候选文本
和输入文本的短语;
步骤2: 使用训练集训练跨模态预训练模型得到训练完成的跨模态预训练模型, 使用训
练完成的跨模态预训练模型提取 所述候选文本的短语的特 征和候选图像的特 征;
步骤3: 将所述候选文本的短语的特征和候选 图像的特征输入跨模态交互模块计算候
选图像对于每个候选文本的短语的热点图, 使用热点图训练跨模态交互模块得到训练完成
的跨模态交 互模块;
步骤4: 使用训练完成的跨模态预训练模型提取输入文本的特征、 输入文本的短语的特
征和待检索图像的特征, 将所述输入文本的特征、 输入文本的短语的特征和待检索图像的
特征输入训练完成的跨模态交互模块计算所述待检索图像与候选图像的相似度, 选择相似
度最大的候选图像作为检索结果。
2.根据权利要求1所述的视觉定位驱动的跨模态行人检索方法, 其特征在于: 所述跨模
态预训练模型为ALBEF模型。
3.根据权利要求2所述的视觉定位驱动的跨模态行人检索方法, 其特征在于: 训练所述
ALBEF模型时, 建立对比学习的损失函数
的过程为:
获取ALBEF模型提取的文本Texti的短语的特征tt∈RL×d和图像Imagei的特征vi∈Rp×d,
其中L表示文本的长度, p表示提取图像特征时划分的特征图中的特征总数, d表示特征维
度, R表示欧几里 得空间;
计算损失函数
为:
其中,
表示ALBEF模型获取的图像vi的全局特征,
其中
表示取vi
的第一维;
表示ALBEF模型获取的文本ti的全局特征,
其中
表示取ti的
第一维;
表示数据域, 是输入的批数据中
和
的集合;
表示期望计算,
表示数据域中的数据个数,
H (·,·) 表示交叉熵计算 ,
表示所述
与ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似
度,
表示所述
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相
似度;
表示vi和Tm中所有文本特征是否匹配, 如果匹配则
如果不匹配则
表示ti和Vm中所有图像特征是否 匹配, 如果匹配则
如果不匹配则
权 利 要 求 书 1/4 页
2
CN 115292533 A
24.根据权利要求3所述的视觉定位驱动的跨模态行人检索方法, 其特征在于: 所述
与
ALBEF模型中的文本特征库Tm中的所有特征进行匹配得到的相似度
中的第j个相
似度
为:
其中, τ是可学习参数, s()是计算余弦相似度的函数, |Tm|表示Tm的队列长度,
表示
队列Tm的第j个特 征, exp()表示自然指数函数;
所述
与ALBEF模型中的图像特征库Vm中的所有特征进行匹配得到的相 似度
中的第j个相似度
为:
其中, |Vm|表示Vm的队列长度,
表示队列Vm的第j个特 征。
5.根据权利要求3或4所述的视觉定位驱动的跨模态行人检索方法, 其特征在于: 训练
所述ALBEF模型时, 建立文本和图像精细匹配的损失函数
的过程为:
获取ALBEF模型提取的文本的短语的特 征tj和图像的特 征vi,
计算损失函数
为:
其中,
norm
(·)表示归一化操作;
表示文本和图像对的语义相同或不同的概率; 数据域
其 中 b 表 示 数 据 批 的 大 小 ,
s.t.id(i)≠id(j), 其中cos( ·,·)表示余弦相似度
计算, id(·)表示特征vi和ti所属行人的编号, argmax( ·)表示最大值所对应的特征, s.t.
表示需要满足的条件;
s.t.id(i)≠id(j); yi,j表示
vi,tj是否属于同一个行 人, 若属于则为1, 反 之则为0;
的计算方法为:
所述ALBEF模型将tj和vi输入ALBEF模型中的跨模态编码器, 得到的跨模态编码的全局权 利 要 求 书 2/4 页
3
CN 115292533 A
3
专利 视觉定位驱动的跨模态行人检索方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:49上传分享