(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211138480.9
(22)申请日 2022.09.19
(71)申请人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 吴贺丰 陈伟峰 陈志广 林倞
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
专利代理师 郑堪泳
(51)Int.Cl.
G06F 16/583(2019.01)
G06N 3/08(2006.01)
G06V 10/42(2022.01)
G06V 10/44(2022.01)
G06V 10/74(2022.01)
(54)发明名称
一种文本描述驱动的行 人搜索方法
(57)摘要
本发明公开了一种文本描述驱动 的行人搜
索方法, 如下: 构建基于对称 Transformer的双流
模 型 ,所 述 的 双 流 模 型 包 括 一 个 视 觉
Transformer编码器和 一个文本Transformer编
码器; 对于图片, 先将图片进行均分切分, 将每个
图片块进行图像块的线性映射后与位置编码相
加作为输入视觉Tran sformer编码器的第一编码
向量; 对于文本, 将每个词语先进行向量化编码,
再经过词的线性映射并加上位置编码后作为输
入文本Transformer编码器的第二编码向量; 将
视觉Transformer编码器输出的 图像全局特征和
文本Transformer编码器输出的文本全局特征逐
一进行余弦相似度计算, 找到和对应文本余弦相
似度最高的图像, 即可实现基于文本的行人搜
索。
权利要求书2页 说明书7页 附图2页
CN 115455226 A
2022.12.09
CN 115455226 A
1.一种文本描述驱动的行 人搜索方法, 其特 征在于: 所述的方法包括 步骤如下:
构建基于对称Transformer的双流模型, 所述的双流模型包括一个视觉Transformer编
码器和一个文本Transformer编码器;
对于图片, 先将图片进行均分切分, 将每个图片块进行图像块的线性映射后与位置编
码相加作为输入视觉Transformer编码器的第一编码向量; 所述的第一编码向量为N1个D维
向量; 其中, N1表示图像块数量;
对于文本, 将每个词语先进行向量化编码, 再经过词的线性映射并加上位置编码后作
为输入文本Tr ansformer编码器的第二编码向量; 所述的第二编码向量为N2个D维向量, 其
中, N2表示单词数量;
将视觉Transformer编码器输出的图像全局 特征和文本Transformer编码器输出的文
本全局特征逐一进行余弦相似度计算, 找到和对应文本余弦相似度最高的图像, 即可实现
基于文本的行 人搜索。
2.根据权利要求1所述的文本描述驱动的行人搜索方法, 其特征在于: 为了提取不同特
征的全局特征, 在第一编码向量输入视觉Transformer编码器的同时, 额外添加一个向量作
为一个全局特 征输出, 用于后续的余弦相似度判断;
同理, 在第二编码向量输入文本Transformer编码器的同时, 也额外添加一个向量作为
一个全局特 征输出, 用于后续的余弦相似度判断。
3.根据权利要求1所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的余弦相似
度的计算公式表达为:
其中, fT表示文本全局特 征, fI表示图像全局特 征, ‖ ‖表示 L2范数。
4.根据权利要求1所述的文本描述驱动的行人搜索方法, 其特征在于: 在利用双流模型
识别之前, 采用跨模态对比学习方法对双流模型进行训练。
5.根据权利要求4所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的跨模态对
比学习方法, 具体如下:
训练双流模型时, 在一个批次中, 给定N条图像 ‑文本对, 每个对的文本全局特征fT作为
查询, 图像全局特征fI作为关键字, 则训练时希望相互匹配的文本全局特征和图像全局特
征相似度高, 而与fT不相似的图像全局特征作为负样本, 由此构建文本搜索图像 的第一损
失函数;
同理, 采用图片特征作为查询, 文本全局特征作为关键字, 用图像去搜文本依次训练双
流模型, 由此构建图像搜索文本的第二损失函数;
将第一损失函数和第二损失函数两者之和构建双流模型的最终损失函数。
6.根据权利要求5所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的第 一损失
函数的表达式如下:
所述的第二损失函数的表达式如下:权 利 要 求 书 1/2 页
2
CN 115455226 A
2所述的最终损失函数的表达式如下:
其中,
表示第j个文本全局特 征、
表示第j个图像全局特 征、 τ表示温度系数。
7.根据权利要求5所述的文本描述驱动的行人搜索方法, 其特征在于: 为了防止双流模
型过拟合, 采用近似数据生成方法构建用于训练的多模态混合样本;
采用包括随机连续多单词删除、 随机单词删除、 随机同义词替换几种方法中的一种或
多种生成近似文本; 将生成的近似文本与对应的一张图片输入双流模型进行训练;
将两张不同的图片通过插值后得到新的图片, 将两个不同的句子通过拼接后得到新的
句子, 将新的图片和新的句子作为多模态混合样本作为训练样本 输入双流模型进行训练。
8.根据权利要求5所述的文本描述驱动的行人搜索方法, 其特征在于: 使用锐度感知优
化器SAM来代 替传统的Adam优化器对双流模 型训练, 所述的锐度感知优化器SAM采用二阶梯
度优化方法。
9.根据权利要求8所述的文本描述驱动的行人搜索方法, 其特征在于: 所述的二阶梯度
优化方法, 具体如下:
基于python和PyTorch深度学习框架, 采用锐度感知优化器SAM, 初始学习率为0.001,
前10个轮次采用慢启动策 略, 之后每20个轮次学习 率衰减为原来的1/10; 训练直到双流模
型收敛。
10.一种计算机系统, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上
运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至9
任一项所述文本描述驱动的行 人搜索方法的步骤。权 利 要 求 书 2/2 页
3
CN 115455226 A
3
专利 一种文本描述驱动的行人搜索方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:51上传分享