专利 一种文本描述驱动的行人搜索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211138480.9 (22)申请日 2022.09.19 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人吴贺丰　陈伟峰　陈志广　林倞　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师郑堪泳 (51)Int.Cl. G06F 16/583(2019.01) G06N 3/08(2006.01) G06V 10/42(2022.01) G06V 10/44(2022.01) G06V 10/74(2022.01) (54)发明名称一种文本描述驱动的行人搜索方法 (57)摘要本发明公开了一种文本描述驱动的行人搜索方法，如下：构建基于对称 Transformer的双流模型，所述的双流模型包括一个视觉 Transformer编码器和一个文本Transformer编码器；对于图片，先将图片进行均分切分，将每个图片块进行图像块的线性映射后与位置编码相加作为输入视觉Tran sformer编码器的第一编码向量；对于文本，将每个词语先进行向量化编码，再经过词的线性映射并加上位置编码后作为输入文本Transformer编码器的第二编码向量；将视觉Transformer编码器输出的图像全局特征和文本Transformer编码器输出的文本全局特征逐一进行余弦相似度计算，找到和对应文本余弦相似度最高的图像，即可实现基于文本的行人搜索。权利要求书2页说明书7页附图2页 CN 115455226 A 2022.12.09 CN 115455226 A 1.一种文本描述驱动的行人搜索方法，其特征在于：所述的方法包括步骤如下：构建基于对称Transformer的双流模型，所述的双流模型包括一个视觉Transformer编码器和一个文本Transformer编码器；对于图片，先将图片进行均分切分，将每个图片块进行图像块的线性映射后与位置编码相加作为输入视觉Transformer编码器的第一编码向量；所述的第一编码向量为N1个D维向量；其中， N1表示图像块数量；对于文本，将每个词语先进行向量化编码，再经过词的线性映射并加上位置编码后作为输入文本Tr ansformer编码器的第二编码向量；所述的第二编码向量为N2个D维向量，其中， N2表示单词数量；将视觉Transformer编码器输出的图像全局特征和文本Transformer编码器输出的文本全局特征逐一进行余弦相似度计算，找到和对应文本余弦相似度最高的图像，即可实现基于文本的行人搜索。 2.根据权利要求1所述的文本描述驱动的行人搜索方法，其特征在于：为了提取不同特征的全局特征，在第一编码向量输入视觉Transformer编码器的同时，额外添加一个向量作为一个全局特征输出，用于后续的余弦相似度判断；同理，在第二编码向量输入文本Transformer编码器的同时，也额外添加一个向量作为一个全局特征输出，用于后续的余弦相似度判断。 3.根据权利要求1所述的文本描述驱动的行人搜索方法，其特征在于：所述的余弦相似度的计算公式表达为：其中， fT表示文本全局特征， fI表示图像全局特征， ‖ ‖表示 L2范数。 4.根据权利要求1所述的文本描述驱动的行人搜索方法，其特征在于：在利用双流模型识别之前，采用跨模态对比学习方法对双流模型进行训练。 5.根据权利要求4所述的文本描述驱动的行人搜索方法，其特征在于：所述的跨模态对比学习方法，具体如下：训练双流模型时，在一个批次中，给定N条图像 ‑文本对，每个对的文本全局特征fT作为查询，图像全局特征fI作为关键字，则训练时希望相互匹配的文本全局特征和图像全局特征相似度高，而与fT不相似的图像全局特征作为负样本，由此构建文本搜索图像的第一损失函数；同理，采用图片特征作为查询，文本全局特征作为关键字，用图像去搜文本依次训练双流模型，由此构建图像搜索文本的第二损失函数；将第一损失函数和第二损失函数两者之和构建双流模型的最终损失函数。 6.根据权利要求5所述的文本描述驱动的行人搜索方法，其特征在于：所述的第一损失函数的表达式如下：所述的第二损失函数的表达式如下：权　利　要　求　书 1/2 页 2 CN 115455226 A 2所述的最终损失函数的表达式如下：其中，表示第j个文本全局特征、表示第j个图像全局特征、 τ表示温度系数。 7.根据权利要求5所述的文本描述驱动的行人搜索方法，其特征在于：为了防止双流模型过拟合，采用近似数据生成方法构建用于训练的多模态混合样本；采用包括随机连续多单词删除、随机单词删除、随机同义词替换几种方法中的一种或多种生成近似文本；将生成的近似文本与对应的一张图片输入双流模型进行训练；将两张不同的图片通过插值后得到新的图片，将两个不同的句子通过拼接后得到新的句子，将新的图片和新的句子作为多模态混合样本作为训练样本输入双流模型进行训练。 8.根据权利要求5所述的文本描述驱动的行人搜索方法，其特征在于：使用锐度感知优化器SAM来代替传统的Adam优化器对双流模型训练，所述的锐度感知优化器SAM采用二阶梯度优化方法。 9.根据权利要求8所述的文本描述驱动的行人搜索方法，其特征在于：所述的二阶梯度优化方法，具体如下：基于python和PyTorch深度学习框架，采用锐度感知优化器SAM，初始学习率为0.001，前10个轮次采用慢启动策略，之后每20个轮次学习率衰减为原来的1/10；训练直到双流模型收敛。 10.一种计算机系统，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至9 任一项所述文本描述驱动的行人搜索方法的步骤。权　利　要　求　书 2/2 页 3 CN 115455226 A 3

专利 一种文本描述驱动的行人搜索方法

专利一种文本描述驱动的行人搜索方法