专利 一种基于注意力机制的无锚框行人搜索方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210878732.5 (22)申请日 2022.07.25 (71)申请人西南科技大学地址 621010 四川省绵阳市涪城区青龙大道中段59号 (72)发明人彭波　付宝印　路锦正　李强　贾盼蓉　刘起源　 (74)专利代理机构成都正德明志知识产权代理有限公司 513 60 专利代理师雷正 (51)Int.Cl. G06V 40/10(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01)G06V 10/764(2022.01) G06V 10/74(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于注意力机制的无锚框行人搜索方法 (57)摘要本发明公开了一种基于注意力机制的无锚框行人搜索方法，包括以下步骤： S1、选择PRW数据集作为训练样本； S2、构建一个基于注意力机制的无锚框的行人搜索网络； S3、将训练样本传输至基于注意力机制的无锚框的行人搜索网络，将损失反向传播，重复本步骤直至训练结束； S4、对训练后的基于注意力机制的无锚框的行人搜索网络进行验证，若行人搜索准确率低于设定准确率，则返回步骤S3；否则进入步骤S5； S5、采用训练后的基于注意力机制的无锚框的行人搜索网络进行无锚框行人搜索。与现有技术相比，本发明的网络结构设计简洁，推理速度快，提高了行人搜索的精度，使用了随机擦除的数据增强策略，能更好的应对遮挡的情况。权利要求书3页说明书8页附图6页 CN 115359510 A 2022.11.18 CN 115359510 A 1.一种基于注意力机制的无锚框行人搜索方法，其特征在于，包括以下步骤： S1、选择PRW数据集作为训练样本； S2、使用改进的resnet50网络作为主干网络，构建一个基于注意力机制的无锚框的行人搜索网络； S3、将训练样本传输至无基于注意力机制的锚框的行人搜索网络，根据标签值和损失函数计算损失，将损失反向传播，重复本步骤直至训练结束； S4、对训练后的基于注意力机制的无锚框的行人搜索网络进行验证，若行人搜索准确率低于设定准确率，则返回步骤S3；否则进入步骤S5； S5、采用训练后的基于注意力机制无锚框的行人搜索网络进行行人搜索。 2.根据权利要求1所述的一种基于注意力机制的无锚框行人搜索方法，其特征在于，所述基于注意力机制的无锚框的行人搜索网络包括基于注意力机制的主干网络、改进后的特征融合颈部、目标检测头部和重识别头部；基于注意力机制的主干网络的输出端和改进后的特征融合颈部的输入端相连接；改进后的特征融合颈部的输出端分别和目标检测头部、重识别头部的输入端相连接；基于注意力机制的主干网络的构建方法为：在resnet50网络的基础上，将第二个阶段的卷积层更换为可变形卷积，在第二个阶段后的三个阶段的每一个瓶颈结构的第三个卷积层后添加注意力机制；改进后的特征融合颈部的构建方法为：将特征融合颈部中的横向卷积层和特征聚合卷积层都替换为可变形卷积，对自上而下融合时的各层级的特征进行通道拼接积；目标检测头部，用于进一步提取改进后的特征融合颈部的特征，输出类别和预测框；重识别头部，将改进后的特征融合颈部输出特征归一化，输出重识别特征。 3.根据权利要求2所述的一种基于注意力机制的无锚框行人搜索方法，其特征在于，目标检测头部包含两个子模块：分类子模块，用于对改进后的特征融合颈部的每一层输出依次做4次3*3卷积和一次1* 1卷积，得到1通道的分类结果，即得到训练样本是人的概率；其中最后一次3*3卷积使用可变形卷积；回归子模块，用于对改进后的特征融合颈部的每一层输出做4次3*3卷积，得到4通道的回归结果，分别对应4个边框与锚点的距离；其中最后一次卷积使用可变形卷积；分类子模块的输入端、回归子模块的输出端和重识别头部的输入端相连接；基于注意力机制的无锚框行人搜索网络最终输出261维度的特征向量；其中， 1维是行人检测分类得分， 4 维表示行人的预测框，剩下256维是该行人的重识别特征；目标检测头部的输出端和重识别头部的输入端相连接。 4.根据权利要求3所述的一种基于注意力机制的无锚框行人搜索方法，其特征在于，步骤S3的具体实现方法如下： S3‑1、对训练样本进行预处理，利用均值方差使训练样本的图像数据归一化； S3‑2、将归一化以后的图像随机缩放到指定的某一个尺寸，以0.5的概率随机翻转图像和对图像进行随机擦除，得到处理后的图像； S3‑3、将处理后的图像送入基于注意力机制的主干网络，得到基于注意力机制的主干网络的后四个阶段输出的特征图C2、特征图C3、特征图C4和特征图C5，并将特征图C3、特征权　利　要　求　书 1/3 页 2 CN 115359510 A 2图C4和特征图C5送至改进后的特征融合颈部中，得到输出P3、输出P4和输出P5，将输出P5下采样卷积得到输出P6，将输出P6下采样卷积得到输出P7； S3‑4、将输出P3、输出P4、输出P5、输出P6和输出P7送入目标检测头部的两个子模块和重识别头部中，得到与输出P 3所对应的对象属于行人的概率、预测框和重识别特征；得到与输出P4所对应的对象属于行人的概率、预测框和重识别特征；得到与输出P5所对应的对象属于行人的概率、预测框和重识别特征；得到与输出P 6所对应的对象属于行人的概率、预测框和重识别特征；得到与输出P7 所对应的对象属于行人的概率、预测框和重识别特征； S3‑5、将标签和输出格式统一，将标签格式转换为和输出格式一致的锚点图的形式；根据特征图大小和原图大小，建立锚点位置和实际位置的关系；读取真值标签，制作类别锚点图、包围框锚点图和身份锚点图； S3‑6、根据公式：得到某点相对包围框的中心度Centerness，制作中心度锚点图；其中， l、 r、 t和b分别表示该锚点与左右上下边框的距离， mi n(·)表示取最小值， max( ·)表示取最大值； S3‑7、区分正负样本，将类别锚点图中非背景的锚点的集合记为正样本，并对锚点进行中心点采样，只将离预测框最中心锚点 1.5个锚点距离以下的锚点作为正样本，在预测框中心的锚点有D个， D≤9；只对正样本计算位置回归损失和重识别损失以及中心度损失； S3‑8、根据公式： L(pt)＝‑(1‑pt)γlog(pt) 得到分类损失L，其中， pt表示预测的正样本概率，即对象属于行人的概率， lo g表示以e 为底的对数； S3‑9、根据中心度Centernes s和交叉熵损失函数Cros sEntropyLoss计算中心度损失； S3‑10、根据公式：得到回归损失GIOU，使用中心度损失对回归损失GIOU加权得到加权后的回归损失；其中， A为预测框的真值标签， B为预测框的预测值， C为真值标签A和预测值B的并集最小矩形包围框， IOU为A和B的交并比； S3‑11、判断当前是否为初次迭代，若是则构建并初始化列表LTU和列表V，其中列表LTU 初始值为0，用于存储有标签的人的锚点的特征，列表V用于存储无标签的人的锚点的特征；否则将某个人物的锚点特征随机排序；根据公式：得到第k个锚点属于某人的概率pk，将最大的pk对应的人物身份标签作为基于注意力机制的无锚框的行人搜索网络的输出；并通过概率pk和真实标签使用focal loss损失函数计权　利　要　求　书 2/3 页 3 CN 115359510 A 3

专利 一种基于注意力机制的无锚框行人搜索方法

专利一种基于注意力机制的无锚框行人搜索方法