(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210878732.5
(22)申请日 2022.07.25
(71)申请人 西南科技大 学
地址 621010 四川省绵阳市涪城区青龙 大
道中段59号
(72)发明人 彭波 付宝印 路锦正 李强
贾盼蓉 刘起源
(74)专利代理 机构 成都正德明志知识产权代理
有限公司 513 60
专利代理师 雷正
(51)Int.Cl.
G06V 40/10(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/774(2022.01)G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于注意力机制的无锚框行人搜索方
法
(57)摘要
本发明公开了一种基于注意力机制的无锚
框行人搜索方法, 包括以下步骤: S1、 选择PRW数
据集作为训练样本; S2、 构建一个基于注意力机
制的无锚框的行人搜索网络; S3、 将训练样本传
输至基于注 意力机制的无锚框的行人搜索网络,
将损失反向传播, 重复本步骤直至训练结束; S4、
对训练后的基于注意力机制的无锚框的行人搜
索网络进行验证, 若行人搜索准确率低于设定准
确率, 则返回步骤S3; 否则进入步骤S5; S5、 采用
训练后的基于注意力机制的无锚框的行人搜索
网络进行无锚框行人搜索。 与现有技术相比, 本
发明的网络结构设计简洁, 推理速度快, 提高了
行人搜索的精度, 使用了随机擦除的数据增强策
略, 能更好的应对 遮挡的情况。
权利要求书3页 说明书8页 附图6页
CN 115359510 A
2022.11.18
CN 115359510 A
1.一种基于注意力机制的无锚框行 人搜索方法, 其特 征在于, 包括以下步骤:
S1、 选择PRW数据集作为训练样本;
S2、 使用改进的resnet50网络作为主干网络, 构建一个基于注意力机制的无锚框的行
人搜索网络;
S3、 将训练样本传输至无基于注意力机制的锚框的行人搜索网络, 根据标签值和损失
函数计算损失, 将损失反向传播, 重复本步骤直至训练结束;
S4、 对训练后的基于注意力机制的无锚框的行人搜索网络进行验证, 若行人搜索准确
率低于设定准确率, 则返回步骤S3; 否则进入步骤S5;
S5、 采用训练后的基于注意力机制无锚框的行 人搜索网络进行 行人搜索。
2.根据权利要求1所述的一种基于注意力 机制的无锚框行人搜索方法, 其特征在于, 所
述基于注意力机制的无锚框的行人搜索网络包括基于注意力机制的主干网络、 改进后的特
征融合颈部、 目标检测头部和重识别头部; 基于注意力机制的主干网络的输出端和改进后
的特征融合颈部的输入端相连接; 改进后的特征融合颈部的输出端分别和目标检测头部、
重识别头 部的输入端相连接;
基于注意力机制的主干网络的构建方法为: 在resnet50网络的基础上, 将第二个阶段
的卷积层更换为可变形卷积, 在第二个阶段后的三个阶段的每一个瓶颈结构的第三个卷积
层后添加注意力机制;
改进后的特征融合颈部的构建方法为: 将特征融合颈部中的横向卷积层和特征聚合卷
积层都替换为可变形 卷积, 对自上而下融合时的各层级的特 征进行通道拼接积;
目标检测头 部, 用于进一 步提取改进后的特 征融合颈 部的特征, 输出类别和预测框;
重识别头 部, 将改进后的特 征融合颈 部输出特征归一化, 输出重识别特 征。
3.根据权利要求2所述的一种基于注意力 机制的无锚框行人搜索方法, 其特征在于, 目
标检测头 部包含两个子模块:
分类子模块, 用于对改进后的特征融合颈部的每一层输出依次做4次3*3卷积和一次1*
1卷积, 得到1通道的分类结果, 即得到训练样本是人的概率; 其中最后一次3*3卷积使用可
变形卷积;
回归子模块, 用于对改进后的特征融合颈部的每一层输出做4次3*3卷积, 得到4通道的
回归结果, 分别对应4个边框与锚点的距离; 其中最后一次卷积使用可变形 卷积;
分类子模块的输入端、 回归子模块的输出端和重识别头 部的输入端相连接;
基于注意力机制的无锚框行人搜索网络最终输出261维度的特征向量; 其中, 1维是行
人检测分类得分, 4 维表示行人的预测框, 剩下256维是该行人的重识别特征; 目标检测头部
的输出端和重识别头 部的输入端相连接 。
4.根据权利要求3所述的一种基于注意力 机制的无锚框行人搜索方法, 其特征在于, 步
骤S3的具体实现方法如下:
S3‑1、 对训练样本进行 预处理, 利用均值方差使训练样本的图像数据归一 化;
S3‑2、 将归一化以后的图像随机缩放到指定的某一个尺寸, 以0.5的概率随机翻转图像
和对图像进行随机擦除, 得到处 理后的图像;
S3‑3、 将处理后的图像送入基于注意力机制的主干网络, 得到基于注意力机制的主干
网络的后四个阶段输出的特征图C2、 特征图C3、 特征图C4和特征图C5, 并将特征图C3、 特征权 利 要 求 书 1/3 页
2
CN 115359510 A
2图C4和特征图C5送至改进后的特征融合颈部中, 得到输出P3、 输出P4和输出P5, 将 输出P5下
采样卷积得到 输出P6, 将输出P6下采样卷积得到 输出P7;
S3‑4、 将输出P3、 输出P4、 输出P5、 输出P6和输出P7送入目标检测头部的两个子模块和
重识别头部中, 得到与输出P 3所对应的对象属于行人的概率、 预测框和重识别特征; 得到与
输出P4所对应的对象属于行人的概率、 预测框和 重识别特征; 得到与输出P5所对应的对象
属于行人的概率、 预测框和重识别特征; 得到与输出P 6所对应的对象属于行人的概率、 预测
框和重识别特 征; 得到与输出P7 所对应的对象属于行 人的概率、 预测框和重识别特 征;
S3‑5、 将标签和输出格式统一, 将标签格式转换为和输出格 式一致的锚点图的形式; 根
据特征图大小和原图大小, 建立锚点 位置和实际位置的关系;
读取真值标签, 制作类别锚点图、 包围框锚点图和身份锚点图;
S3‑6、 根据公式:
得到某点相对包围框的中心度Centerness, 制作中心度锚点图; 其中, l、 r、 t和b分别 表
示该锚点与左右上 下边框的距离, mi n(·)表示取最小值, max( ·)表示取最大值;
S3‑7、 区分正负样本, 将类别 锚点图中非背景的锚点的集合记为正样本, 并对锚点进行
中心点采样, 只 将离预测框最中心锚点 1.5个锚点距离以下的锚点作为正样本, 在预测框中
心的锚点有D个, D≤9; 只对正样本计算 位置回归损失和重识别损失以及中心度损失;
S3‑8、 根据公式:
L(pt)=‑(1‑pt)γlog(pt)
得到分类损失L, 其中, pt表示预测的正样本概率, 即对象属于行人的概率, lo g表示以e
为底的对数;
S3‑9、 根据中心度Centernes s和交叉熵损失函数Cros sEntropyLoss计算中心度损失;
S3‑10、 根据公式:
得到回归损失GIOU, 使用中心度损失对回归损失GIOU加权得到加权后的回归损失; 其
中, A为预测 框的真值标签, B为预测 框的预测值, C为真值标签A和预测值B的并集最小矩形
包围框, IOU为A和B的交并比;
S3‑11、 判断当前是否为初次迭代, 若是则构建并初始化列表LTU和列表V, 其 中列表LTU
初始值为0, 用于存储有标签的人的锚点的特征, 列 表V用于存储无标签的人的锚点的特征;
否则将某个人物的锚点特 征随机排序;
根据公式:
得到第k个锚点属于某人的概率pk, 将最大的pk对应的人物身份标签作为基于注意力机
制的无锚框的行人搜索网络的输出; 并通过概率pk和真实标签使用focal loss损失函数计权 利 要 求 书 2/3 页
3
CN 115359510 A
3
专利 一种基于注意力机制的无锚框行人搜索方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:52上传分享