(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211339440.0
(22)申请日 2022.10.29
(71)申请人 西安电子科技大 学
地址 710071 陕西省西安市太白南路2号
(72)发明人 韩冰 陈玮铭 高新波 杨铮
黄晓悦
(74)专利代理 机构 陕西电子 工业专利中心
61205
专利代理师 王品华
(51)Int.Cl.
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/20(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于联合递归特征金字塔的多尺度目标检
测方法
(57)摘要
本发明公开了一种基于联合递归特征金字
塔的多尺度目标检测方法。 主要解决现有技术在
复杂场景下多尺度目标检测精度低的问题。 其实
现方案是: 1)读取目标检测数据库数据, 并对图
像数据进行预处理; 2)使用ResNet卷积神经网络
作为主干网络提取图像的特征; 3)根据所提取的
图像特征构建特征金字塔; 4)构建由通道注意力
模块和空间注意力模块串联组成的联合反馈处
理器; 5)利用联合反馈处理器对各层金字塔特征
进行处理, 完成特征融合; 6)重复步骤3)至步骤
5)两次, 得到多尺度特征; 7)将多尺度特征输入
到现有的检测头, 完成多尺度检测。 本发明显著
提高了复杂场景下多尺度目标检测的精度, 可用
于智慧交通、 智慧安防和遥感影 像处理。
权利要求书3页 说明书9页 附图2页
CN 115527095 A
2022.12.27
CN 115527095 A
1.一种基于联合 递归特征金字塔的多尺度目标检测方法, 其特证在于, 包括如下步骤:
(1)读取目标检测数据库数据, 对训练数据的图像依次进行调整、 翻转和归一化, 对测
试数据的图像依次进 行调整和归一化, 并设置RGB三个通道的归一化均值和标准差, 最 终得
到图像对应的张量数据;
(2)使用包括有5个串联卷积块的ResNet卷积神经网络作为主干网络, 将经过(1)预处
理后的图像张量数据输入到该卷积神经网络, 得到通过5个卷积块分别提取的图像特征, 分
别记为C1, C2, C 3, C4和C5;
(3)根据ResNet卷积神经网络所提取的图像特 征, 构建特 征金字塔:
3a)将ResNet卷积神经网络提取出来的图像特征C2, C3, C4和C5分别经过4个核大小为1
×1, 步长为1的卷积层, 使 得C2特征的通道数依然保持为256, C3特征的通道数由512下降至
256, C4特征的通道数由1024下降至256, C5特征的通道数由2048下降至256, 最终得到4层主
干降维特 征C2′, C3′, C4′和C5′;
3b)将3a)所得的各层主干降维特征执行自顶向下的特征融合操作, 形成由P2、 P3、 P4和
P5金字塔特 征组成的特 征金字塔结构;
(4)构建由通道 注意力模块和空间注意力模块串联组成的联合反馈处 理器;
(5)利用联合反馈处 理器对步骤(3)所 得各层金字塔特 征进行处 理, 完成特 征融合:
5a)将P2, P3, P4和P5这 4层金字塔特 征输入到通道 注意力模块, 得到通道 注意力特 征MC;
5b)将5a)得到的通道 注意力特 征MC输入空间注意力模块, 得到空间注意力特 征MS;
5c)将空间注意力特征MS拆分为4个特征图, 并将这4个特征图分别下采样至与主干网络
各卷积块输出 特征Ci尺寸相同;
5d)将上采样后的特征图分别输入到4个核大小为1 ×1, 步长为1的卷积层, 将通道数分
别提升至256, 512, 1024和2048, 得到与主干网络待融合的特征图Mi, 再将各特征图Mi与主干
网络各卷积块输出 特征Ci对应相加完成特 征融合;
(6)重复步骤(3)至步骤(5)两次, 得到最终的多尺度特征P2 ′, P3′, P4′和P5′, 将其输入
到现有的检测头网络, 输出预测的目标位置参数(x,y,w,h)以及目标相应类别的置信度c,
其中, (x,y)为目标边界框左上角在图像中的坐标, w为目标边界框的宽度, h为目标边界框
的高度, 完成对多尺度目标的检测。
2.根据权利要求1所述的方法, 其特征在于, 步骤(1)中对训练阶段和测试阶段的图像
依次进行调整、 翻转、 归一 化, 并设置RGB三个通道的均值和标准差, 实现如下:
1a)训练阶段的数据预处 理:
将输入图像的尺寸缩放至800 ×800, 并以0.5的概率随机调整图像的亮度、 对比度、 饱
和度和色调;
再以0.5的概 率随机翻转, 并采用均值标准差归一的方法归一 化图像;
设置RGB三个通道的归一化均值分别为[123.675,116.28,103.53], 设置三个通道的标
准差分别为[58.395,57.12,57.375], 最终得到该阶段图像对应的张量数据;
1b)测试阶段的数据预处 理:
将输入图像的尺寸缩放至80 0×800, 再采用均值标准差归一的方法归一 化图像;
设置RGB三个通道的归一化均值分别为[123.675,116.28,103.53], 设置三个通道的标
准差分别为[58.395,57.12,57.375], 最终得到该阶段的图像对应张量数据。权 利 要 求 书 1/3 页
2
CN 115527095 A
23.根据权利要求1所述的方法, 其特征在于, 步骤(2)中的ResNet卷积神经网络的5个串
联的卷积块, 结构相同, 每一个卷积块包含若干组卷积组, 每一组卷积组包含一个卷积层、
一个批归一 化层和一个ReLu激活函数。
4.根据权利要求1所述的方法, 其特征在于, 步骤(3b)中将3a)所得的各层特征执行自
顶向下的特 征融合操作, 实现如下:
3b1)将最 高层主干降维特征C5 ′记为最高层金字塔特征P5, 将P5做2倍上采样操作后与
次高层主干降维特 征C4′直接相加, 得到次高层金字塔特 征P4;
3b2)将次高层金字塔特征P4做2倍上采样操作后与次底层主干降维特征C3 ′直接相加,
得到次底层金字塔特 征P3;
3b3)将次底层金字塔特征P3做2倍上采样操作后与底层主干降维特征C2 ′直接相加, 得
到底层金字塔特 征P2;
3b4)将上述P2、 P3、 P4和P5这些 金字塔特 征自下而上排列, 组成特 征金字塔结构。
5.根据权利要求1所述的方法, 其特征在于, 步骤(4)中的通道注意力模块和空间注意
模块结构如下:
所述通道注意力模块, 依次包含上采样、 特征拼接、 全局平均池化层、 全连接层和
Sigmoid函数的操作, 该模块用于提取通道 注意力特 征;
所述空间注意力 模块, 依次包含平均池化层、 最大池化层、 卷积层和 Sigmoid函数, 该模
块用于提取空间注意力特 征。
6.根据权利要求1所述的方法, 其特征在于, 步骤5a)中将P2, P3, P4和 P5这4层金字塔特
征输入到通道 注意力模块, 得到通道 注意力特 征MC, 实现如下:
5a1)分别对金字塔特征P2、 P3、 P4和P5进行上采样, 得到其上采样后的对应特征X2、 X3、
X4、 X5, 这些对应特 征的尺寸均为20 0×200, 通道数均为25 6;
5a2)将上采样后的金字塔对应 特征X2、 X3、 X4、 X5拼接为一个通道总特征Mcat1, 其尺寸为
200×200, 通道数为1024;
5a3)将通道总特征Mcat1经过一个全局平均池 化层压缩 为一个长度为1024的平均池 化压
缩向量Vgap;
5a4)将平均池化压缩向量Vgap经过一组全连接层、 批标准化层和一个ReLu激活函数, 再
次进行压缩得到一个长度为25 6的通道再压缩向量Vfc1;
5a5)将通道再压缩向量Vfc1经过另一个全连接层对通道数进行释放, 得到一个长度为
1024的通道释放向量
5a6)使用Sigmoid函数对通道释放向量Vfc2进行归一化, 得到长度为1024的归一化向量
Vnorm;
5a7)将通道总特 征Mcat1与归一化向量Vnorm做点积, 得到通道 注意力特 征MC:
MC=Mcat1·Vnorm
其中, 通道 注意力特 征MC的尺寸为200×200, 通道数为1024。
7.根据权利要 求1所述的方法, 其特征在于, 步骤5b)中将通道注意力特征MC输入空间注
意力模块, 得到空间注意力特 征MS, 实现如下:
5b1)将通道注意力特征MC分别经过一个最大池化层和一个平均池化层, 得到最大池化
特征Mmax和平均池化特征Mavg, 其中, 最大池化特征和平均池化特征的尺 寸均为200 ×200, 通权 利 要 求 书 2/3 页
3
CN 115527095 A
3
专利 基于联合递归特征金字塔的多尺度目标检测方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:06上传分享