说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211339440.0 (22)申请日 2022.10.29 (71)申请人 西安电子科技大 学 地址 710071 陕西省西安市太白南路2号 (72)发明人 韩冰 陈玮铭 高新波 杨铮  黄晓悦  (74)专利代理 机构 陕西电子 工业专利中心 61205 专利代理师 王品华 (51)Int.Cl. G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于联合递归特征金字塔的多尺度目标检 测方法 (57)摘要 本发明公开了一种基于联合递归特征金字 塔的多尺度目标检测方法。 主要解决现有技术在 复杂场景下多尺度目标检测精度低的问题。 其实 现方案是: 1)读取目标检测数据库数据, 并对图 像数据进行预处理; 2)使用ResNet卷积神经网络 作为主干网络提取图像的特征; 3)根据所提取的 图像特征构建特征金字塔; 4)构建由通道注意力 模块和空间注意力模块串联组成的联合反馈处 理器; 5)利用联合反馈处理器对各层金字塔特征 进行处理, 完成特征融合; 6)重复步骤3)至步骤 5)两次, 得到多尺度特征; 7)将多尺度特征输入 到现有的检测头, 完成多尺度检测。 本发明显著 提高了复杂场景下多尺度目标检测的精度, 可用 于智慧交通、 智慧安防和遥感影 像处理。 权利要求书3页 说明书9页 附图2页 CN 115527095 A 2022.12.27 CN 115527095 A 1.一种基于联合 递归特征金字塔的多尺度目标检测方法, 其特证在于, 包括如下步骤: (1)读取目标检测数据库数据, 对训练数据的图像依次进行调整、 翻转和归一化, 对测 试数据的图像依次进 行调整和归一化, 并设置RGB三个通道的归一化均值和标准差, 最 终得 到图像对应的张量数据; (2)使用包括有5个串联卷积块的ResNet卷积神经网络作为主干网络, 将经过(1)预处 理后的图像张量数据输入到该卷积神经网络, 得到通过5个卷积块分别提取的图像特征, 分 别记为C1, C2, C 3, C4和C5; (3)根据ResNet卷积神经网络所提取的图像特 征, 构建特 征金字塔: 3a)将ResNet卷积神经网络提取出来的图像特征C2, C3, C4和C5分别经过4个核大小为1 ×1, 步长为1的卷积层, 使 得C2特征的通道数依然保持为256, C3特征的通道数由512下降至 256, C4特征的通道数由1024下降至256, C5特征的通道数由2048下降至256, 最终得到4层主 干降维特 征C2′, C3′, C4′和C5′; 3b)将3a)所得的各层主干降维特征执行自顶向下的特征融合操作, 形成由P2、 P3、 P4和 P5金字塔特 征组成的特 征金字塔结构; (4)构建由通道 注意力模块和空间注意力模块串联组成的联合反馈处 理器; (5)利用联合反馈处 理器对步骤(3)所 得各层金字塔特 征进行处 理, 完成特 征融合: 5a)将P2, P3, P4和P5这 4层金字塔特 征输入到通道 注意力模块, 得到通道 注意力特 征MC; 5b)将5a)得到的通道 注意力特 征MC输入空间注意力模块, 得到空间注意力特 征MS; 5c)将空间注意力特征MS拆分为4个特征图, 并将这4个特征图分别下采样至与主干网络 各卷积块输出 特征Ci尺寸相同; 5d)将上采样后的特征图分别输入到4个核大小为1 ×1, 步长为1的卷积层, 将通道数分 别提升至256, 512, 1024和2048, 得到与主干网络待融合的特征图Mi, 再将各特征图Mi与主干 网络各卷积块输出 特征Ci对应相加完成特 征融合; (6)重复步骤(3)至步骤(5)两次, 得到最终的多尺度特征P2 ′, P3′, P4′和P5′, 将其输入 到现有的检测头网络, 输出预测的目标位置参数(x,y,w,h)以及目标相应类别的置信度c, 其中, (x,y)为目标边界框左上角在图像中的坐标, w为目标边界框的宽度, h为目标边界框 的高度, 完成对多尺度目标的检测。 2.根据权利要求1所述的方法, 其特征在于, 步骤(1)中对训练阶段和测试阶段的图像 依次进行调整、 翻转、 归一 化, 并设置RGB三个通道的均值和标准差, 实现如下: 1a)训练阶段的数据预处 理: 将输入图像的尺寸缩放至800 ×800, 并以0.5的概率随机调整图像的亮度、 对比度、 饱 和度和色调; 再以0.5的概 率随机翻转, 并采用均值标准差归一的方法归一 化图像; 设置RGB三个通道的归一化均值分别为[123.675,116.28,103.53], 设置三个通道的标 准差分别为[58.395,57.12,57.375], 最终得到该阶段图像对应的张量数据; 1b)测试阶段的数据预处 理: 将输入图像的尺寸缩放至80 0×800, 再采用均值标准差归一的方法归一 化图像; 设置RGB三个通道的归一化均值分别为[123.675,116.28,103.53], 设置三个通道的标 准差分别为[58.395,57.12,57.375], 最终得到该阶段的图像对应张量数据。权 利 要 求 书 1/3 页 2 CN 115527095 A 23.根据权利要求1所述的方法, 其特征在于, 步骤(2)中的ResNet卷积神经网络的5个串 联的卷积块, 结构相同, 每一个卷积块包含若干组卷积组, 每一组卷积组包含一个卷积层、 一个批归一 化层和一个ReLu激活函数。 4.根据权利要求1所述的方法, 其特征在于, 步骤(3b)中将3a)所得的各层特征执行自 顶向下的特 征融合操作, 实现如下: 3b1)将最 高层主干降维特征C5 ′记为最高层金字塔特征P5, 将P5做2倍上采样操作后与 次高层主干降维特 征C4′直接相加, 得到次高层金字塔特 征P4; 3b2)将次高层金字塔特征P4做2倍上采样操作后与次底层主干降维特征C3 ′直接相加, 得到次底层金字塔特 征P3; 3b3)将次底层金字塔特征P3做2倍上采样操作后与底层主干降维特征C2 ′直接相加, 得 到底层金字塔特 征P2; 3b4)将上述P2、 P3、 P4和P5这些 金字塔特 征自下而上排列, 组成特 征金字塔结构。 5.根据权利要求1所述的方法, 其特征在于, 步骤(4)中的通道注意力模块和空间注意 模块结构如下: 所述通道注意力模块, 依次包含上采样、 特征拼接、 全局平均池化层、 全连接层和 Sigmoid函数的操作, 该模块用于提取通道 注意力特 征; 所述空间注意力 模块, 依次包含平均池化层、 最大池化层、 卷积层和 Sigmoid函数, 该模 块用于提取空间注意力特 征。 6.根据权利要求1所述的方法, 其特征在于, 步骤5a)中将P2, P3, P4和 P5这4层金字塔特 征输入到通道 注意力模块, 得到通道 注意力特 征MC, 实现如下: 5a1)分别对金字塔特征P2、 P3、 P4和P5进行上采样, 得到其上采样后的对应特征X2、 X3、 X4、 X5, 这些对应特 征的尺寸均为20 0×200, 通道数均为25 6; 5a2)将上采样后的金字塔对应 特征X2、 X3、 X4、 X5拼接为一个通道总特征Mcat1, 其尺寸为 200×200, 通道数为1024; 5a3)将通道总特征Mcat1经过一个全局平均池 化层压缩 为一个长度为1024的平均池 化压 缩向量Vgap; 5a4)将平均池化压缩向量Vgap经过一组全连接层、 批标准化层和一个ReLu激活函数, 再 次进行压缩得到一个长度为25 6的通道再压缩向量Vfc1; 5a5)将通道再压缩向量Vfc1经过另一个全连接层对通道数进行释放, 得到一个长度为 1024的通道释放向量 5a6)使用Sigmoid函数对通道释放向量Vfc2进行归一化, 得到长度为1024的归一化向量 Vnorm; 5a7)将通道总特 征Mcat1与归一化向量Vnorm做点积, 得到通道 注意力特 征MC: MC=Mcat1·Vnorm 其中, 通道 注意力特 征MC的尺寸为200×200, 通道数为1024。 7.根据权利要 求1所述的方法, 其特征在于, 步骤5b)中将通道注意力特征MC输入空间注 意力模块, 得到空间注意力特 征MS, 实现如下: 5b1)将通道注意力特征MC分别经过一个最大池化层和一个平均池化层, 得到最大池化 特征Mmax和平均池化特征Mavg, 其中, 最大池化特征和平均池化特征的尺 寸均为200 ×200, 通权 利 要 求 书 2/3 页 3 CN 115527095 A 3

PDF文档 专利 基于联合递归特征金字塔的多尺度目标检测方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于联合递归特征金字塔的多尺度目标检测方法 第 1 页 专利 基于联合递归特征金字塔的多尺度目标检测方法 第 2 页 专利 基于联合递归特征金字塔的多尺度目标检测方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:24:06上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。