说明:收录25万 73个行业的国家标准 支持批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210585936.X (22)申请日 2022.05.27 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市钱塘新区白杨 街道2号大街1 158号 (72)发明人 冯亚沛 刘鹏辉 陆哲明  (51)Int.Cl. G06V 40/20(2022.01) G06V 10/25(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于两级池化S2E模块的姿态 识别方法 (57)摘要 本发明涉及姿态识别技术领域, 提供了一种 基于两级池化S2E模块的姿态识别模型的方法基 于渐进两级池化的S2E模块的姿态识别模型, 该 技术方案是基于ResNet ‑101网络结构的主干网 络, 提出了一个新的具有特征压缩和激励功能的 S2E模块, 形成新的模型。 S2E模块通过建立更好 的通道注 意力机制来加速模型收敛, 能够帮助网 络更快速地从大量的通道图中提取特征, 并过滤 出更关键的特征信息, 从而使网络模 型能够更准 确地识别数据。 实验结果证明新的模 型能够平衡 预测精度、 计算资源消耗及运行速度的问题。 同 时, 在姿态识别的定性比较实验中, 我们的模型 能够专注于更多的细节区域, 并避免由于姿态交 叉和遮挡等原因造成的错 误识别。 权利要求书2页 说明书8页 附图2页 CN 114913604 A 2022.08.16 CN 114913604 A 1.一种基于 两级池化S2E模块的姿态 识别方法, 其特 征在于: 包括以下步骤: 步骤1: 对输入的图像进行人体边界框的检测, 选用YOLOv3 ‑spp进行目标检测, 结合FPN 的金字塔结构两步框架的模型实现检测出多种尺度的人体框姿态; 步骤2: 对人体姿态的边界框进行冗余的判断计算, 并删除或者融合多余的检测框, 步骤3: 将一系列的人体检测框boxes缩放为320x256的尺寸, 空白的部分均以0填充, 将 处理过后的人体检测框依次送入结合S2E ‑ResNet‑101模块的sppe(single ‑person pose  estimator)模型中, 独立地对每个人体框进 行姿态估计的检测; 然后使用DUC将骨干网络输 出的10x8分辨率的特征图上采样恢复至8 0x64; 步骤4: 生 成姿态预测的关键点热图, 使用一 个替代全连接层的输出通道为17的卷积, 得到关键点热图, 然后检测热图中的最大值点直 接生成人体的关键点预测, 并将值 直接作为置信度进行 下一步的处理; 步骤5: 通过pose ‑nms评估其 中可能重复的姿势, pose ‑nms每一次将置信度最高的估计 姿态作为标准, 评估剩下的姿势和原姿势的相似度; 评估相似度时, 包括了两个姿势同一部 位关键点的相似程度, 还包括了不同部位但是空间近似的关键点的相似程度, 最终的相似 分数由这两者乘以各自的权重相加而得来, 如果评估值高于设定的阈值则将它们放入一个 集合, 之后对将这些放在一个集合中的重复的姿势基于每个点的置信度分配权重并进 行融 合并输出, 重复这个过程 直至所有的姿势都被输出或者融合; 步骤6: 姿态识别可视化输出, 对预测的每一组关键点分别进行连接生成人体的姿势, 在这个过程当中置信度低的关键点会被抛弃掉, 生成后的人体姿势被添加到原图当中, 最 后进行可视化的输出。 2.根据权利要求1所述的基于两级池化S2E模块的姿态识别方法, 其特征在于, 所述步 骤3的具体过程 为: 两层压缩加一个激励模块的S2E(Tw o‑step Squeeze and Excitati on)注意力机制; S2E的第一层压缩操作是局部平均池化操作, 对特征图的局部信息进行提取, 对分散的 特征信息进行有效且公平的提取, 第二层压缩操作是一层全局 最大池化, 提取出之前局部 平均池化中最 为突出的特 征, 以下是S2E模块所使用的压缩过程的公式: Ic=max(pc)   (2); 其中, uc表示输出通道U中的第c个特征图, Ic描述通道长度为c张量信息, s表示特征图 的索引, a,b分别表示S2E 两层压缩层 在相关性矩阵中的位置, l表示网络层数, 压缩模块 能够将整个图的信 息通过全局 平均池化压缩到了一个单元中, 进而将整个通 道特征图压缩成了c ×1的用来描述通道的张量I, 其中c是通道的长度, 激励模块就用来捕 获通道特 征图之间的关系了, SE模块的作者选用了 两层全连接来实现上述的功能; A=σ(W2*ReLu(W1*I) )   (3); 其中W1是第一层c ×c/r的全连接层, W2是第二层c ×c/r的全连接层, r(reduction   ratio)是一个降维因子, σ 表示激活函数sigmoid, 为了能够让最后学习到的注 意力不互斥, 选择sigmoid函数实现激活, 最后将整个算子生 成的注意力A的权值与最初的整个通道进 行 逐特征层的乘算。权 利 要 求 书 1/2 页 2 CN 114913604 A 23.根据权利要求2所述的基于两级池化S2E模块的姿态识别方法, 其特征在于, 所述步 骤3的使用的S2 E‑ResNet‑101模块中, 其中4层layer对应的残差 结构的堆叠数为3、 4、 2 3、 3, 在4层layer之后, 输入的图像已经被放缩至输入图像的三十二分一, 之后对分辨率小的特 征图进行简单的3层上采样, 将预测的特征图放大至8倍, 最后压缩至17个通道并进行特征 的输出; 注意力机制嵌入在S2E ‑ResNet‑101模块中layer层的第一个用于调整通道的残差结构 的尾部, 嵌入在点态卷积的输出之后, 并且将最终得到的注意力权值与之前点态卷积的输 出对相应的通道进行乘算, 以对注意力的机制进行实现; 后两层上采样使用的是DUC(Dense  Upsampling  Convolution)结构, 首先是一个3x3的 步长为1的卷积, 将输入的通道扩大为原 来的两倍, 经过正则化处理以及激活函数进 行激活 之后, 在经过scale为2的pixel shuffle进行上采样, pixelshuffle的方法是将相邻scale平 方个通道基于相同位置的像素进行融合。 4.根据权利要求3所述的基于两级池化S2E模块的姿态识别方法, 其特征在于, 为了实 现轻量级的网络的资源耗费, 利用h ‑sigmoid函数来替换激励操作中两层全连接层的结尾 的sigmoid函数。 5.根据权利 要求4所述的基于两级池化S2E模块的姿态识别方法, 其特征在于, S2E模型 和ResNet ‑101模型中, 在ResNet ‑101中的第2、 3、 4的特征提取层的bottleneck后嵌入S2E模 块、 同时, 压缩操作第一步的平均池化的尺寸设置为宽度的一半、 步长 设置为尺寸的一半能 够达到最好的效果。 6.根据权利要求5所述的基于两级池化S2E模块的姿态识别方法, 其特征在于, 损失函 数计算使用MSEl oss, 选用rm sprop优化器对训练的参数进行优化。 7.根据权利要求6所述的基于两级池化S2E模块的姿态识别方法, 其特征在于, 在验证 的程序中, 模型同时预测了原始图像的热图, 以及翻转图像的热图, 之后在这两个热图上取 平均作为验证的预测数据输入。权 利 要 求 书 2/2 页 3 CN 114913604 A 3

PDF文档 专利 一种基于两级池化S2E模块的姿态识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于两级池化S2E模块的姿态识别方法 第 1 页 专利 一种基于两级池化S2E模块的姿态识别方法 第 2 页 专利 一种基于两级池化S2E模块的姿态识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-18 22:29:02上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。