(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210534762.4
(22)申请日 2022.05.17
(71)申请人 湖南大学
地址 410082 湖南省长 沙市岳麓区麓山 南
路2号
(72)发明人 张辉 吴刘宸 钟杭 曹意宏
王耀南 刘理 毛建旭 冯冰玉
(74)专利代理 机构 湖南盈奥知识产权代理事务
所(普通合伙) 43282
专利代理师 龚燕妮
(51)Int.Cl.
G06V 10/10(2022.01)
G06V 10/32(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06V 10/56(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于多模态与对抗学习的多任务目标检测
识别方法及装置
(57)摘要
本发明公开了一种基于多模态多任务对抗
学习的目标检测识别方法及装置, 该方法将整个
模型分成了特征提取阶段、 区域提案阶段和多任
务目标检测阶段三个部分。 在特征提取阶段, 采
用多模态特征融合的方法, 对输入数据的RGB图
像和语义图像进行特征提取, 使模 型对于图像中
目标的位置信息更加敏 感, 同时还增强了目标语
义信息的提取; 区域提案阶段用以生成随机窗口
和提案框作为下阶段的输入; 在 多任务目标检测
阶段中, 采用多任务学习的方法, 通过联合训练
三个辅助任务来提高主任务的检测精度。 对于目
标检测网络, 引入了对抗学习的思想, 加入两个
对抗式生成网络, 用来生成多样式样本, 提高模
型的鲁棒 性。
权利要求书4页 说明书14页 附图4页
CN 114821014 A
2022.07.29
CN 114821014 A
1.一种基于多模态与对抗学习的多任务目标检测识别方法, 其特 征在于, 包括:
步骤1: RGB图像目标 标注与预处 理, 并获取对应的语义图;
步骤2: 构建基于多模态与对抗学习的多任务识别网络模型;
所述基于多模态与对抗学习的多任务识别网络模型包括依次连接的多模态特征融合
网络、 区域 提案网络以及多任务目标检测网络;
步骤3: 设置损失函数, 用于训练基于多模态与对抗学习的多任务识别网络模型;
步骤4: 使用训练好的基于多模态与对抗学习的多任务识别网络模型对待识别图像中
的目标物体进行检测识别;
将RGB图像和对应的语义图输入到训练好的基于多模态与对抗学习的多任务识别网络
模型中, 获得待识别图像中待识别目标和训练样本图像中目标的相似度值, 经softmax分类
之后选其中分数最大的类别作为识别结果。
2.根据权利要求1所述的方法, 其特征在于, 所述多模态特征融合网络是采用两个
Resnet18主干 CNN网络, 再 连接concat融合网络构成;
所述区域 提案网络 输出随机窗口和提案 框;
所述多任务目标检测网络中的多任务包括三个辅助任务与一个主任务, 其中, 主任务
为目标检测器, 所述目标检测器采用Fast R‑CNN模型, 在所述Fast R‑CNN模型的感兴趣池
化层后引入对抗生成网络, 三个辅助任务依 次为颜色标记任务、 多目标标记任务以及前景
标记任务;
其中, 所述随机窗口作为多目标标记任务的输入数据, 所述提案框作为颜色标记任务
和主任务的输入数据, 所述多模态特征融合网络输出的融合特征图作为前景标记任务的输
入数据。
3.根据权利要求2所述的方法, 其特征在于, 所述对抗生成网络包括依次串联的对抗空
间丢弃网络和对抗空间变换网络;
所述对抗空间丢弃网络用于生成对特征图进行遮挡的对抗样本, 所述对抗空间变换网
络用于在目标的卷积特 征空间中, 对目标 特征产生形变。
4.根据权利要求3所述的方法, 其特征在于, 所述对抗空间丢弃网络通过掩码分支对提
案特征图进行掩码 操作, 生成对抗样本;
其中, 掩码分支由两个全连接层和一个掩码子网络组成, 掩码子网络包括5个串联的
conv_mask卷积层, 用来生 成mask值, 然后与输入的提案特征图结合, 通过Dropout删除激活
生成掩码 样本;
抗空间丢弃网络的损失函数采用二进制交叉熵损失, 具体如下:
其中,
表示第p个提案特征图在给定输入尺寸大小为d ×d的特征映射
在位
置(i, j)处对抗空间丢弃网络的输出 结果;
表示第p个提案特征图的掩码矩阵M的增广矩
阵的第i行第j列所在的掩码值, n表示 提案特征图数量;
所述对抗空间变换网络由本地网络、 网格生成器、 采样器三个部分组成;权 利 要 求 书 1/4 页
2
CN 114821014 A
2其中, 本地网络输入特征图像, 经过隐藏网络层输出空间变换参数, 所述隐藏网络层包
括两个卷积层和两个最大池化层, 以及一个3 ×2的仿射矩阵回归层;
所述网格生成器依据本地网络 输出的变换参数, 对特 征映射进行变换 得到采样网格;
所述采样器利用采样网格和输入的特 征图, 得到特 征图经过变换之后的结果;
给予一个特征映射
, 假设提案特征图的第i个像素的坐标为
, 变换后特征图的
第i个像素坐标为
, 特征映射
为一个3×2的仿射变换函数,
和
的对
应关系则为:
其中,
为映射关系矩阵
, 映射关系矩阵中的参数 θ11、θ12θ13、θ21、θ22、
θ23通过对基于多模态与对抗学习的多任务识别网络模型训练确 定,
表示变换后特征图
的像素坐标
。
5.根据权利要求2所述的方法, 其特征在于, 在多目标标记任务中, 以提案框为中心创
建Nr个不同尺 寸大小的窗口, 通过将特征图和提案框之间的空间划分为Nr ‑1个均匀间隔来
设置窗口尺寸大小, 获取Nr 窗口的多目标标签, 记为
, Nr为设定值; 获得特征图
中所有提案框的语义颜色标签, 并计算它们的平均值, 组合起来作为一个c 向量表示; 将主
任务中分类分支输出的特 征向量
更新为
:
其中, Wr是一个映射矩阵,
表示为主任务中分类分支输出 得到的特 征向量;
所述颜色标记任务是指用于获取识别对象语义颜色, 并依据语义颜色进行对象类型标
记;
所述多目标 标记任务是指用于获取随机包围框中各目标占所有目标 数量的比例;
所述前景标记任务是指用于对整幅图像的前 景区域和背景区域进行 标记;
所述主任务是指用于获取对象位置以及识别对象的类型 标签。
6.根据权利要求2所述的方法, 其特征在于, 对各任务和对抗生成网络设置交叉熵损失
函数, 并将所有交叉熵损失函数之和作为目标交叉熵损失函数;
通过ImageNet预训练初始化基于多模态与对抗学习的多任务识别网络模型, 将训练样
本放入初始化后的基于多模态与对抗学习的多任务识别网络模型中进行学习; 其中, 训练
样本中原始RGB图像和其对应的语义图作为基于多模态与对抗学习的多任务识别网络模型
的输入数据, 原始RGB图像对应的目标物体标注结果作为基于多模态与对抗学习的多任务
识别网络模型的输出 数据;
在训练过程中使得目标交叉熵损失函数达到最小值, 获得训练好的基于多模态与对抗权 利 要 求 书 2/4 页
3
CN 114821014 A
3
专利 基于多模态与对抗学习的多任务目标检测识别方法及装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:05上传分享