(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210569043.6
(22)申请日 2022.05.24
(71)申请人 浙江大学
地址 310000 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 刘勇 梅剑标 王蒙蒙
(74)专利代理 机构 杭州泓呈祥专利代理事务所
(普通合伙) 33350
专利代理师 张婵婵
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/82(2022.01)
G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
基于掩码特征聚合和目标增强型的视频目
标分割方法
(57)摘要
本发明涉及计算机视觉领域, 公开了一种基
于掩码特征聚合和目标增强型的视频目标分割
方法, 包括以下步骤: S1、 设计并得到一种优化的
多尺度掩码特征聚合单元; S2、 利用目标增强型
注意力机构得到目标增强型特征匹配单元; S3、
利用服务器对网络模型进行训练, 通过降低网络
损失函数优化网络参数, 直至网络收敛, 获得基
于多尺度掩码特征聚合和目标增强型的视频目
标分割方法; S4、 利用所述基于多尺度掩码特征
聚合和目标增强型的视频目标分割方法对新的
视频序列分割给定目标。 本发明能够充分利用目
标掩码中的边缘轮廓信息, 加强目标外观表示的
学习, 使得分割结果具有更好的轮廓准确度, 能
够在复杂的环境中准确地分割目标。
权利要求书3页 说明书8页 附图2页
CN 115035437 A
2022.09.09
CN 115035437 A
1.基于掩码特 征聚合和目标增强型的视频目标分割方法, 其特 征在于, 包括以下步骤:
S1、 设计并得到一种优化的多尺度掩码特 征聚合单 元;
S2、 利用目标增强型注意力机构得到目标增强型 特征匹配单 元;
S3、 利用服务器对 网络模型进行训练, 通过降低网络损失函数优化网络参数, 直至网络
收敛, 获得基于多尺度掩码特 征聚合和目标增强型的视频目标分割方法;
S4、 利用所述基于多尺度掩码特征聚合和目标增强型的视频目标分割方法对新的视频
序列分割给定目标。
2.根据权利要求1所述的基于掩码特征聚合和目标增强型的视频目标分割方法, 其特
征在于, 所述 步骤S1具体包括以下步骤:
S11、 设计一种低层次融合的掩码特征聚合单元I1, 使用骨干网络相同的查询编码单元
和参考编码单元分别抽取查询图像键值编码对(kQ,vQ)和参考键值编码对(kR,vR), 上标Q指
查询图像, 上标R指参考集, 查询编 码单元为一个输入通道为3的图像特征编码 器, 所述输入
通道为3的图像特征编码器末端附有并联的两个卷积用于生成查询图像键值编码对(kQ,
vQ), 参考编码 单元为一个输入通道为4的图像特征编码器, 所述输入通道为4的图像特征编
码器末端附有 并联的两个卷积, 用于生成参考键值编码对(kR,vR), 参考编码单元先将参考
帧和参考 目标掩码在通道维度上拼接后再一起送入到输入通道为4的图像特征编码器中,
其数学表达式为:
R={Concate(Ii,Mi)}N
其中, Ii,Mi分别表示参考集R中的第i帧参考帧RGB图像和参考 目标掩码; N为参考集大
小; Concate表示沿着通道维度的拼接操作;
S12、 设计三种高层次融合的掩码特征聚合单元I2, I3, I4, 将目标掩码或目标掩码特征
与经过特征提取阶段后的图像特征进行聚合, 用于前景发现, 所述I2由参考编码单元和查
询编码单元组成, 查询编码单元为一个图像特征编码器, 所述一个图像特征编码器末端附
有并联的两个卷积用于生成查询图像键 值编码对(kQ,vQ), 参考编码单元由一个和查询编码
器特征共享的图像特征编码器和一个掩码特征聚合模块组成用于生成参考键值编码对
(kR,vR), 参考编码单元直接对原始目标掩码采样, 并使用特征聚合模块将其与图像特征编
码器输出的参考帧特征融合; 所述I3的参考编码单元中使用一个独立的掩码特征编 码器对
目标掩码进行特征提取, 然后使用特征聚合模块将共享的图像特征编 码器输出的参考帧特
征进行融合; 所述 I4在所述I3的基础上进一 步将掩码特 征编码器和图像特 征编码器共享;
S13、 设计四种多尺度 融合的掩码特征聚合单元I5, I6, I7, I8, 四种特征提取单元分别
由由参考编码单元和查询编码单元组成, 输出查询图像键 值编码对(kQ,vQ)和参考键 值编码
对(kR,vR)以及目标掩码特征FM, 所述I5采用SwiftNet的架构, 参考编码单元和查询编码单
元中的图像特征编码器进行特征共享, 其参考编码单元在骨干网络的第1和第4个阶段后,
将下采样的目标掩码信息融合到图像特征编 码器提取的参考帧特征中; 所述I6的参考编码
单元采用单独 的掩码特征编码器提取参考目标掩码特征FM, 而不是简单的下采样, 然后使
用AFC模块在骨干网络的前四个阶段将其与图像特征编码器提取 的参考帧特征融合, 图像
特征编码器为主分支, 其查询编码单元和参考编码单元中的图像特征编码器不是共享的;
所述I7与所述I6的结构基本相同, 将掩码编码器作为主分支, 且查询编码单元和参考编码
单元中的图像特征编码 器的参数共享; 所述I8与所述I6的不同之处为只 将查询编 码单元和权 利 要 求 书 1/3 页
2
CN 115035437 A
2参考编码单 元中的图像特 征编码器的参数共享;
S14、 使用默认的特征匹配单元和解码单元, 经过步骤S3和步骤S4后比较各类特征提取
单元的效果, 得 出最优的多尺度掩码特 征聚合单 元I8。
3.根据权利要求2所述的基于掩码特征聚合和目标增强型的视频目标分割方法, 其特
征在于, 所述步骤S12中的所述特征聚合模块由两个并联的卷积支路组成, 其中一条支路由
一个1×7卷积和一个7 ×1卷积串联组成; 另一条支路由一个7 ×1卷积和一个1 ×7卷积串联
组成。
4.根据权利要求1所述的基于掩码特征聚合和目标增强型的视频目标分割方法, 其特
征在于, 所述 步骤S2具体包括以下步骤:
S21、 使用由掩码编码器生成的参考掩码特征FM来生成目标注意力图wR; 再将目标注意
力图wR和参考值编码特 征vR相乘得到目标增强的参 考值编码特 征
S22、 根据查询帧和上一 帧的相似度, 将上一 帧对应的目标注意力图
变换到查询帧,
得到查询帧对应的目标注意力图wQ; 将目标注意力图wQ和查询值编码特征vQ相乘得到目标
增强的查询值编码特 征
S23、 使用目标增强后的查询图像键值编码对
检索参考键值编码对
中的
信息, 并与查询值编码特 征
拼接后得到最终的匹配特 征。
5.根据权利要求4所述的基于掩码特征聚合和目标增强型的视频目标分割方法, 其特
征在于, 所述步骤S23中信息检索过程具体为: 先将查询键特征和参考键特征计算相 似度,
在参考帧维度归一化后作为权重将参考帧值特征进行加权求和, 再和查询值编 码特征进 行
拼接, 即:
其中, p和q分别表示查询键编码特征和参考键编码特征中的像素, [ ]表示拼接, σ 表示
Softmax函数, y是 特征匹配单 元的输出。
6.根据权利要求1所述的基于掩码特征聚合和目标增强型的视频目标分割方法, 其特
征在于, 所述 步骤S3具体包括以下步骤:
S31、 利用服务器执行训练视频片段生成单元, 生成长度为T的训练视频片段, 其中T≥
2;
S32、 利用服务器执行特征编码单元, 进行查询图像键值编码对(kQ,vQ)、 参考键值编码
对(kR,vR)以及参考目标掩码特 征FM的提取;
S33、 利用服务器执行所述步骤S2中所述的目标增强型特征匹配单元, 根据查询图像键
值编码对(kQ,vQ)和参考目标掩码特征FM来检索参考键 值编码对(kR,vR)中的信息, 得到 最终
的匹配特 征;
S34、 利用服 务器执行解码单 元, 输出查询帧最终的分割结果;
S35、 利用服务器进行网络训练, 采用端到端的方式训练; 分割损失函数L的数学表达
为:
L(Y,M)= Lce(Y,M)+α·LIoU(Y,M)权 利 要 求 书 2/3 页
3
CN 115035437 A
3
专利 基于掩码特征聚合和目标增强型的视频目标分割方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:03上传分享