专利 基于掩码特征聚合和目标增强型的视频目标分割方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210569043.6 (22)申请日 2022.05.24 (71)申请人浙江大学地址 310000 浙江省杭州市西湖区余杭塘路866号 (72)发明人刘勇　梅剑标　王蒙蒙　 (74)专利代理机构杭州泓呈祥专利代理事务所 (普通合伙) 33350 专利代理师张婵婵 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于掩码特征聚合和目标增强型的视频目标分割方法 (57)摘要本发明涉及计算机视觉领域，公开了一种基于掩码特征聚合和目标增强型的视频目标分割方法，包括以下步骤： S1、设计并得到一种优化的多尺度掩码特征聚合单元； S2、利用目标增强型注意力机构得到目标增强型特征匹配单元； S3、利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于多尺度掩码特征聚合和目标增强型的视频目标分割方法； S4、利用所述基于多尺度掩码特征聚合和目标增强型的视频目标分割方法对新的视频序列分割给定目标。本发明能够充分利用目标掩码中的边缘轮廓信息，加强目标外观表示的学习，使得分割结果具有更好的轮廓准确度，能够在复杂的环境中准确地分割目标。权利要求书3页说明书8页附图2页 CN 115035437 A 2022.09.09 CN 115035437 A 1.基于掩码特征聚合和目标增强型的视频目标分割方法，其特征在于，包括以下步骤： S1、设计并得到一种优化的多尺度掩码特征聚合单元； S2、利用目标增强型注意力机构得到目标增强型特征匹配单元； S3、利用服务器对网络模型进行训练，通过降低网络损失函数优化网络参数，直至网络收敛，获得基于多尺度掩码特征聚合和目标增强型的视频目标分割方法； S4、利用所述基于多尺度掩码特征聚合和目标增强型的视频目标分割方法对新的视频序列分割给定目标。 2.根据权利要求1所述的基于掩码特征聚合和目标增强型的视频目标分割方法，其特征在于，所述步骤S1具体包括以下步骤： S11、设计一种低层次融合的掩码特征聚合单元I1，使用骨干网络相同的查询编码单元和参考编码单元分别抽取查询图像键值编码对(kQ,vQ)和参考键值编码对(kR,vR)，上标Q指查询图像，上标R指参考集，查询编码单元为一个输入通道为3的图像特征编码器，所述输入通道为3的图像特征编码器末端附有并联的两个卷积用于生成查询图像键值编码对(kQ, vQ)，参考编码单元为一个输入通道为4的图像特征编码器，所述输入通道为4的图像特征编码器末端附有并联的两个卷积，用于生成参考键值编码对(kR,vR)，参考编码单元先将参考帧和参考目标掩码在通道维度上拼接后再一起送入到输入通道为4的图像特征编码器中，其数学表达式为： R＝{Concate(Ii,Mi)}N 其中， Ii,Mi分别表示参考集R中的第i帧参考帧RGB图像和参考目标掩码； N为参考集大小； Concate表示沿着通道维度的拼接操作； S12、设计三种高层次融合的掩码特征聚合单元I2， I3， I4，将目标掩码或目标掩码特征与经过特征提取阶段后的图像特征进行聚合，用于前景发现，所述I2由参考编码单元和查询编码单元组成，查询编码单元为一个图像特征编码器，所述一个图像特征编码器末端附有并联的两个卷积用于生成查询图像键值编码对(kQ,vQ)，参考编码单元由一个和查询编码器特征共享的图像特征编码器和一个掩码特征聚合模块组成用于生成参考键值编码对 (kR,vR)，参考编码单元直接对原始目标掩码采样，并使用特征聚合模块将其与图像特征编码器输出的参考帧特征融合；所述I3的参考编码单元中使用一个独立的掩码特征编码器对目标掩码进行特征提取，然后使用特征聚合模块将共享的图像特征编码器输出的参考帧特征进行融合；所述 I4在所述I3的基础上进一步将掩码特征编码器和图像特征编码器共享； S13、设计四种多尺度融合的掩码特征聚合单元I5， I6， I7， I8，四种特征提取单元分别由由参考编码单元和查询编码单元组成，输出查询图像键值编码对(kQ,vQ)和参考键值编码对(kR,vR)以及目标掩码特征FM，所述I5采用SwiftNet的架构，参考编码单元和查询编码单元中的图像特征编码器进行特征共享，其参考编码单元在骨干网络的第1和第4个阶段后，将下采样的目标掩码信息融合到图像特征编码器提取的参考帧特征中；所述I6的参考编码单元采用单独的掩码特征编码器提取参考目标掩码特征FM，而不是简单的下采样，然后使用AFC模块在骨干网络的前四个阶段将其与图像特征编码器提取的参考帧特征融合，图像特征编码器为主分支，其查询编码单元和参考编码单元中的图像特征编码器不是共享的；所述I7与所述I6的结构基本相同，将掩码编码器作为主分支，且查询编码单元和参考编码单元中的图像特征编码器的参数共享；所述I8与所述I6的不同之处为只将查询编码单元和权　利　要　求　书 1/3 页 2 CN 115035437 A 2参考编码单元中的图像特征编码器的参数共享； S14、使用默认的特征匹配单元和解码单元，经过步骤S3和步骤S4后比较各类特征提取单元的效果，得出最优的多尺度掩码特征聚合单元I8。 3.根据权利要求2所述的基于掩码特征聚合和目标增强型的视频目标分割方法，其特征在于，所述步骤S12中的所述特征聚合模块由两个并联的卷积支路组成，其中一条支路由一个1×7卷积和一个7 ×1卷积串联组成；另一条支路由一个7 ×1卷积和一个1 ×7卷积串联组成。 4.根据权利要求1所述的基于掩码特征聚合和目标增强型的视频目标分割方法，其特征在于，所述步骤S2具体包括以下步骤： S21、使用由掩码编码器生成的参考掩码特征FM来生成目标注意力图wR；再将目标注意力图wR和参考值编码特征vR相乘得到目标增强的参考值编码特征 S22、根据查询帧和上一帧的相似度，将上一帧对应的目标注意力图变换到查询帧，得到查询帧对应的目标注意力图wQ；将目标注意力图wQ和查询值编码特征vQ相乘得到目标增强的查询值编码特征 S23、使用目标增强后的查询图像键值编码对检索参考键值编码对中的信息，并与查询值编码特征拼接后得到最终的匹配特征。 5.根据权利要求4所述的基于掩码特征聚合和目标增强型的视频目标分割方法，其特征在于，所述步骤S23中信息检索过程具体为：先将查询键特征和参考键特征计算相似度，在参考帧维度归一化后作为权重将参考帧值特征进行加权求和，再和查询值编码特征进行拼接，即：其中， p和q分别表示查询键编码特征和参考键编码特征中的像素， [ ]表示拼接， σ 表示 Softmax函数， y是特征匹配单元的输出。 6.根据权利要求1所述的基于掩码特征聚合和目标增强型的视频目标分割方法，其特征在于，所述步骤S3具体包括以下步骤： S31、利用服务器执行训练视频片段生成单元，生成长度为T的训练视频片段，其中T≥ 2； S32、利用服务器执行特征编码单元，进行查询图像键值编码对(kQ,vQ)、参考键值编码对(kR,vR)以及参考目标掩码特征FM的提取； S33、利用服务器执行所述步骤S2中所述的目标增强型特征匹配单元，根据查询图像键值编码对(kQ,vQ)和参考目标掩码特征FM来检索参考键值编码对(kR,vR)中的信息，得到最终的匹配特征； S34、利用服务器执行解码单元，输出查询帧最终的分割结果； S35、利用服务器进行网络训练，采用端到端的方式训练；分割损失函数L的数学表达为： L(Y,M)＝ Lce(Y,M)+α·LIoU(Y,M)权　利　要　求　书 2/3 页 3 CN 115035437 A 3

专利 基于掩码特征聚合和目标增强型的视频目标分割方法

专利基于掩码特征聚合和目标增强型的视频目标分割方法