专利 一种基于深度学习和时序特征增强的视频多目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210632698.3 (22)申请日 2022.06.06 (71)申请人浙江大学地址 310000 浙江省杭州市西湖区余杭塘路866号 (72)发明人刘勇　林叶能　王蒙蒙　 (74)专利代理机构杭州泓呈祥专利代理事务所 (普通合伙) 33350 专利代理师张婵婵 (51)Int.Cl. G06T 7/246(2017.01) G06T 7/277(2017.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于深度学习和时序特征增强的视频多目标跟踪方法 (57)摘要本发明涉及计算机视觉领域，公开了一种基于深度学习和时序特征增强的视频多目标跟踪方法，包括以下步骤： S1、准备和处理数据集，将处理后的数据作为模型训练和测试的输入数据； S2、对模型结构中的目标检测与ReID 任务进行分离； S3、利用时序信息构建ReID任务模块改善模型结构； S4、模型的后处理推理，将所述改善后的模型结构应用到多目标跟踪的数据关联匹配过程里。本发针对目标检测与ReID两种任务在训练时存在的问题进行改善，将检测和ReID分支进行了分离，使两块结构在保持功能精度的同时，使其更具独立性并提升了检测的性能。并且利用了时序信息，结合了历史帧的中心点特征并添加了特征加强模块，从而去改善模型在无人机视频序列上的多目标跟踪性能。权利要求书2页说明书7页附图1页 CN 115035159 A 2022.09.09 CN 115035159 A 1.一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，包括以下步骤： S1、准备和处理数据集，将处理后的数据作为模型训练和测试的输入数据； S2、对模型结构中的目标检测与ReID任务进行分离； S3、利用时序信息构建ReID任务模块改善模型结构； S4、模型的后处理推理，将所述改善后的模型结构应用到多目标跟踪的数据关联匹配过程里。 2.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述步骤S1具体包括以下步骤： S11、收集无人机视频序列集合作为数据集； S12、将所述数据集标注为coco格式，所述coco格式能够提供帧数的序号、目标ID、包围框左上顶点坐标、包围框的宽与高、该目标是否被遮挡以及该目标是否需要被忽略； S13、对所述数据集根据类别对ID进行统计； S14、将所述数据集中的每一张图像进行旋转和缩放处理。 3.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述步骤S2具体包括以下步骤： S21、将模型上的骨干网络的解码器改为两个相同结构的解码器分别用于目标检测与 ReID任务； S22、模型输入改为双帧输入并将两帧图像进行参数共享后通过编码器进行特征提取； S23、将提取到特征同时输入所述两个结构相同的解码器中分别进行目标检测与ReID 任务。 4.根据权利要求3所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述步骤S23具体为：在目标检测部分，首先在由解码器得到的上一帧的特征后接一个多层的卷积并将该特征图与由解码器得到的当前帧的特征进行拼接，最后通过热度图分支得到目标检测分支的输出；在ReID任务部分，添加了特征加强模块，将由解码器得到的相邻帧特征以及上一帧的热度图作为特征模块的输入信息，经过模块的信息整合后得到ReID任务分支的输出。 5.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述步骤S3具体分为训练阶段和推理阶段。 6.根据权利要求5所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述训练阶段具体包括以下步骤： S311、通过数据集的标注信息获取上一帧中特征图相应位置的特征将其与当前特征图进行相似度计算得到上一帧中每一个物体与当前帧每一个点的特征距离； S312、得到上一帧中特征图与当前特征图的两两对应的位置信息之后进行特征融合。 7.根据权利要求5所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述推理阶段具体包括以下步骤： S321、利用热度图中得到上一帧可能存在的目标数目，并将这些目标对应位置的ReID 特征信息作为输入之一到特征模块中； S322、设置一个阈值，若上一帧的中心点与匹配到的当前帧中心点位置相距超过所述权　利　要　求　书 1/2 页 2 CN 115035159 A 2阈值，则认为该匹配到的点不可信将其忽略，只保留可信度大的匹配点与当前特征图进行特征融合。 8.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述步骤S3具体为将上一帧的热度图、上一帧的特征图以及当前帧的特征图进行特征融合。 9.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法，其特征在于，所述步骤S4具体包括以下步骤： S41、以三帧作为一个回合，第一帧将模型得到的热度图以及ReID特征进行归一化与标准化，并对热度图进行非极大值抑制处理，根据所设阈值筛选出可能存在的物体，对第一帧的物体进行赋予ID； S42、第二帧重复第一帧的操作，得到可能存在的物体后，将其进行与第一帧的物体进行包围框i ou的匹配，保留符合预期的检测，赋予相同ID，并保留那些未匹配上的物体； S43、第三帧则是在第二帧的基础上添加ReID特征，将相邻帧的检测目标进行ReID特征的余弦距离计算，并通过卡尔曼滤波进行运动预测，结合表观与运动特征进行数据关联； S44、将第三帧中未匹配上的物体与上一帧的物体进行iou计算，如果小于固定阈值则视为新增目标，赋予新的ID,之后的每一帧重复以上的步骤，完成视频多目标跟踪的后处理步骤。权　利　要　求　书 2/2 页 3 CN 115035159 A 3

专利 一种基于深度学习和时序特征增强的视频多目标跟踪方法

专利一种基于深度学习和时序特征增强的视频多目标跟踪方法