(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210632698.3
(22)申请日 2022.06.06
(71)申请人 浙江大学
地址 310000 浙江省杭州市西湖区余杭塘
路866号
(72)发明人 刘勇 林叶能 王蒙蒙
(74)专利代理 机构 杭州泓呈祥专利代理事务所
(普通合伙) 33350
专利代理师 张婵婵
(51)Int.Cl.
G06T 7/246(2017.01)
G06T 7/277(2017.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于深度学习和时序特征增强的视频
多目标跟踪方法
(57)摘要
本发明涉及计算机视觉领域, 公开了一种基
于深度学习和时序特征增强的视频多目标跟踪
方法, 包括以下步骤: S1、 准备和处理数据集, 将
处理后的数据作为模型训练和测试的输入数据;
S2、 对模型结构中的目标检测与ReID 任务进行分
离; S3、 利用时序信息构建ReID任务模块改善模
型结构; S4、 模型的后处理推理, 将所述改善后的
模型结构应用到多目标跟踪的数据关联匹配过
程里。 本发针对目标检测与ReID两种任务在训练
时存在的问题进行改善, 将检测和ReID分支进行
了分离, 使两块结构在保持功能精度的同时, 使
其更具独立性并提升了检测的性能。 并且利用了
时序信息, 结合了历史帧的中心点特征并添加了
特征加强模块, 从而去改善模型在无人机视频序
列上的多目标跟踪性能。
权利要求书2页 说明书7页 附图1页
CN 115035159 A
2022.09.09
CN 115035159 A
1.一种基于深度学习和时序特征增强的视频多目标跟踪方法, 其特征在于, 包括以下
步骤:
S1、 准备和处 理数据集, 将处 理后的数据作为模型训练和 测试的输入数据;
S2、 对模型结构中的目标检测与ReID任务进行分离;
S3、 利用时序信息构建ReID任务模块改善模型 结构;
S4、 模型的后处理推理, 将所述改善后的模型结构应用到多目标跟踪的数据关联匹配
过程里。
2.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述 步骤S1具体包括以下步骤:
S11、 收集无 人机视频序列集 合作为数据集;
S12、 将所述数据 集标注为coco格式, 所述coco格式能够提供帧数的序号、 目标ID、 包围
框左上顶点 坐标、 包围框的宽与高、 该目标 是否被遮挡以及该目标 是否需要被忽略;
S13、 对所述数据集 根据类别对ID进行统计;
S14、 将所述数据集中的每一张图像进行旋转和缩放处 理。
3.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述 步骤S2具体包括以下步骤:
S21、 将模型上的骨干网络的解码器改为两个相同结构的解码器分别用于目标检测与
ReID任务;
S22、 模型输入改为双帧输入并将两帧图像进行参数共享后通过编码器进行 特征提取;
S23、 将提取到特征同时输入所述两个结构相同的解码器中分别进行目标检测与ReID
任务。
4.根据权利要求3所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述步骤S23具体为: 在目标检测 部分, 首先在由解码器得到的上一 帧的特征
后接一个多层的卷积并将该特征图与由解码 器得到的当前帧的特征进 行拼接, 最后通过热
度图分支得到目标检测分支的输出; 在ReID任务部 分, 添加了特征加强模块, 将由解码 器得
到的相邻帧特征以及上一帧的热度图作为特征模块的输入信息, 经过模块的信息整合后得
到ReID任务分支的输出。
5.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述 步骤S3具体分为训练阶段和推理阶段。
6.根据权利要求5所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述训练阶段 具体包括以下步骤:
S311、 通过数据集的标注信息获取上一帧中特征图相应位置的特征将其与当前特征图
进行相似度计算得到上一帧中每一个物体与当前帧每一个点的特 征距离;
S312、 得到上一帧中特 征图与当前 特征图的两 两对应的位置信息之后进行 特征融合。
7.根据权利要求5所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述推理阶段 具体包括以下步骤:
S321、 利用热度图中得到上一帧可能存在的目标数目, 并将这些目标对应位置的ReID
特征信息作为输入之一到特 征模块中;
S322、 设置一个阈值, 若上一帧的中心点与匹配到的当前帧中心点位置相距超过所述权 利 要 求 书 1/2 页
2
CN 115035159 A
2阈值, 则认为该匹配到的点不可信将其忽略, 只保留可信度大的匹配点与当前特征图进行
特征融合。
8.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述步骤S3具体为将上一帧的热度图、 上一帧的特征图以及当前帧的特征图
进行特征融合。
9.根据权利要求1所述的一种基于深度学习和时序特征增强的视频多目标跟踪方法,
其特征在于, 所述 步骤S4具体包括以下步骤:
S41、 以三帧作 为一个回合, 第一帧将模型得到的热度图以及ReID特征进行归一化与标
准化, 并对热度图进 行非极大值抑制处理, 根据所设阈值筛选出可能存在的物体, 对第一帧
的物体进行 赋予ID;
S42、 第二帧重复第一帧的操作, 得到可能存在的物体后, 将其进行与第一帧的物体进
行包围框i ou的匹配, 保留符合预期的检测, 赋予相同ID, 并保留那些 未匹配上的物体;
S43、 第三帧则是在第二帧的基础 上添加ReID特征, 将相邻帧的检测目标进行ReID特征
的余弦距离计算, 并通过卡尔曼 滤波进行运动预测, 结合表 观与运动特 征进行数据关联;
S44、 将第三帧中未匹配上的物体与上一帧的物体进行iou计算, 如果小于固定阈值则
视为新增目标, 赋予新的ID,之后的每一帧重复以上的步骤, 完成视频多目标跟踪的后处理
步骤。权 利 要 求 书 2/2 页
3
CN 115035159 A
3
专利 一种基于深度学习和时序特征增强的视频多目标跟踪方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:00上传分享