(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211024862.9
(22)申请日 2022.08.25
(71)申请人 南京信息技 术研究院
地址 210036 江苏省南京市 鼓楼区浦江路
23号
(72)发明人 陈亮 李琦 张婧 剧立伟
(74)专利代理 机构 南京华恒专利代理事务所
(普通合伙) 32335
专利代理师 宋方园
(51)Int.Cl.
G06V 10/25(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06V 10/44(2022.01)
G06V 10/74(2022.01)G06V 10/77(2022.01)
G06V 10/82(2022.01)
(54)发明名称
一种基于时空通联数据驱动的跨镜目标跟
踪方法
(57)摘要
本发明公开一种基于时空通联数据驱动 的
跨镜目标跟踪方法, 先分别获取跟踪目标模板图
片和搜索区域的编码序列, 然后三阶段混合注意
力机制融合目标图片与视频帧获得对应特征序
列, 概率估计得到单摄像头视频的目标跟踪结
果; 接着通过注意力模块残差网络获得消失目标
以及视频帧的强化特征, 并计算二者相似度, 最
后通过相似度判断目标跟踪结果。 本发明用于实
时监控视频数据, 结合追踪目标的通讯信息调用
单个摄像头视频, 并结合特定区域周围其他摄像
头视频对异常目标进行持续追踪直至目标离开
该区域, 实现了跨镜的目标跟踪, 从而达到及时
预警, 保护重点区域人员人身安全与信息安全的
目的。
权利要求书5页 说明书10页 附图2页
CN 115482375 A
2022.12.16
CN 115482375 A
1.一种基于时空通联 数据驱动的跨镜目标跟踪方法, 其特 征在于: 包括以下步骤:
步骤S1、 将跟踪目标模板图片Ti和当前搜索区域S切割 为固定大小的子图片, 利用卷积
操作对各子图片进行基本编码分别得到对应编码序列tj和sj; 然后对基本编码序列tj和sj
进行分离和重 建, 最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查
询、 键和值向量组<qt,kt,vt>、 <qs,ks,vs>;
其中, Ti表示第i个跟踪目标模板图片, i∈{1,2,...,n}, qt,kt,vt为跟踪目标模板图片
的查询、 键和值, qs,ks,vs为搜索区域的查询、 键和值;
步骤S2、 利用三阶段混合注意力机制对输入的编码序列进行 特征提取
第一阶段、 将目标模板 图片与搜索区域的键和值向量分别进行拼接, 然后利用基本混
合注意力操作得到目标模板图片与搜索区域融合后的混合特 征F1;
第二阶段、 将混合特征F1通过可分离 卷积改变尺寸后输入到混合注意力机制中, 得到第
二阶段的特 征序列F2;
第三阶段、 将特征序列F2通过可分离 卷积改变尺寸, 并进行多个混合注意力操作得到最
终第三阶段的特 征序列F3;
步骤S3、 先将特征序列F3通过分离和重建得到搜索区域的特征序列, 并利用基于全卷积
操作的预测头来定位跟踪目标的边界框得到检测结果; 然后, 根据预测置信度进行在线更
新, 同时将下一帧视频帧作为步骤S1的搜索区域, 重新对视频中的跟踪目标进 行跟踪, 直至
搜索区域中的目标消失;
步骤S4、 利用手机定位获取消失目标的位置并调取最近的三个摄像头的部分视频, 同
时将消失目标的时空通联讯息和消失目标的图像通过注意力机制进行特征融合, 并与调取
的视频帧通过残差网络提取各自初始特征, 分别得到三个摄像头视频序列的帧级 特征以及
特征融合后的消失目标初始特 征;
步骤S5、 将包含时间互补信息的视频帧级特征通过卷积映射为特征图, 并利用多头注
意机制获取该特征图上 的显著特征; 然后, 利用激活和卷积操作获取初始特征中被激活的
冗余显著区域, 从而挖掘当前视频帧剩余互补区域, 捕获剩余互补信息; 接着, 利用残差网
络从互补信息中获取当前帧补充 特征, 进而得到当前视频帧的强化特征; 最后, 将消失目标
的图像视为 一个视频帧序列, 并以相同的方式获得其对应的强化特 征;
步骤S6、 将获取的强化特征向量与消失目标的模板图片进行相似度计算, 并根据经验
设置余弦相似度阈值, 若最大相似度低于阈值则表示消失目标已离开重点区域, 反之, 则获
取最大相似度对应行人的边界框以及摄像头编号, 并将该摄像头的视频序列与目标模板图
片返回到步骤S1中对目标进行持续跟踪。
2.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法, 其特征在于: 所
述步骤S1的具体过程 为:
S1.1、 分别获取跟踪目标模板图片Ti和视频帧内搜索图片 S的基本编码序列tj和sj;
采用C个补零层数为1、 步长为4且核大小为7的卷积层, 对各个子图片进行编码, 公式如
下:
权 利 要 求 书 1/5 页
2
CN 115482375 A
2其中,
Ht和Wt分别为跟踪目标模板图的高度和宽度, Hs和Ws
分别表示搜索图片的高度和宽度, tj表示目标模板图片的编码, sj表示搜索图片的编码,
Conv7×7表示核大小为7的卷积;
进而得到目标子图像的基本编码大小分别为
搜索子图像的基本编码大小
为
C为通道数;
然后, 将跟踪目标模板图片Ti的N个目标子图像的基本编码
和搜索区域的
子图片的基本编码
展开, 并沿通道方向拼接得到大小为
的编码序列; 将拼接所得编 码序列进 行分离和重建得到目标编 码序列与搜索序列的二维特
征图像
和
S1.2、 分别获取目标模板图片和搜索图片的查询、 键和值向量
首先, 对二维特征图像
进行深度分离卷积操作DConv, 然后将目标模板和搜索图片
的每个特征映射进行矩阵展平操作
以及线性投影操作
最终得到对应查询query、 键key
和值value, 具体公式如下:
。
3.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法, 其特征在于: 所
述步骤S2利用混合注意力机制提取 特征的详细过程 为:
步骤S2.1、 将目标模板图片的kt和搜索区域的ks进行拼接得到键向量km=Concat(kt,
ks), 将目标模板图片的vt和搜索区域vs进行拼接得到值向量vm=Concat(vt,vs), Concat表
示拼接操作;
步骤S2.2、 利用混合注意力机制将目标模板图片与搜索区域进行特征融合, 具体公式
如下:
d表示键key的维度, 上标T表示对应向量的转置,
表示激活函数,
Attent和Attens分别是目标模板图片和搜索区域的注意力图;
步骤S2.3、 分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来
提取特征序列, 提取公式为:
权 利 要 求 书 2/5 页
3
CN 115482375 A
3
专利 一种基于时空通联数据驱动的跨镜目标跟踪方法
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:30:53上传分享