专利 一种基于时空通联数据驱动的跨镜目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211024862.9 (22)申请日 2022.08.25 (71)申请人南京信息技术研究院地址 210036 江苏省南京市鼓楼区浦江路 23号 (72)发明人陈亮　李琦　张婧　剧立伟　 (74)专利代理机构南京华恒专利代理事务所 (普通合伙) 32335 专利代理师宋方园 (51)Int.Cl. G06V 10/25(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/44(2022.01) G06V 10/74(2022.01)G06V 10/77(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于时空通联数据驱动的跨镜目标跟踪方法 (57)摘要本发明公开一种基于时空通联数据驱动的跨镜目标跟踪方法，先分别获取跟踪目标模板图片和搜索区域的编码序列，然后三阶段混合注意力机制融合目标图片与视频帧获得对应特征序列，概率估计得到单摄像头视频的目标跟踪结果；接着通过注意力模块残差网络获得消失目标以及视频帧的强化特征，并计算二者相似度，最后通过相似度判断目标跟踪结果。本发明用于实时监控视频数据，结合追踪目标的通讯信息调用单个摄像头视频，并结合特定区域周围其他摄像头视频对异常目标进行持续追踪直至目标离开该区域，实现了跨镜的目标跟踪，从而达到及时预警，保护重点区域人员人身安全与信息安全的目的。权利要求书5页说明书10页附图2页 CN 115482375 A 2022.12.16 CN 115482375 A 1.一种基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：包括以下步骤：步骤S1、将跟踪目标模板图片Ti和当前搜索区域S切割为固定大小的子图片，利用卷积操作对各子图片进行基本编码分别得到对应编码序列tj和sj；然后对基本编码序列tj和sj 进行分离和重建，最后利用线性投影操作分别得到跟踪目标模板图片和搜索区域对应的查询、键和值向量组<qt,kt,vt>、 <qs,ks,vs>；其中， Ti表示第i个跟踪目标模板图片， i∈{1,2,...,n}， qt,kt,vt为跟踪目标模板图片的查询、键和值， qs,ks,vs为搜索区域的查询、键和值；步骤S2、利用三阶段混合注意力机制对输入的编码序列进行特征提取第一阶段、将目标模板图片与搜索区域的键和值向量分别进行拼接，然后利用基本混合注意力操作得到目标模板图片与搜索区域融合后的混合特征F1；第二阶段、将混合特征F1通过可分离卷积改变尺寸后输入到混合注意力机制中，得到第二阶段的特征序列F2；第三阶段、将特征序列F2通过可分离卷积改变尺寸，并进行多个混合注意力操作得到最终第三阶段的特征序列F3；步骤S3、先将特征序列F3通过分离和重建得到搜索区域的特征序列，并利用基于全卷积操作的预测头来定位跟踪目标的边界框得到检测结果；然后，根据预测置信度进行在线更新，同时将下一帧视频帧作为步骤S1的搜索区域，重新对视频中的跟踪目标进行跟踪，直至搜索区域中的目标消失；步骤S4、利用手机定位获取消失目标的位置并调取最近的三个摄像头的部分视频，同时将消失目标的时空通联讯息和消失目标的图像通过注意力机制进行特征融合，并与调取的视频帧通过残差网络提取各自初始特征，分别得到三个摄像头视频序列的帧级特征以及特征融合后的消失目标初始特征；步骤S5、将包含时间互补信息的视频帧级特征通过卷积映射为特征图，并利用多头注意机制获取该特征图上的显著特征；然后，利用激活和卷积操作获取初始特征中被激活的冗余显著区域，从而挖掘当前视频帧剩余互补区域，捕获剩余互补信息；接着，利用残差网络从互补信息中获取当前帧补充特征，进而得到当前视频帧的强化特征；最后，将消失目标的图像视为一个视频帧序列，并以相同的方式获得其对应的强化特征；步骤S6、将获取的强化特征向量与消失目标的模板图片进行相似度计算，并根据经验设置余弦相似度阈值，若最大相似度低于阈值则表示消失目标已离开重点区域，反之，则获取最大相似度对应行人的边界框以及摄像头编号，并将该摄像头的视频序列与目标模板图片返回到步骤S1中对目标进行持续跟踪。 2.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S1的具体过程为： S1.1、分别获取跟踪目标模板图片Ti和视频帧内搜索图片 S的基本编码序列tj和sj；采用C个补零层数为1、步长为4且核大小为7的卷积层，对各个子图片进行编码，公式如下：权　利　要　求　书 1/5 页 2 CN 115482375 A 2其中， Ht和Wt分别为跟踪目标模板图的高度和宽度， Hs和Ws 分别表示搜索图片的高度和宽度， tj表示目标模板图片的编码， sj表示搜索图片的编码， Conv7×7表示核大小为7的卷积；进而得到目标子图像的基本编码大小分别为搜索子图像的基本编码大小为 C为通道数；然后，将跟踪目标模板图片Ti的N个目标子图像的基本编码和搜索区域的子图片的基本编码展开，并沿通道方向拼接得到大小为的编码序列；将拼接所得编码序列进行分离和重建得到目标编码序列与搜索序列的二维特征图像和 S1.2、分别获取目标模板图片和搜索图片的查询、键和值向量首先，对二维特征图像进行深度分离卷积操作DConv，然后将目标模板和搜索图片的每个特征映射进行矩阵展平操作以及线性投影操作最终得到对应查询query、键key 和值value，具体公式如下：。 3.根据权利要求1所述的基于时空通联数据驱动的跨镜目标跟踪方法，其特征在于：所述步骤S2利用混合注意力机制提取特征的详细过程为：步骤S2.1、将目标模板图片的kt和搜索区域的ks进行拼接得到键向量km＝Concat(kt, ks)，将目标模板图片的vt和搜索区域vs进行拼接得到值向量vm＝Concat(vt,vs)， Concat表示拼接操作；步骤S2.2、利用混合注意力机制将目标模板图片与搜索区域进行特征融合，具体公式如下： d表示键key的维度，上标T表示对应向量的转置，表示激活函数， Attent和Attens分别是目标模板图片和搜索区域的注意力图；步骤S2.3、分三个阶段通过多层感知机制连接目标模板图片和搜索区域的注意力图来提取特征序列，提取公式为：权　利　要　求　书 2/5 页 3 CN 115482375 A 3

专利 一种基于时空通联数据驱动的跨镜目标跟踪方法

专利一种基于时空通联数据驱动的跨镜目标跟踪方法