专利 基于特征模板匹配与最大相似度求偏移的多目标跟踪方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211053445.7 (22)申请日 2022.08.30 (71)申请人中国计量大学地址 310018 浙江省杭州市下沙高教园区学源街258号申请人杭州昊清科技有限公司 (72)发明人章东平　张超　于学成　曹霆峰　 (74)专利代理机构浙江得恒知识产权代理有限公司 33504 专利代理师赵芳 (51)Int.Cl. G06V 10/75(2022.01) G06V 10/26(2022.01) G06V 10/764(2022.01) G06V 10/774(2022.01)G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06V 20/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 7/246(2017.01) (54)发明名称基于特征模板匹配与最大相似度求偏移的多目标跟踪方法 (57)摘要本发明公开了多目标跟踪方法，包括： (1)使用目标检测与分割算法得到前一帧图像中目标的框位置和掩膜，利用掩膜去掉目标的背景像素； (2)利用块特征提取网络提取前一帧图像中目标的特征向量；利用块特征提取网络提取后一帧图像中滑动窗的特征向量； (3)对前后帧的特征向量计算余弦距离并求局部最大值得到目标的跟踪偏移量； (4)将前后前帧的特征图相乘并对每一行元素计算softmax值，求每一行最大值即可得到目标的跟踪偏移量，将此偏移量与(3) 中偏移量进行加权融合得到最终目标的跟踪偏移量。本发明利用目标检测与分割、特征提取和特征匹配等技术来实现基于特征模板匹配与最大相似度求偏移相结合的多目标跟踪方法，提高对行人跟踪的效率。权利要求书3页说明书9页附图3页 CN 115512139 A 2022.12.23 CN 115512139 A 1.基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，包括： S1.获取与目标相关的视频数据，将获取的视频数据进行切分，得到视频数据相对应的视频帧[1,2,3,4 …t‑1,t,…]； S2.将t‑1帧的图像输入至MaskRCNN模型中进行分割，判断分割后的视频帧中是否检测到目标，若否，则继续执行步骤S2；若是，则得到视频帧相对应的n个目标掩膜、 n个目标框，并将得到的n个目标掩膜和n个目标框按照相对应关系进行存储； S3.将n个目标框进行切块处理，得到数个像素块，并对得到的数个像素块进行处理，得到每个目标只保留目标前景像素去除背景像素的前景块； S4.将每个目标的前景块分别输入到块特征提取网络中，得到t ‑1帧中每个目标前景块的特征向量； S5.将t‑1帧中每个目标前景块的特征向量与t帧图像中对应的特征向量进行模板匹配，得到每个目标在特征图上的第一水平偏移量和第一垂直偏移量； S6.将t帧图像输入到ResNet50特征提取网络中输出特征金字塔，用t ‑1帧图像中的特征图和t帧图像中的特征图构建关联代价矩阵，并采用最大相似度计算每个目标在特征图上的第二水平偏移量和第二垂直偏移量； S7.将第一水平偏移量和第一垂直偏移分别与第二水平偏移量和第二垂直偏移量进行加权处理，得到每个目标的运动偏移量； S8.将得到的每个目标的运动偏移量与t ‑1帧图像中的特征图输入到可变形卷积模块中进行处理，完成对目标的连续跟踪。 2.根据权利要求1所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S3之前还包括：将t‑1帧图像经过MaskRCNN中ResNet50特征提取网络输出的特征金字塔FPNt‑1，表示为： FPNt‑1＝[P1,P2,P3,P4,P5] 其中， P1～P5分别表示第1～5层的特征图，尺寸分别为 3.根据权利要求2所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S3中对得到的数个像素块进行处理，表示为： block′l(i,j)＝Framet‑1(i,j)*mask ′k(i,j) 其中， Framet‑1(i,j)表示t ‑1帧图像在(i,j)坐标处的像素值； mask ′k(i,j)表示坐标(i, j)处的像素是目标的前景像素还是背景像素，若为1则为前景像素，否则为背景像素； block′l(i,j)表示只保存前景像素的目标块。 4.根据权利要求3所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S4中将每个目标的前景块分别输入到块特征提取网络中，得到t ‑1帧中每个目标前景块的128维特征值，表示为：其中， fi,j表示水平方向第i、垂直方向第j个前景块的特征向量；分别表示n个目标框输出按32x32像素大小进行切块后的像素块水平数量和垂直数量； feature_objt‑1,k表权　利　要　求　书 1/3 页 2 CN 115512139 A 2示每个目标前景块的128维特征值；将t帧图像按照32 ×32的窗口，水平方向和垂直方向步长分别为1进行滑动操作，将每个窗口分别输入到块特征提取网络中得到每个窗口的128维特征值，表示为： featuret＝[F1,1[0:128],F1,2[0:128], …FW‑31,H‑31[0:128]] 其中， Fi,j表示水平方向第i、垂直方向第j个窗口的特征向量； featuret表示每个窗口的 128维特征值。 5.根据权利要求4所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S6中将t帧图像输入到ResNet50特征提取网络输出的特征金字塔 FPNt，表示为： FPNt＝[P1′,P2′,P3′,P4′,P5′] 其中， P1′～P5′分别表示第1～5层的特征图，尺寸分别为用t‑1帧图像的特征图P2和t帧图像的特征图P2 ′构建关联代价矩阵，用关联代价矩阵计算出每个目标在特征图上的第二水平偏移量和第二垂直偏移量 6.根据权利要求5所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S7具体为： S71.分别将第一水平偏移量、第一垂直偏移与第二水平偏移量、第二垂直偏移量映射回原图中；其中第一水平偏移量和第一垂直偏移中特征图相对于原图的下采样倍率为32，表示为(Offset_Xk×32， Offset_Yk×32)；第二水平偏移量和第二垂直偏移量中特征图相对于原图的下采样倍率为8，表示为(Offset_Xk′ ×8， Offset_Yk′ ×8)； S72.对第一水平偏移量、第一垂直偏移与第二水平偏移量、第二垂直偏移量，表示为：其中， Offset_Xk表示第一水平偏移量； Offset_Yk表示第一垂直偏移量； α表示变量； off_xk， off_yk表示每个目标的运动偏移量。 7.根据权利要求6所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S8具体为： S81.将t‑1帧图像特征图上的目标特征加到t帧特征图上，得到增强后的目标特征； S82.采用可变形卷积提取增强后的目标特征，得到目标的前景特征； S83.将得到的目标前景特征输入到MaskRCNN全卷积神经网络中，得到t帧目标的掩膜和目标框输出； S84.重复步骤S 81‑S84，直到所有目标特征完成处理，进而实现对目标的连续跟踪。 8.根据权利要求7所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S4中块特征提取网络总共有7层，包括5 ×5卷积核组成的卷积层、最大池化层、 5 ×5卷积核组成的卷积层、最大池化层、两个全连接层。 9.根据权利要求8所述的基于特征模板匹配与最大相似度求偏移的多目标跟踪方法，其特征在于，所述步骤S5中特征向量进行模板匹配具体为：将t‑1帧每个目标的个块特征向量与t帧图像中对应的个的块特征向量权　利　要　求　书 2/3 页 3 CN 115512139 A 3

专利 基于特征模板匹配与最大相似度求偏移的多目标跟踪方法

专利基于特征模板匹配与最大相似度求偏移的多目标跟踪方法