专利 视频的处理方法、装置、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210877964.9 (22)申请日 2022.07.25 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人熊鹏飞　梁健豪　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 专利代理师王花丽　蒋雅洁 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01) (54)发明名称视频的处理方法、装置、设备及存储介质 (57)摘要本申请提供了一种视频的处理方法、装置、设备、存储介质及计算机程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；方法包括：将待处理视频中的各个图像帧，分别划分为第一数量的第一图像块；针对待处理视频中的目标图像帧，获取参考图像帧与目标图像帧间的距离，并基于距离，将参考图像帧划分为第二数量的第二图像块，第二数量与距离负相关；针对目标图像帧中的各第一图像块，以目标图像帧以及参考图像帧包括的第二图像块为参考，对第一图像块进行特征提取，得到第一图像块的图像块特征；对各图像帧包括的第一图像块的图像块特征进行特征聚合，得到视频的视频特征；通过本申请，能够提高视频特征的提取效率。权利要求书3页说明书17页附图6页 CN 115223083 A 2022.10.21 CN 115223083 A 1.一种视频的处理方法，其特征在于，所述方法包括：将待处理视频中的各个图像帧，分别划分为第一数量的第一图像块；针对所述待处理视频中的目标图像帧，获取参考图像帧与所述目标图像帧间的距离，并基于所述距离，将所述参考图像帧划分为第二数量的第二图像块；其中，所述参考图像帧，为所述待处理视频中除所述目标图像帧之外的图像帧，所述第二数量与所述距离负相关；针对所述目标图像帧中的各所述第一图像块，以所述目标图像帧以及所述参考图像帧包括的第二图像块为参考，对所述第一图像块进行特征提取，得到所述第一图像块的图像块特征；对各所述图像帧包括的第一图像块的图像块特征进行特征聚合，得到所述待处理视频的视频特征。 2.如权利要求1所述的方法，其特征在于，所述获取参考图像帧与所述目标图像帧间的距离，包括：获取所述参考图像帧与所述目标图像帧之间的图像帧的帧数量，并将所述帧数量作为所述参考图像帧与所述目标图像帧间的距离。 3.如权利要求1所述的方法，其特征在于，所述获取参考图像帧与所述目标图像帧间的距离，包括：获取所述参考图像帧的播放时间点、与所述目标图像帧的播放时间点间的时间间隔，并将所述时间间隔作为所述参考图像帧与所述目标图像帧间的距离。 4.如权利要求1所述的方法，其特征在于，所述基于所述距离，将所述参考图像帧划分为第二数量的第二图像块之前，所述方法还包括：获取距离和划分数量间的映射关系，所述划分数量，用于所述参考图像帧的划分；基于所述距离以及所述映射关系，确定所述距离对应的目标划分数量，并将所述目标划分数量作为所述第二数量。 5.如权利要求1所述的方法，其特征在于，所述基于所述距离，将所述参考图像帧划分为第二数量的第二图像块之前，所述方法还包括：获取所述参考图像帧对应的多个距离区间，每个所述距离区间关联有相应的划分数量，所述划分数量，用于所述参考图像帧的划分；从所述多个距离区间中，确定所述距离所处的目标距离区间，并将所述目标距离区间对应的划分数量作为所述第二数量。 6.如权利要求1所述的方法，其特征在于，所述以所述目标图像帧以及所述参考图像帧包括的第二图像块为参考，对所述第一图像块进行特征提取，得到所述第一图像块的图像块特征，包括：获取所述目标图像帧包括的第一图像块的块向量，并获取所述参考图像帧包括的第二图像块的块向量；分别确定各所述块向量与所述第一图像块的块向量之间的向量相似度；基于各所述块向量对应的向量相似度，对多个所述块向量进行第一聚合处理，得到所述第一图像块的聚合特征；将所述第一图像块的块向量和所述聚合特征进行第二聚合处理，得到所述第一图像块权　利　要　求　书 1/3 页 2 CN 115223083 A 2的图像块特征。 7.如权利要求6所述的方法，其特征在于，所述基于各所述块向量对应的向量相似度，对多个所述块向量进行第一聚合处理，得到所述第一图像块的聚合特征，包括：对各所述块向量对应的向量相似度进行归一化处理，并将处理得到的结果作为相应块向量的向量权重；基于各所述块向量的向量权重，对多个所述块向量进行加权求和处理，得到所述第一图像块的聚合特征。 8.如权利要求6所述的方法，其特征在于，所述块向量包括查询向量、键向量以及值向量；所述分别确定各所述块向量与所述第一图像块的块向量之间的向量相似度，包括：分别确定各所述图像块的键向量、与所述第一图像块的查询向量之间的相似度，并将所述相似度作为所述向量相似度；所述基于各所述块向量对应的向量相似度，对多个所述块向量进行第一聚合处理，得到所述第一图像块的聚合特征，包括：基于各所述块向量对应的向量相似度，对多个所述值向量进行第一聚合处理，得到所述第一图像块的聚合特征。 9.如权利要求6所述的方法，其特征在于，所述块向量包括查询向量、键向量以及值向量；所述获取所述参考图像帧包括的第二图像块的块向量，包括：将所述参考图像帧包括的第二图像块进行向量转换，得到所述第二图像块的图像块向量；对所述图像块向量进行线性投影处理，得到所述第二图像块的第一中间查询向量、第一中间键向量以及第一中间值向量；对所述第一中间查询向量进行第一池化处理，得到所述查询向量；对所述第一中间键向量进行第二池化处理，并基于所述距离，对所述第二池化处理得到的结果进行处理，得到所述键向量；对所述第一中间值向量进行第三池化处理，并基于所述距离，对所述第三池化处理得到的结果进行处理，得到所述值向量。 10.如权利要求9所述的方法，其特征在于，所述基于所述距离，对所述第二池化处理得到的结果进行处理，得到所述键向量，包括：当所述距离达到距离阈值时，对所述第二池化处理得到的结果进行第一特征提取处理，得到所述键向量；当所述距离未达到所述距离阈值时，对所述第二池化处理得到的结果进行第二特征提取处理，得到所述键向量；其中，所述第一特征提取处理所得到的特征的稠密程度，低于所述第二特征提取处理所得到的特征的稠密程度。 11.如权利要求1所述的方法，其特征在于，所述以所述目标图像帧以及所述参考图像帧包括的第二图像块为参考，对所述第一图像块进行特征提取，得到所述第一图像块的图像块特征，包括：以所述目标图像帧以及所述参考图像帧包括的第二图像块为参考，对所述第一图像块进行至少两次的特征提取，得到每次特征提取所得到的中间图像块特征；权　利　要　求　书 2/3 页 3 CN 115223083 A 3

专利 视频的处理方法、装置、设备及存储介质

专利视频的处理方法、装置、设备及存储介质