专利 视频识别方法、装置、介质及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211021964.5 (22)申请日 2022.08.24 (71)申请人北京字跳网络技术有限公司地址 100190 北京市海淀区紫金数码园4号楼2层0207 (72)发明人张飞　黄泽　李宏亮　 (74)专利代理机构北京英创嘉友知识产权代理事务所(普通合伙) 11447 专利代理师曹寒梅 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/74(2022.01) G06V 30/148(2022.01) G06F 16/783(2019.01) (54)发明名称视频识别方法、装置、介质及电子设备 (57)摘要本公开涉及一种视频识别方法、装置、介质及电子设备，所述方法包括：对待识别的目标视频进行特征提取，获得目标视频在多个模态维度下的维度特征；针对每一模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。权利要求书3页说明书17页附图7页 CN 115359400 A 2022.11.18 CN 115359400 A 1.一种视频识别方法，其特征在于，所述方法包括：对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。 2.根据权利要求1所述的方法，其特征在于，在所述模态维度包括音频和/或图像的情况下，所述对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征，包括：获取所述目标视频在所述模态维度下的视频分量；对所述视频分量进行采样处理，获得所述目标视频在所述模态维度下的检测帧集合；对所述检测帧集合中的每一检测帧分别进行特征提取，以获得所述模态维度下的所述维度特征。 3.根据权利要求2所述的方法，其特征在于，所述基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频，包括：针对所述模态维度下的每一检测帧，确定所述检测帧与各个所述已发布视频的对比帧的相似度；针对每一所述检测帧，根据所述检测帧与每一所述对比帧的相似度，从所述对比帧中确定与所述检测帧对应的候选帧；对所述候选帧所属的已发布视频进行去重后所得的各个视频确定为模态维度下对应的所述候选视频。 4.根据权利要求2所述的方法，其特征在于，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度，包括：针对所述候选视频对应的每一模态维度，执行以下操作：获取所述候选视频的对比帧在所述模态维度下的对比特征；计算所述对比特征与所述目标视频在所述模态维度下的维度特征之间的相似度矩阵；依次遍历所述相似度矩阵中的目标阶子方阵，确定各个所述目标阶子方阵对应的最大迹，并将所述最大迹与所述目标阶的比值确定为所述维度匹配度，其中，所述目标阶为所述候选视频的对比帧的数量和所述目标视频的检测帧的数量中的小者。 5.根据权利要求1所述的方法，其特征在于，在所述模态维度包括语音播报文本和/或字幕文本的情况下，所述确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度，包括：计算所述模态维度下的所述候选视频的文本和所述目标视频的文本之间的最短编辑权　利　要　求　书 1/3 页 2 CN 115359400 A 2距离；将所述最短编辑距离与所述目标视频的文本的文本长度之间的小者、和所述文本长度之间的比值确定为文本差异度，并将以一减去所述文本差异度所得数值确定为所述维度匹配度。 6.根据权利要求1所述的方法，其特征在于，所述视频数据库中存储有多个已发布视频在多个候选维度下的对比特征，所述候选维度包括音频、图像、语音播报文本和字幕文本；所述对比特征通过如下方式确定：获取所述已发布视频对应的图像分量和音频分量；对所述图像分量进行抽帧采样处理，获得图像维度下的对比帧集合，并对所述图像维度下的对比帧集合的每一对比帧分别进行图像特征提取，以获得所述图像维度下的对比特征；对所述图像维度下的对比帧集合的每一对比帧分别进行光学字符识别，以获得字幕文本维度下的对比特征；对所述音频分量进行分帧采样处理，获得音频维度下的对比帧集合，并对所述音频维度下的对比帧集合的每一对比帧分别进行音频特征提取，以获得所述音频维度下的对比特征；对所述音频维度下的对比帧集合的每一对比帧分别进行自动语音识别，以获得语音播报文本维度下的对比特征。 7.根据权利要求1所述的方法，其特征在于，所述根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度，包括：根据每一所述模态维度对应的权重对所述候选视频在所述模态维度下的对应的维度匹配度进行加权求和，获得所述综合匹配度，其中，所述多个模态维度对应的权重之和为1。 8.一种视频识别装置，其特征在于，所述装置包括：提取模块，用于对待识别的目标视频进行特征提取，获得所述目标视频在多个模态维度下的维度特征；检索模块，用于针对每一所述模态维度，基于所述模态维度下的维度特征在视频数据库中检索，确定所述目标视频在所述模态维度下对应的候选视频；其中，所述视频数据库中存储有多个已发布视频；第一确定模块，用于针对每一所述候选视频，确定与所述候选视频对应的模态维度下、所述候选视频和所述目标视频对应的维度匹配度；第二确定模块，用于针对每一所述候选视频，根据所述模态维度下所述候选视频对应的维度匹配度和所述模态维度对应的权重，确定所述候选视频与所述目标视频之间的综合匹配度；识别模块，用于若存在综合匹配度大于或等于预设的匹配度阈值的候选视频，则将该候选视频确定为所述目标视频对应的已发布视频。 9.一种计算机可读介质，其上存储有计算机程序，其特征在于，该程序被处理装置执行时实现权利要求1 ‑7中任一项所述方法的步骤。 10.一种电子设备，其特征在于，包括：权　利　要　求　书 2/3 页 3 CN 115359400 A 3

专利 视频识别方法、装置、介质及电子设备

专利视频识别方法、装置、介质及电子设备