(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211021964.5
(22)申请日 2022.08.24
(71)申请人 北京字跳网络技 术有限公司
地址 100190 北京市海淀区紫金 数码园4号
楼2层0207
(72)发明人 张飞 黄泽 李宏亮
(74)专利代理 机构 北京英创嘉友知识产权代理
事务所(普通 合伙) 11447
专利代理师 曹寒梅
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/74(2022.01)
G06V 30/148(2022.01)
G06F 16/783(2019.01)
(54)发明名称
视频识别方法、 装置、 介质及电子设备
(57)摘要
本公开涉及一种视频识别方法、 装置、 介质
及电子设备, 所述方法包括: 对待识别的目标视
频进行特征提取, 获得目标视频在多个模态维度
下的维度特征; 针对每一模态维度, 基于所述模
态维度下的维度特征在视频数据库中检索, 确定
所述目标视频在所述模态维度下对应的候选视
频; 针对每一所述候选视频, 确定与所述候选视
频对应的模态维度下、 所述候选视频和所述目标
视频对应的维度匹配度; 针对每一所述候选视
频, 根据所述模态维度下所述候选视频对应的维
度匹配度和所述模态维度对应的权重, 确定所述
候选视频与所述目标视频之间的综合匹配度; 若
存在综合匹配度大于或等于预设的匹配度阈值
的候选视频, 则将该候选视频确定为所述目标视
频对应的已发布视频。
权利要求书3页 说明书17页 附图7页
CN 115359400 A
2022.11.18
CN 115359400 A
1.一种视频识别方法, 其特 征在于, 所述方法包括:
对待识别的目标视频进行特征提取, 获得所述目标视频在多个模态维度下的维度特
征;
针对每一所述模态维度, 基于所述模态维度下的维度特征在视频数据库中检索, 确定
所述目标视频在所述模态维度下对应的候选视频; 其中, 所述视频数据库中存储有多个已
发布视频;
针对每一所述候选视频, 确定与所述候选视频对应的模态维度下、 所述候选视频和所
述目标视频对应的维度匹配度;
针对每一所述候选视频, 根据 所述模态维度 下所述候选视频对应的维度匹配度和所述
模态维度对应的权 重, 确定所述 候选视频与所述目标视频之间的综合匹配度;
若存在综合匹配度大于或等于预设的匹配度阈值的候选视频, 则将该候选视频确定为
所述目标视频对应的已发布视频。
2.根据权利要求1所述的方法, 其特征在于, 在所述模态维度包括音频和/或图像的情
况下, 所述对待识别的目标视频进行特征提取, 获得所述 目标视频在多个模态维度下 的维
度特征, 包括:
获取所述目标视频在所述模态维度下的视频分量;
对所述视频分量进行采样处 理, 获得所述目标视频在所述模态维度下的检测帧集 合;
对所述检测帧集合中的每一检测帧分别进行特征提取, 以获得所述模态维度 下的所述
维度特征。
3.根据权利要求2所述的方法, 其特征在于, 所述基于所述模态维度下的维度 特征在视
频数据库中检索, 确定所述目标视频在所述模态维度下对应的候选 视频, 包括:
针对所述模态维度下的每一检测帧, 确定所述检测帧与 各个所述已发布视频的对比帧
的相似度;
针对每一所述检测帧, 根据所述检测帧与每一所述对比帧的相似度, 从所述对比帧中
确定与所述检测帧对应的候选帧;
对所述候选帧所属的已发布视频进行去重后所得的各个视频确定为模态维度下对应
的所述候选视频。
4.根据权利要求2所述的方法, 其特征在于, 所述确定与 所述候选视频对应的模态维度
下、 所述候选视频和所述目标视频对应的维度匹配度, 包括:
针对所述 候选视频对应的每一模态维度, 执 行以下操作:
获取所述候选视频的对比帧在所述模态维度下的对比特 征;
计算所述对比特 征与所述目标视频在所述模态维度下的维度特 征之间的相似度矩阵;
依次遍历所述相似度矩阵中的目标阶子方阵, 确定各个所述目标阶子方阵对应的最大
迹, 并将所述最大迹与所述目标阶的比值确定为所述 维度匹配度, 其中, 所述目标阶为所述
候选视频的对比帧的数量和所述目标视频的检测帧的数量中的小者。
5.根据权利要求1所述的方法, 其特征在于, 在所述模态维度包括语音播报文本和/或
字幕文本的情况下, 所述确定与所述候选视频对应的模态维度下、 所述候选视频和所述 目
标视频对应的维度匹配度, 包括:
计算所述模态维度下的所述候选视频的文本和所述目标视频的文本之间的最短编辑权 利 要 求 书 1/3 页
2
CN 115359400 A
2距离;
将所述最短编辑距离与所述目标视频的文本的文本长度之间的小者、 和所述文本长度
之间的比值确定为文本差异度, 并将以一减去 所述文本差异度所得数值确定为所述 维度匹
配度。
6.根据权利要求1所述的方法, 其特征在于, 所述视频数据库中存储有多个已发布视频
在多个候选维度下 的对比特征, 所述候选维度包括音频、 图像、 语音播报文本和字幕文本;
所述对比特 征通过如下 方式确定:
获取所述已发布视频对应的图像分量和音频分量;
对所述图像分量进行抽帧采样处理, 获得图像维度下的对比帧集合, 并对所述图像维
度下的对比帧集合的每一对比帧分别进行图像特征提取, 以获得所述图像维度下的对比特
征;
对所述图像维度 下的对比帧集合的每一对比帧分别进行光学字符识别, 以获得字幕文
本维度下的对比特 征;
对所述音频分量进行分帧采样处理, 获得音频维度下的对比帧集合, 并对所述音频维
度下的对比帧集合的每一对比帧分别进行音频特征提取, 以获得所述音频维度下的对比特
征;
对所述音频维度 下的对比帧集合的每一对比帧分别进行自动语音识别, 以获得语音播
报文本维度下的对比特 征。
7.根据权利要求1所述的方法, 其特征在于, 所述根据所述模态维度下所述候选视频对
应的维度匹配度和所述模态维度对应的权重, 确定所述候选视频与所述目标视频之 间的综
合匹配度, 包括:
根据每一所述模态维度对应的权重对所述候选视频在所述模态维度下的对应的维度
匹配度进行加权求和, 获得 所述综合匹配度, 其中, 所述多个模态维度对应的权 重之和为1。
8.一种视频识别装置, 其特 征在于, 所述装置包括:
提取模块, 用于对待识别的目标视频进行特征提取, 获得所述目标视频在多个模态维
度下的维度特 征;
检索模块, 用于针对每一所述模态维度, 基于所述模态维度下的维度特征在视频数据
库中检索, 确定所述目标视频在所述模态维度下对应的候选视频; 其中, 所述视频数据库中
存储有多个已发布视频;
第一确定模块, 用于针对每一所述候选视频, 确定与所述候选视频对应的模态维度 下、
所述候选视频和所述目标视频对应的维度匹配度;
第二确定模块, 用于针对每一所述候选视频, 根据所述模态维度下所述候选视频对应
的维度匹配度和所述模态维度对应的权重, 确定所述候选视频与所述目标视频之 间的综合
匹配度;
识别模块, 用于若存在综合匹配度大于或等于预设的匹配度阈值的候选视频, 则将该
候选视频确定为所述目标视频对应的已发布视频。
9.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 该程序被处理装置执行
时实现权利要求1 ‑7中任一项所述方法的步骤。
10.一种电子设备, 其特 征在于, 包括:权 利 要 求 书 2/3 页
3
CN 115359400 A
3
专利 视频识别方法、装置、介质及电子设备
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:31:31上传分享