(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210635182.4
(22)申请日 2022.06.06
(71)申请人 上海商汤智能科技有限公司
地址 200233 上海市徐汇区桂平路391号3
号楼1605A室
(72)发明人 李帅成 杨昆霖 侯军 伊帅
(74)专利代理 机构 北京林达刘知识产权代理事
务所(普通 合伙) 11277
专利代理师 刘新宇
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/774(2022.01)
G06V 10/74(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
(54)发明名称
高光视频识别方法及 装置、 电子设备和存储
介质
(57)摘要
本公开涉及一种高光视频识别方法及 装置、
电子设备和存储介质, 所述方法应用于识别网
络, 包括: 提取待识别视频的视频特征, 其中, 所
述待识别视频包括多个按时序排列的视频片段,
每个所述视频片段包括至少一个视频子特征; 基
于多个所述视频片段的视频子特征进行高光视
频的识别, 得到识别结果; 其中, 所述识别网络基
于特征空间中相同标签的视频片段的视频子特
征之间的第一距离, 以及不同标签的视频片段的
视频子特征之间的第二距离进行参数更新, 以使
更新后的识别网络输出的相同标签的视频片段
的视频子 特征之间的距离小于更新前的距离, 不
同标签的视频片段的视频子特征之间的距离大
于更新前的距离。 本公开实施例可提高高光视频
识别的准确率。
权利要求书2页 说明书22页 附图4页
CN 114998797 A
2022.09.02
CN 114998797 A
1.一种高光视频识别方法, 其特 征在于, 应用于识别网络, 包括:
提取待识别视频的视频特征, 其中, 所述待识别视频包括多个按时序排列的视频片段,
每个所述视频片段包括至少一个视频子特 征;
基于多个所述视频片段的视频子特 征进行高光视频的识别, 得到识别结果;
其中, 所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第 一距
离, 以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新, 以使更新后的
识别网络输出的相同标签的视频片段的视频子特征之 间的距离小于更新前的距离, 不同标
签的视频片段的视频子特 征之间的距离大于更新前的距离 。
2.根据权利要求1所述的方法, 其特征在于, 基于特征空间中相同标签的视频片段的视
频子特征之 间的第一距离, 以及不同标签的视频片段的视频子特征之 间的第二距离进 行参
数更新, 包括:
根据所述第一距离和第二距离, 确定所述识别网络的第 一损失, 其中, 所述第 一损失与
所述第一距离正相关, 所述第一损失与所述第二距离负相关;
基于所述第一损失, 更新所述识别网络的参数, 以使所述第一损失变小。
3.根据权利要求1 ‑2任一所述的方法, 其特 征在于, 所述方法还 包括:
确定所述视频片段中, 高光视频片段与非高光视频片段的邻接处;
基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距
离, 更新所述识别网络的参数, 使得所述识别网络输出 的所述高光视频片段与非高光视频
片段的视频子特 征之间的距离, 大于更新前的距离 。
4.根据权利要求3所述的方法, 其特征在于, 所述待识别视频为样本视频, 所述视频片
段标注有用于表征视频片段 是否属于高光的标签;
所述确定所述视频片段中, 高光视频片段与非高光视频片段的邻接处, 包括:
基于所述视频片段的标签, 确定高光视频片段与非高光视频片段的邻接处;
基于所述邻接处前后的高光视频片段与非高光视频片段, 构建正负 样本对。
5.根据权利要求3 ‑4任一所述的方法, 其特征在于, 所述基于所述邻 接处前后的高光视
频片段与非高光视频片段的视频子特 征之间的第三距离, 更新所述识别网络的参数, 包括:
基于所述邻 接处前后的多个 高光视频片段和多个非高光视频片段, 构建多个正负样本
对, 单个所述 正负样本对中包 含一个所述高光视频片段和一个所述非高光视频片段;
根据每个正负样本对中, 高光视频片段与非高光视频片段的视频子特征之间的第 三距
离, 确定所述识别网络的第二损失, 所述第二损失与所述第三距离负相关;
基于所述第二损失, 更新所述识别网络的参数, 以使所述第二损失变小。
6.根据权利要求1 ‑5任一所述的方法, 其特征在于, 所述待识别视频为样本视频, 所述
视频片段 标注有用于表征视频片段 是否属于高光的标签, 所述方法还 包括:
基于所述识别结果与所述视频片段的标签之间的差异, 确定第三损失;
基于所述第三损 失, 更新所述识别网络的参数, 以使得所述识别网络输出的识别结果
与标签一 致。
7.根据权利要求6所述的方法, 其特 征在于, 所述更新所述识别网络的参数, 包括:
对所述第一损失、 第二损失和第三损失中的至少两种进行加权求和, 得到目标损失;
基于所述目标损失, 更新所述识别网络, 以使所述目标损失变小。权 利 要 求 书 1/2 页
2
CN 114998797 A
28.根据权利要求1 ‑7任一所述的方法, 其特 征在于, 提取待识别视频的视频 特征, 包括:
获取所述待识别视频的视觉特征、 音频特征和所述视觉特征与音频特征编码后的拼接
特征; 其中, 每 个所述视频片段对应至少一个视 觉子特征、 音频子特 征以及拼接 子特征;
对所述视觉特征、 音频特征和拼接特征进行融合, 得到视频特征, 其中, 每个所述视频
片段对应的至少一个视 觉子特征、 音频子特 征以及拼接 子特征, 融合得到所述视频子特 征。
9.一种高光视频识别装置, 其特 征在于, 包括:
提取模块, 用于提取待识别视频的视频特征, 其中, 所述待识别视频包括多个按时序排
列的视频片段, 每 个所述视频片段包括至少一个视频子特 征;
识别模块, 用于基于多个所述视频片段的视频子特征进行高光视频的识别, 得到识别
结果;
其中, 所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第 一距
离, 以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新, 以使更新后的
识别网络输出的相同标签的视频片段的视频子特征之 间的距离小于更新前的距离, 不同标
签的视频片段的视频子特 征之间的距离大于更新前的距离 。
10.一种电子设备, 其特 征在于, 包括:
处理器;
用于存储处理器可执行指令的存 储器;
其中, 所述处理器被配置为调用所述存储器存储的指令, 以执行权利要求1至8中任意
一项所述的方法。
11.一种计算机可读存储介质, 其上存储有计算机程序指令, 其特征在于, 所述计算机
程序指令被处 理器执行时实现权利要求1至8中任意 一项所述的方法。权 利 要 求 书 2/2 页
3
CN 114998797 A
3
专利 高光视频识别方法及装置、电子设备和存储介质
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:01上传分享