(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210749546.1
(22)申请日 2022.06.29
(71)申请人 上海商汤智能科技有限公司
地址 200233 上海市徐汇区桂平路391号3
号楼1605A室
(72)发明人 刘兆洋 林锦涛 吴文岩 王文海
钱晨 王利民
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 董文俊
(51)Int.Cl.
G06V 20/40(2022.01)
G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
(54)发明名称
视频分类方法及 装置、 电子设备及计算机可
读存储介质
(57)摘要
本申请公开了一种视频分类方法及装置、 电
子设备及计算机可读存储介质。 该方法包括: 获
取待处理视频和至少一个第一文本特征; 所述至
少一个第一文本特征携带用于描述至少一个第
一类别的语义信息; 对所述待处理视频进行特征
提取处理, 得到第一视频特征; 对所述第一视频
特征和所述至少一个第一文本特征进行融合, 得
到第一融合特征; 根据所述第一融合特征, 对所
述待处理视频进行分类, 得到所述待处理视频的
第二类别。
权利要求书4页 说明书32页 附图2页
CN 115063726 A
2022.09.16
CN 115063726 A
1.一种视频分类方法, 其特 征在于, 所述方法包括:
获取待处理视频和至少一个第 一文本特征; 所述至少一个第 一文本特征携带用于描述
至少一个第一类别的语义信息;
对所述待处 理视频进行 特征提取处 理, 得到第一视频 特征;
对所述第一视频 特征和所述至少一个第一文本特 征进行融合, 得到第一融合特 征;
根据所述第一融合特征, 对所述待处理视频进行分类, 得到所述待处理视频的第二类
别。
2.根据权利要求1所述的方法, 其特征在于, 在所述第一文本特征的数量大于1的情况
下, 所述至少一个第一文本特 征包括第二文本特 征和第三文本特 征;
在所述对所述待处理视频进行特征提取处理, 得到第一视频特征之后, 以及在所述对
所述第一视频特征和所述至少一个第一文本特征进行融合, 得到第一融合特征之前, 所述
方法还包括:
获取所述第 二文本特征与 所述第一视频特征的第 一相似度、 所述第 三文本特征与 所述
第一视频 特征的第二相似度;
根据所述第 一相似度和所述第 二相似度, 得到所述第 二文本特征的第 一权值和所述第
三文本特征 的第二权值; 在所述第一相似度大于所述第二相似度的情况下, 所述第一权值
大于所述第二权值; 在所述第一相似度等于所述第二相似度的情况下, 所述第一权值等于
所述第二权值;
所述对所述第一视频特征和所述至少一个第一文本特征进行融合, 得到第一融合特
征, 包括:
根据所述第 一权值和所述第 二权值, 对所述第 二文本特征和所述第 三文本特征进行加
权融合, 得到第二融合特 征;
对所述第二融合特 征和所述第一视频 特征进行融合, 得到所述第一融合特 征。
3.根据权利要求1或2所述的方法, 其特征在于, 所述根据所述第一融合特征, 对所述待
处理视频进行分类, 得到所述待处 理视频的第二类别, 包括:
根据所述第 一融合特征, 预测所述待处理视频的第 三类别和所述第 三类别的第 一置信
度; 所述第三类别属于所述至少一个第一类别;
在所述第一置信度小于或等于置信度阈值的情况下, 确定所述待处理视频的第 二类别
为除所述至少一个第一类别之外的类别;
在所述第一置信度大于所述置信度阈值的情况下, 确定所述第三类别为所述第二类
别。
4.根据权利要求1至3中任意一项所述的方法, 其特征在于, 所述获取至少一个第一文
本特征, 包括:
获取至少一个第四文本特征和所述至少一个第四文本特征的第 二置信度; 所述第 二置
信度表征所述第四文本特征携带的语义信息描述所述第四文本特征所对应的所述第一类
别的准确度;
从所述至少一个第四文本特征中, 确定与 各个所述第 一类别对应的所述第 二置信度最
高的n个所述第四文本特 征, 得到所述至少一个第一文本特 征。
5.根据权利要求1至4中任意一项所述的方法, 其特征在于, 所述对所述待处理视频进权 利 要 求 书 1/4 页
2
CN 115063726 A
2行特征提取处 理, 得到第一视频 特征, 包括:
对所述待处理视频中的至少一帧待处理图像进行特征提取处理, 得到所述至少一帧待
处理图像的帧特 征;
对所述至少一帧待处理图像的帧特征和所述至少一帧待处理图像的时间戳信息进行
融合, 得到所述第一视频 特征。
6.根据权利要求1至5中任意一项所述的方法, 其特征在于, 所述视频分类方法通过视
频分类网络实现, 所述视频分类网络包括视频编码模块;
所述对所述待处 理视频进行 特征提取处 理, 得到第一视频 特征, 包括:
通过所述视频编码模块对所述待处 理视频进行 特征提取处 理, 得到第一视频 特征;
所述视频分类方法还 包括所述视频分类网络的训练过程:
获取第一训练视频;
通过所述视频编码模块对所述第一训练视频进行 特征提取处 理, 得到第二视频 特征;
对所述第二视频 特征和所述至少一个第一文本特 征进行融合, 得到第三融合特 征;
根据所述第三融合特 征, 得到所述第一训练视频的第四类别;
根据所述第四类别和所述第 一训练视频的标签的第 一差异, 得到所述视频分类网络的
第一损失;
根据所述第一损失, 更新所述视频分类网络的参数, 得到所述视频分类网络 。
7.根据权利要求6所述的方法, 其特征在于, 所述根据所述第一损 失, 更新所述视频分
类网络的参数, 包括:
根据所述第一损失, 更新所述视频分类网络中除所述视频编码模块的参数之外的参
数;
所述视频编码模块通过对视频分类训练网络训练得到, 所述视频分类训练网络包括所
述视频编码模块;
所述视频分类方法还 包括视频分类训练网络的训练过程:
获取第二训练视频和至少两个第 一训练文本; 所述至少两个第 一训练文本的标签包括
至少两个第五类别, 且所述至少 两个第一训练文本的标签包括所述至少一个第一类别; 所
述至少两个第一训练文本包括第二训练文本, 所述第二训练文本的所述第五类别与所述第
二训练视频的第六类别相同;
通过所述视频编码模块对所述第二训练视频进行 特征提取处 理, 得到第三视频 特征;
根据所述第 三视频特征与 所述第二训练文本的第 三相似度, 得到所述视频分类训练网
络的第二损失; 所述第二损失与所述第三相似度呈负相关;
根据所述第二损失, 更新所述视频分类训练网络的参数, 得到所述视频分类训练网络 。
8.根据权利要求7所述的方法, 其特征在于, 所述至少两个第 一训练文本还包括第 三训
练文本, 所述第三训练文本所描述的所述第五类别与所述第六类别不同;
在所述根据所述第 三视频特征与 所述第二训练文本的第 三相似度, 得到所述视频分类
训练网络的第二损失之前, 所述方法还 包括:
确定所述第三视频 特征与所述第三训练文本的第四相似度;
所述根据 所述第三视频特征与所述第 二训练文本的第 三相似度, 得到所述视频分类训
练网络的第二损失, 包括:权 利 要 求 书 2/4 页
3
CN 115063726 A
3
专利 视频分类方法及装置、电子设备及计算机可读存储介质
文档预览
中文文档
39 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共39页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:56上传分享