专利 视频分类方法及装置、电子设备及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210749546.1 (22)申请日 2022.06.29 (71)申请人上海商汤智能科技有限公司地址 200233 上海市徐汇区桂平路391号3 号楼1605A室 (72)发明人刘兆洋　林锦涛　吴文岩　王文海　钱晨　王利民　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师董文俊 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01) G06V 10/774(2022.01) (54)发明名称视频分类方法及装置、电子设备及计算机可读存储介质 (57)摘要本申请公开了一种视频分类方法及装置、电子设备及计算机可读存储介质。该方法包括：获取待处理视频和至少一个第一文本特征；所述至少一个第一文本特征携带用于描述至少一个第一类别的语义信息；对所述待处理视频进行特征提取处理，得到第一视频特征；对所述第一视频特征和所述至少一个第一文本特征进行融合，得到第一融合特征；根据所述第一融合特征，对所述待处理视频进行分类，得到所述待处理视频的第二类别。权利要求书4页说明书32页附图2页 CN 115063726 A 2022.09.16 CN 115063726 A 1.一种视频分类方法，其特征在于，所述方法包括：获取待处理视频和至少一个第一文本特征；所述至少一个第一文本特征携带用于描述至少一个第一类别的语义信息；对所述待处理视频进行特征提取处理，得到第一视频特征；对所述第一视频特征和所述至少一个第一文本特征进行融合，得到第一融合特征；根据所述第一融合特征，对所述待处理视频进行分类，得到所述待处理视频的第二类别。 2.根据权利要求1所述的方法，其特征在于，在所述第一文本特征的数量大于1的情况下，所述至少一个第一文本特征包括第二文本特征和第三文本特征；在所述对所述待处理视频进行特征提取处理，得到第一视频特征之后，以及在所述对所述第一视频特征和所述至少一个第一文本特征进行融合，得到第一融合特征之前，所述方法还包括：获取所述第二文本特征与所述第一视频特征的第一相似度、所述第三文本特征与所述第一视频特征的第二相似度；根据所述第一相似度和所述第二相似度，得到所述第二文本特征的第一权值和所述第三文本特征的第二权值；在所述第一相似度大于所述第二相似度的情况下，所述第一权值大于所述第二权值；在所述第一相似度等于所述第二相似度的情况下，所述第一权值等于所述第二权值；所述对所述第一视频特征和所述至少一个第一文本特征进行融合，得到第一融合特征，包括：根据所述第一权值和所述第二权值，对所述第二文本特征和所述第三文本特征进行加权融合，得到第二融合特征；对所述第二融合特征和所述第一视频特征进行融合，得到所述第一融合特征。 3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一融合特征，对所述待处理视频进行分类，得到所述待处理视频的第二类别，包括：根据所述第一融合特征，预测所述待处理视频的第三类别和所述第三类别的第一置信度；所述第三类别属于所述至少一个第一类别；在所述第一置信度小于或等于置信度阈值的情况下，确定所述待处理视频的第二类别为除所述至少一个第一类别之外的类别；在所述第一置信度大于所述置信度阈值的情况下，确定所述第三类别为所述第二类别。 4.根据权利要求1至3中任意一项所述的方法，其特征在于，所述获取至少一个第一文本特征，包括：获取至少一个第四文本特征和所述至少一个第四文本特征的第二置信度；所述第二置信度表征所述第四文本特征携带的语义信息描述所述第四文本特征所对应的所述第一类别的准确度；从所述至少一个第四文本特征中，确定与各个所述第一类别对应的所述第二置信度最高的n个所述第四文本特征，得到所述至少一个第一文本特征。 5.根据权利要求1至4中任意一项所述的方法，其特征在于，所述对所述待处理视频进权　利　要　求　书 1/4 页 2 CN 115063726 A 2行特征提取处理，得到第一视频特征，包括：对所述待处理视频中的至少一帧待处理图像进行特征提取处理，得到所述至少一帧待处理图像的帧特征；对所述至少一帧待处理图像的帧特征和所述至少一帧待处理图像的时间戳信息进行融合，得到所述第一视频特征。 6.根据权利要求1至5中任意一项所述的方法，其特征在于，所述视频分类方法通过视频分类网络实现，所述视频分类网络包括视频编码模块；所述对所述待处理视频进行特征提取处理，得到第一视频特征，包括：通过所述视频编码模块对所述待处理视频进行特征提取处理，得到第一视频特征；所述视频分类方法还包括所述视频分类网络的训练过程：获取第一训练视频；通过所述视频编码模块对所述第一训练视频进行特征提取处理，得到第二视频特征；对所述第二视频特征和所述至少一个第一文本特征进行融合，得到第三融合特征；根据所述第三融合特征，得到所述第一训练视频的第四类别；根据所述第四类别和所述第一训练视频的标签的第一差异，得到所述视频分类网络的第一损失；根据所述第一损失，更新所述视频分类网络的参数，得到所述视频分类网络。 7.根据权利要求6所述的方法，其特征在于，所述根据所述第一损失，更新所述视频分类网络的参数，包括：根据所述第一损失，更新所述视频分类网络中除所述视频编码模块的参数之外的参数；所述视频编码模块通过对视频分类训练网络训练得到，所述视频分类训练网络包括所述视频编码模块；所述视频分类方法还包括视频分类训练网络的训练过程：获取第二训练视频和至少两个第一训练文本；所述至少两个第一训练文本的标签包括至少两个第五类别，且所述至少两个第一训练文本的标签包括所述至少一个第一类别；所述至少两个第一训练文本包括第二训练文本，所述第二训练文本的所述第五类别与所述第二训练视频的第六类别相同；通过所述视频编码模块对所述第二训练视频进行特征提取处理，得到第三视频特征；根据所述第三视频特征与所述第二训练文本的第三相似度，得到所述视频分类训练网络的第二损失；所述第二损失与所述第三相似度呈负相关；根据所述第二损失，更新所述视频分类训练网络的参数，得到所述视频分类训练网络。 8.根据权利要求7所述的方法，其特征在于，所述至少两个第一训练文本还包括第三训练文本，所述第三训练文本所描述的所述第五类别与所述第六类别不同；在所述根据所述第三视频特征与所述第二训练文本的第三相似度，得到所述视频分类训练网络的第二损失之前，所述方法还包括：确定所述第三视频特征与所述第三训练文本的第四相似度；所述根据所述第三视频特征与所述第二训练文本的第三相似度，得到所述视频分类训练网络的第二损失，包括：权　利　要　求　书 2/4 页 3 CN 115063726 A 3

专利 视频分类方法及装置、电子设备及计算机可读存储介质

专利视频分类方法及装置、电子设备及计算机可读存储介质