专利 高光视频识别方法及装置、电子设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210635182.4 (22)申请日 2022.06.06 (71)申请人上海商汤智能科技有限公司地址 200233 上海市徐汇区桂平路391号3 号楼1605A室 (72)发明人李帅成　杨昆霖　侯军　伊帅　 (74)专利代理机构北京林达刘知识产权代理事务所(普通合伙) 11277 专利代理师刘新宇 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/774(2022.01) G06V 10/74(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称高光视频识别方法及装置、电子设备和存储介质 (57)摘要本公开涉及一种高光视频识别方法及装置、电子设备和存储介质，所述方法应用于识别网络，包括：提取待识别视频的视频特征，其中，所述待识别视频包括多个按时序排列的视频片段，每个所述视频片段包括至少一个视频子特征；基于多个所述视频片段的视频子特征进行高光视频的识别，得到识别结果；其中，所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离，以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新，以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离，不同标签的视频片段的视频子特征之间的距离大于更新前的距离。本公开实施例可提高高光视频识别的准确率。权利要求书2页说明书22页附图4页 CN 114998797 A 2022.09.02 CN 114998797 A 1.一种高光视频识别方法，其特征在于，应用于识别网络，包括：提取待识别视频的视频特征，其中，所述待识别视频包括多个按时序排列的视频片段，每个所述视频片段包括至少一个视频子特征；基于多个所述视频片段的视频子特征进行高光视频的识别，得到识别结果；其中，所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离，以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新，以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离，不同标签的视频片段的视频子特征之间的距离大于更新前的距离。 2.根据权利要求1所述的方法，其特征在于，基于特征空间中相同标签的视频片段的视频子特征之间的第一距离，以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新，包括：根据所述第一距离和第二距离，确定所述识别网络的第一损失，其中，所述第一损失与所述第一距离正相关，所述第一损失与所述第二距离负相关；基于所述第一损失，更新所述识别网络的参数，以使所述第一损失变小。 3.根据权利要求1 ‑2任一所述的方法，其特征在于，所述方法还包括：确定所述视频片段中，高光视频片段与非高光视频片段的邻接处；基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离，更新所述识别网络的参数，使得所述识别网络输出的所述高光视频片段与非高光视频片段的视频子特征之间的距离，大于更新前的距离。 4.根据权利要求3所述的方法，其特征在于，所述待识别视频为样本视频，所述视频片段标注有用于表征视频片段是否属于高光的标签；所述确定所述视频片段中，高光视频片段与非高光视频片段的邻接处，包括：基于所述视频片段的标签，确定高光视频片段与非高光视频片段的邻接处；基于所述邻接处前后的高光视频片段与非高光视频片段，构建正负样本对。 5.根据权利要求3 ‑4任一所述的方法，其特征在于，所述基于所述邻接处前后的高光视频片段与非高光视频片段的视频子特征之间的第三距离，更新所述识别网络的参数，包括：基于所述邻接处前后的多个高光视频片段和多个非高光视频片段，构建多个正负样本对，单个所述正负样本对中包含一个所述高光视频片段和一个所述非高光视频片段；根据每个正负样本对中，高光视频片段与非高光视频片段的视频子特征之间的第三距离，确定所述识别网络的第二损失，所述第二损失与所述第三距离负相关；基于所述第二损失，更新所述识别网络的参数，以使所述第二损失变小。 6.根据权利要求1 ‑5任一所述的方法，其特征在于，所述待识别视频为样本视频，所述视频片段标注有用于表征视频片段是否属于高光的标签，所述方法还包括：基于所述识别结果与所述视频片段的标签之间的差异，确定第三损失；基于所述第三损失，更新所述识别网络的参数，以使得所述识别网络输出的识别结果与标签一致。 7.根据权利要求6所述的方法，其特征在于，所述更新所述识别网络的参数，包括：对所述第一损失、第二损失和第三损失中的至少两种进行加权求和，得到目标损失；基于所述目标损失，更新所述识别网络，以使所述目标损失变小。权　利　要　求　书 1/2 页 2 CN 114998797 A 28.根据权利要求1 ‑7任一所述的方法，其特征在于，提取待识别视频的视频特征，包括：获取所述待识别视频的视觉特征、音频特征和所述视觉特征与音频特征编码后的拼接特征；其中，每个所述视频片段对应至少一个视觉子特征、音频子特征以及拼接子特征；对所述视觉特征、音频特征和拼接特征进行融合，得到视频特征，其中，每个所述视频片段对应的至少一个视觉子特征、音频子特征以及拼接子特征，融合得到所述视频子特征。 9.一种高光视频识别装置，其特征在于，包括：提取模块，用于提取待识别视频的视频特征，其中，所述待识别视频包括多个按时序排列的视频片段，每个所述视频片段包括至少一个视频子特征；识别模块，用于基于多个所述视频片段的视频子特征进行高光视频的识别，得到识别结果；其中，所述识别网络基于特征空间中相同标签的视频片段的视频子特征之间的第一距离，以及不同标签的视频片段的视频子特征之间的第二距离进行参数更新，以使更新后的识别网络输出的相同标签的视频片段的视频子特征之间的距离小于更新前的距离，不同标签的视频片段的视频子特征之间的距离大于更新前的距离。 10.一种电子设备，其特征在于，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为调用所述存储器存储的指令，以执行权利要求1至8中任意一项所述的方法。 11.一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1至8中任意一项所述的方法。权　利　要　求　书 2/2 页 3 CN 114998797 A 3

专利 高光视频识别方法及装置、电子设备和存储介质

专利高光视频识别方法及装置、电子设备和存储介质