专利 视频表征模型的训练方法、装置和计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210784751.1 (22)申请日 2022.06.29 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人杨皓　 (74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙) 44300 专利代理师李玉婷 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/74(2022.01) G06V 10/80(2022.01) G06V 10/772(2022.01) G06V 10/82(2022.01) (54)发明名称视频表征模型的训练方法、装置和计算机可读存储介质 (57)摘要本申请实施例公开了一种视频表征模型的训练方法、装置和计算机可读存储介质，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；通过获取多元视频组样本，并提取多元视频组样本对应的多模态信息；对目标模态的视频内容信息进行遮掩处理，得到遮掩后多模态信息；采用视频表征模型对遮掩后多模态信息进行特征提取，得到样本视频特征以及语义预测特征；根据目标模态的视频内容信息、语义预测特征以及样本视频特征，对视频表征模型进行损失计算处理，得到预测损失信息和特征表征损失信息；基于预测损失信息和特征表征损失信息，对视频表征模型进行收敛，得到训练后视频表征模型。以此，提高了视频表征模型的训练效率，进而提升视频表征效率。权利要求书3页说明书22页附图7页 CN 115222984 A 2022.10.21 CN 115222984 A 1.一种视频表征模型的训练方法，其特征在于，包括：获取多元视频组样本，并提取所述多元视频组样本对应的多模态信息，所述多元视频组样本至少包括基础视频样本和关联视频样本，所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本，所述多模态信息包括至少两种模态的视频内容信息；对所述多模态信息中目标模态的视频内容信息进行遮掩处理，得到遮掩后多模态信息；采用视频表征模型对所述遮掩后多模态信息进行特征提取，得到所述多元视频组样本对应的样本视频特征以及语义预测特征；根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征，对所述视频表征模型进行损失计算处理，得到所述视频表征模型对应的预测损失信息和特征表征损失信息；基于所述预测损失信息和特征表征损失信息，对所述视频表征模型进行收敛，得到训练后视频表征模型。 2.如权利要求1所述的视频表征模型的训练方法，其特征在于，所述根据所述目标模态的视频内容信息、语义预测特征以及样本视频特征，对所述视频表征模型进行损失计算处理，得到所述视频表征模型对应的预测损失信息和特征表征损失信息，包括：根据所述目标模态的视频内容信息和语义预测特征，对所述视频表征模型进行预测损失计算处理，得到所述视频表征模型对应的预测损失信息；基于所述多元视频组样本对应的样本视频特征，对所述视频表征模型进行特征损失计算处理，得到所述视频表征模型对应的特征表征损失信息。 3.如权利要求2所述的视频表征模型的训练方法，其特征在于，所述基于所述多元视频组样本对应的样本视频特征，对所述视频表征模型进行特征损失计算处理，得到所述视频表征模型对应的特征表征损失信息，包括：在所述多元视频组样本的关联视频样本中提取出视频正样本以及视频负样本，所述视频正样本为与所述基础视频样本相似的视频样本，所述视频负样本为与所述基础视频样本不相似的视频样本；基于所述样本视频特征，计算基础视频样本和视频正样本之间的相似度，得到第一视频相似度，并计算基础视频样本和视频负样本之间的相似度，得到第二视频相似度；根据所述第一视频相似度和第二视频相似度，确定所述视频表征模型对应的特征表征损失信息。 4.如权利要求2所述的视频表征模型的训练方法，其特征在于，所述根据所述目标模态的视频内容信息和语义预测特征，对所述视频表征模型进行预测损失计算处理，得到所述视频表征模型对应的预测损失信息，包括：在所述语义预测特征中提取出所述遮掩后多模态信息对应的遮掩词属于预设字典中的词的概率，得到预测概率分布；根据目标模态的视频内容信息确定所述预设字典中每一词的期望概率，得到期望概率分布；基于所述期望概率分布和预测概率分布，对所述视频表征模型进行预测损失计算处理，得到所述视频表征模型对应的预测损失信息。权　利　要　求　书 1/3 页 2 CN 115222984 A 25.如权利要求1所述的视频表征模型的训练方法，其特征在于，所述采用视频表征模型对所述遮掩后多模态信息进行特征提取，得到所述多元视频组样本对应的样本视频特征以及语义预测特征，包括：对所述遮掩后多模态信息进行同一特征空间的特征映射，得到每一模态对应的模态特征；采用视频表征模型对所述模态特征进行特征融合，得到所述多元视频组样本中每一视频样本对应的样本视频特征；基于预设字典和所述样本视频特征，对所述遮掩后多模态信息中的遮掩词进行预测，得到语义预测特征。 6.如权利要求5所述的视频表征模型的训练方法，其特征在于，所述采用预设视频表征模型对所述模态特征进行特征融合，得到样本视频特征，包括：获取视频表征模型，所述视频表征模型包括第一子模型和第二子模型；采用所述第一子模型将所述模态特征进行拼接，得到多模态视频特征，并对所述多模态视频特征进行视频语义特征提取，得到第一样本视频特征；采用所述第二子模型分别将所述模态特征进行语义特征提取，得到模态视频特征，并将所述模态视频特征进行模态特征融合，得到第二样本视频特征；将所述第一样本视频特征和第二样本视频特征进行融合，得到所述多元视频组样本对应的样本视频特征。 7.如权利要求5所述的视频表征模型的训练方法，其特征在于，所述多模态信息包括图像信息和文本信息，所述对所述遮掩后多模态信息进行同一特征空间的特征映射，包括：对所述遮掩后多模态信息中的图像信息和文本信息进行特征提取，得到图像特征和文本特征；基于所述图像特征对应的时间信息，计算所述图像特征中相邻的图像特征之间的特征相似度；根据所述特征相似度，在所述图像特征中筛选出至少一个相似图像特征组，并将所述相似图像特征组中的相似图像特征进行合并，得到合并后图像特征；基于合并后图像特征对所述图像特征进行更新，并将更新后图像特征映射到与所述文本特征相同的特征空间中，得到目标图像特征。 8.如权利要求1至7中任一项所述的视频表征模型的训练方法，其特征在于，所述方法，还包括：获取待推送视频集合，所述待推送视频集合包括至少一个待推送视频；采用所述训练后视频表征模型对所述待推送视频进行特征提取，得到所述待推送视频对应的视频特征；当接收到视频推送请求时，基于所述视频特征在所述待推送视频集合中筛选出目标视频，并基于所述目标视频进行视频推送处理。 9.一种视频表征模型的训练装置，其特征在于，包括：获取单元，用于获取多元视频组样本，并提取所述多元视频组样本对应的多模态信息，所述多元视频组样本至少包括基础视频样本和关联视频样本，所述关联视频样本为与所述基础视频样本的相似度满足预设条件的视频样本，所述多模态信息包括至少两种模态的视权　利　要　求　书 2/3 页 3 CN 115222984 A 3

专利 视频表征模型的训练方法、装置和计算机可读存储介质

专利视频表征模型的训练方法、装置和计算机可读存储介质