(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210784751.1
(22)申请日 2022.06.29
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 杨皓
(74)专利代理 机构 深圳翼盛智成知识产权事务
所(普通合伙) 44300
专利代理师 李玉婷
(51)Int.Cl.
G06V 10/764(2022.01)
G06V 10/74(2022.01)
G06V 10/80(2022.01)
G06V 10/772(2022.01)
G06V 10/82(2022.01)
(54)发明名称
视频表征模 型的训练方法、 装置和计算机可
读存储介质
(57)摘要
本申请实施例公开了一种视频表征模型的
训练方法、 装置和计算机可读存储介质, 可应用
于云技术、 人工智能、 智慧交通、 辅助驾驶等各种
场景; 通过获取多元视频组样本, 并提取多元视
频组样本对应的多模态信息; 对目标模态的视频
内容信息进行遮掩处理, 得到遮掩后多模态信
息; 采用视频表征模型对遮掩后多模态信息进行
特征提取, 得到样本视频特征以及语义预测特
征; 根据目标模态的视频内容信息、 语义预测特
征以及样 本视频特征, 对视频表征模 型进行损失
计算处理, 得到预测损失信息和特征表征损失信
息; 基于预测损失信息和特征表征损失信息, 对
视频表征模 型进行收敛, 得到训练后视频表征模
型。 以此, 提高了视频表征模型的训练效率, 进而
提升视频表征效率。
权利要求书3页 说明书22页 附图7页
CN 115222984 A
2022.10.21
CN 115222984 A
1.一种视频表征模型的训练方法, 其特 征在于, 包括:
获取多元视频组样本, 并提取所述多元视频组样本对应的多模态信息, 所述多元视频
组样本至少包括基础视频样本和关联视频样本, 所述关联视频样本为与所述基础视频样本
的相似度满足预设条件的视频样本, 所述多模态信息包括至少两种模态的视频内容信息;
对所述多模态信息中目标模态的视频内容信息进行遮掩处理, 得到遮掩后多模态信
息;
采用视频表征模型对所述遮掩后多模态信 息进行特征提取, 得到所述多元视频组样本
对应的样本 视频特征以及语义预测特 征;
根据所述目标模态 的视频内容信息、 语义预测特征以及样本视频特征, 对所述视频表
征模型进 行损失计算处理, 得到所述视频表征模型对应的预测损失信息和特征表征损失信
息;
基于所述预测损 失信息和特征表征损 失信息, 对所述视频表征模型进行收敛, 得到训
练后视频表征模型。
2.如权利要求1所述的视频表征模型的训练方法, 其特征在于, 所述根据 所述目标模态
的视频内容信息、 语义预测特征以及样本视频特征, 对所述视频表征模型进行损失计算处
理, 得到所述视频表征模型对应的预测损失信息和特 征表征损失信息, 包括:
根据所述目标模态的视频内容信 息和语义预测特征, 对所述视频表征模型进行预测损
失计算处 理, 得到所述视频表征模型对应的预测损失信息;
基于所述多元视频组样本对应的样本视频特征, 对所述视频表征模型进行特征损失计
算处理, 得到所述视频表征模型对应的特 征表征损失信息 。
3.如权利要求2所述的视频表征模型的训练方法, 其特征在于, 所述基于所述多元视频
组样本对应的样本视频特征, 对所述视频表征模型进行特征损失计算处理, 得到所述视频
表征模型对应的特 征表征损失信息, 包括:
在所述多元视频组样本的关联视频样本 中提取出视频正样本以及视频负样本, 所述视
频正样本为与所述基础视频样本相似的视频样本, 所述视频负样本为与所述基础视频样本
不相似的视频样本;
基于所述样本视频特征, 计算基础视频样本和视频正样本之间的相似度, 得到第一视
频相似度, 并计算基础视频样本和视频负 样本之间的相似度, 得到第二视频相似度;
根据所述第 一视频相似度和第 二视频相似度, 确定所述视频表征模型对应的特征表征
损失信息 。
4.如权利要求2所述的视频表征模型的训练方法, 其特征在于, 所述根据 所述目标模态
的视频内容信息和语义预测特征, 对所述视频表征模型进行预测损失计算处理, 得到所述
视频表征模型对应的预测损失信息, 包括:
在所述语义预测特征中提取出所述遮掩后多模态信息对应的遮掩词属于预设字典中
的词的概 率, 得到预测概 率分布;
根据目标模态的视频内容信 息确定所述预设字典中每一词的期望概率, 得到期望概率
分布;
基于所述期望概率分布和预测概率分布, 对所述视频表征模型进行预测损失计算处
理, 得到所述视频表征模型对应的预测损失信息 。权 利 要 求 书 1/3 页
2
CN 115222984 A
25.如权利要求1所述的视频表征模型的训练方法, 其特征在于, 所述采用视频表征模型
对所述遮掩后多模态信息进行特征提取, 得到所述多 元视频组样本对应的样本视频特征以
及语义预测特 征, 包括:
对所述遮掩后多模态信 息进行同一特征空间的特征映射, 得到每一模态对应的模态特
征;
采用视频表征模型对所述模态特征进行特征融合, 得到所述多元视频组样本中每一视
频样本对应的样本 视频特征;
基于预设字典和所述样本视频特征, 对所述遮掩后多模态信息中的遮掩词进行预测,
得到语义预测特 征。
6.如权利要求5所述的视频表征模型的训练方法, 其特征在于, 所述采用预设视频表征
模型对所述模态特 征进行特征融合, 得到样本 视频特征, 包括:
获取视频表征模型, 所述视频表征模型包括第一子模型和第二子模型;
采用所述第一子模型将所述模态特征进行拼接, 得到多模态视频特征, 并对所述多模
态视频特征进行视频语义特 征提取, 得到第一样本 视频特征;
采用所述第二子模型分别将所述模态特征进行语义特征提取, 得到模态视频特征, 并
将所述模态视频 特征进行模态特 征融合, 得到第二样本 视频特征;
将所述第一样本视频特征和第 二样本视频特征进行融合, 得到所述多元视频组样本对
应的样本 视频特征。
7.如权利要求5所述的视频表征模型的训练方法, 其特征在于, 所述多模态信 息包括图
像信息和文本信息, 所述对所述遮 掩后多模态信息进行同一特 征空间的特 征映射, 包括:
对所述遮掩后多模态信 息中的图像信 息和文本信 息进行特征提取, 得到图像特征和文
本特征;
基于所述图像特征对应的时间信 息, 计算所述图像特征中相邻的图像特征之间的特征
相似度;
根据所述特征相似度, 在所述图像特征中筛选出至少一个相似图像特征组, 并将所述
相似图像特 征组中的相似图像特 征进行合并, 得到合并后图像特 征;
基于合并后图像特征对所述图像特征进行更新, 并将更新后图像特征映射到与所述文
本特征相同的特 征空间中, 得到目标图像特 征。
8.如权利要求1至7中任一项所述的视频表征模型的训练方法, 其特征在于, 所述方法,
还包括:
获取待推送视频集 合, 所述待推送视频集 合包括至少一个待推送视频;
采用所述训练后视频表征模型对所述待推送视频进行特征提取, 得到所述待推送视频
对应的视频 特征;
当接收到视频推送请求 时, 基于所述视频特征在所述待推送视频集合中筛选出目标视
频, 并基于所述目标视频进行视频推送处 理。
9.一种视频表征模型的训练装置, 其特 征在于, 包括:
获取单元, 用于获取多元视频组样本, 并提取所述多元视频组样本对应的多模态信 息,
所述多元视频组样本至少包括基础视频样本和关联视频样本, 所述关联视频样本为与所述
基础视频样本的相似度满足预设条件的视频样本, 所述多模态信息包括至少两种模态的视权 利 要 求 书 2/3 页
3
CN 115222984 A
3
专利 视频表征模型的训练方法、装置和计算机可读存储介质
文档预览
中文文档
33 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:56上传分享