(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210705813.5
(22)申请日 2022.06.21
(71)申请人 有米科技股份有限公司
地址 510006 广东省广州市番禺区小谷围
街青蓝街26号1701
(72)发明人 陈畅新 黄于晏 陈第
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 江银会
(51)Int.Cl.
G06V 20/40(2022.01)
G06N 3/08(2006.01)
G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
(54)发明名称
基于视频和文本的模型训练方法及装置
(57)摘要
本发明公开了一种基于视频和文本的模型
训练方法及装置, 该方法包括: 确定用于训练模
型的训练视频和对应的描述文本; 对 所述训练视
频进行抽帧操作, 得到所述训练视频对应的多个
训练视频帧; 将所述多个训练视频帧和所述描述
文本输入基于Tran sformer网络 结构的视频重建
预测模型进行训练, 在训练中计算所述视频重建
预测模型输出的多个预测视频帧和输入的所述
多个训练视频帧之间的损失函数值, 根据所述损
失函数值对所述视频重建预测模型的模型参数
进行优化直至收敛, 得到训练好的所述视频重建
预测模型。 可见, 本发明能够利用了Transformer
网络结构的算法优势, 使 得训练得到的模型能够
实现根据文本 重建视频的效果。
权利要求书2页 说明书17页 附图3页
CN 115240103 A
2022.10.25
CN 115240103 A
1.一种基于 视频和文本的模型训练方法, 其特 征在于, 所述方法包括:
确定用于训练模型的训练视频和对应的描述文本;
对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧;
将所述多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预
测模型进 行训练, 在训练中计算所述视频重建预测模型输出的多个预测视频帧和输入的所
述多个训练视频帧之间的损失函数值, 根据所述损失函数值对所述视频重 建预测模型的模
型参数进行优化 直至收敛, 得到训练好的所述视频重建预测模型。
2.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 所述对所述训
练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧, 包括:
根据所述训练视频的视频参数, 确定所述训练视频对应的第一抽帧间隔;
根据所述第 一抽帧间隔对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个
训练视频帧。
3.根据权利要求2所述的基于视频和文本的模型训练方法, 其特征在于, 所述根据 所述
第一抽帧间隔对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧,
包括:
根据所述第 一抽帧间隔对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个
候选视频帧;
对于任意两个相邻的所述 候选视频帧, 计算该两个候选 视频帧之间的画面相似度;
判断所述画面相似度是否满足预设的相似度阈值条件;
若判断结果 为是, 将该两个候选 视频帧确定为关键 视频帧;
根据所述多个候选视频帧中的所有所述关键视频帧, 确定所述训练视频对应的多个训
练视频帧。
4.根据权利要求3所述的基于视频和文本的模型训练方法, 其特征在于, 所述根据 所述
多个候选视频帧中的所有所述关键视频帧, 确定所述训练视频对应的多个训练视频帧, 包
括:
对所述多个候选视频帧中除所述关键视频帧 以外的其他候选视频帧, 根据第 二抽帧间
隔进行抽帧操作, 得到多个抽取视频帧; 所述第二抽帧间隔大于所述第一抽帧间隔;
将所有所述关键视频帧和所述抽取视频帧, 确定为所述训练视频对应的多个训练视频
帧。
5.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 在所述对所述
训练视频进行抽帧操作, 得到所述训练视频对应的多个训练视频帧之后, 所述方法还 包括:
判断所述多个训练视频帧的数量是否大于预设的第一帧数阈值;
若是, 将所述多个训练视频帧划分为至少两个视频帧数量小于或等于所述第 一帧数阈
值的划分训练视频帧组; 每个所述划分训练视频帧组用于在对视频重 建预测模型进行训练
时作为单次输入的训练数据;
和/或,
判断所述多个训练视频帧的数量是否小于预设的第二帧数阈值;
若是, 从所述训练视频中抽取视频帧填充至所述多个训练视频帧中, 直至所述多个训
练视频帧的数量 等于所述第二帧数阈值。权 利 要 求 书 1/2 页
2
CN 115240103 A
26.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 在所述将所述
多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预测模型进 行
训练之前, 所述方法还 包括:
对按照原始时间顺序排列的所述多个训练视频帧的排列顺序进行打乱, 得到乱序训练
视频帧; 所述乱序训练视频帧用于输入至所述视频重建预测模型 的编码器; 所述编码器根
据所述乱序训练视频帧的编码输出数据用于在恢复为所述原始 时间顺序后输入至所述视
频重建预测模型的解码器;
和/或,
确定出所述多个训练视频帧中的掩膜视频帧;
对所述掩膜视频帧进行删除, 将所述多个训练视频帧剩余的训练视频帧确定为输入视
频帧; 所述输入视频帧用于输入至所述视频重建预测模型 的编码器; 所述掩膜视频帧用于
与所述编码器根据所述输入视频帧的编码输出数据一起输入至所述视频重建预测模型的
解码器; 所述掩膜视频帧的数量与所述多个训练视频帧的总数量的比值大于 50%。
7.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 所述视频重建
预测模型包括编码器; 所述编码器包括视频嵌入层、 文本嵌入层、 特征融合层和第一
Transformer层; 所述视频嵌入层用于接收所述训练视频帧并处理得到视频特征; 所述文本
嵌入层用于接收所述描述文本并处理得到文本特征; 所述特征融合层用于将所述视频特征
和所述文本特征进行融合以得到训练特征, 并将所述训练特征输入至所述第一
Transformer层。
8.根据权利要求1所述的基于视频和文本的模型训练方法, 其特征在于, 所述多个预测
视频帧和输入的所述多个训练视频帧之间的损失函数值的计算方式如下:
对于任一所述预测视频帧, 计算该预测视频帧与对应的所述训练视频帧之间的帧损失
函数值;
计算所有所述预测视频帧的所述帧损失函数值的平均值, 得到多个预测视频帧和输入
的所述多个训练视频帧之间的损失函数值。
9.一种基于 视频和文本的模型训练装置, 其特 征在于, 所述装置包括:
数据确定模块, 用于确定用于训练模型的训练视频和对应的描述文本;
抽帧操作模块, 用于对所述训练视频进行抽帧操作, 得到所述训练视频对应的多个训
练视频帧;
模型训练模块, 用于将所述多个训练视频帧和所述描述文本输入基于Transformer网
络结构的视频重建预测模型进 行训练, 在训练中计算所述视频重建预测模 型输出的多个预
测视频帧和输入的所述多个训练视频帧之 间的损失函数值, 根据所述损失函数值对所述视
频重建预测模型的模型参数进行优化 直至收敛, 得到训练好的所述视频重建预测模型。
10.一种基于 视频和文本的模型训练装置, 其特 征在于, 所述装置包括:
存储有可执行程序代码的存 储器;
与所述存 储器耦合的处 理器;
所述处理器调用所述存储器中存储的所述可执行程序代码, 执行如权利要求1 ‑8任一
项所述的基于 视频和文本的模型训练方法。权 利 要 求 书 2/2 页
3
CN 115240103 A
3
专利 基于视频和文本的模型训练方法及装置
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:57上传分享