专利 基于视频和文本的模型训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210705813.5 (22)申请日 2022.06.21 (71)申请人有米科技股份有限公司地址 510006 广东省广州市番禺区小谷围街青蓝街26号1701 (72)发明人陈畅新　黄于晏　陈第　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师江银会 (51)Int.Cl. G06V 20/40(2022.01) G06N 3/08(2006.01) G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01)G06V 10/82(2022.01) (54)发明名称基于视频和文本的模型训练方法及装置 (57)摘要本发明公开了一种基于视频和文本的模型训练方法及装置，该方法包括：确定用于训练模型的训练视频和对应的描述文本；对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧；将所述多个训练视频帧和所述描述文本输入基于Tran sformer网络结构的视频重建预测模型进行训练，在训练中计算所述视频重建预测模型输出的多个预测视频帧和输入的所述多个训练视频帧之间的损失函数值，根据所述损失函数值对所述视频重建预测模型的模型参数进行优化直至收敛，得到训练好的所述视频重建预测模型。可见，本发明能够利用了Transformer 网络结构的算法优势，使得训练得到的模型能够实现根据文本重建视频的效果。权利要求书2页说明书17页附图3页 CN 115240103 A 2022.10.25 CN 115240103 A 1.一种基于视频和文本的模型训练方法，其特征在于，所述方法包括：确定用于训练模型的训练视频和对应的描述文本；对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧；将所述多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预测模型进行训练，在训练中计算所述视频重建预测模型输出的多个预测视频帧和输入的所述多个训练视频帧之间的损失函数值，根据所述损失函数值对所述视频重建预测模型的模型参数进行优化直至收敛，得到训练好的所述视频重建预测模型。 2.根据权利要求1所述的基于视频和文本的模型训练方法，其特征在于，所述对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧，包括：根据所述训练视频的视频参数，确定所述训练视频对应的第一抽帧间隔；根据所述第一抽帧间隔对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧。 3.根据权利要求2所述的基于视频和文本的模型训练方法，其特征在于，所述根据所述第一抽帧间隔对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧，包括：根据所述第一抽帧间隔对所述训练视频进行抽帧操作，得到所述训练视频对应的多个候选视频帧；对于任意两个相邻的所述候选视频帧，计算该两个候选视频帧之间的画面相似度；判断所述画面相似度是否满足预设的相似度阈值条件；若判断结果为是，将该两个候选视频帧确定为关键视频帧；根据所述多个候选视频帧中的所有所述关键视频帧，确定所述训练视频对应的多个训练视频帧。 4.根据权利要求3所述的基于视频和文本的模型训练方法，其特征在于，所述根据所述多个候选视频帧中的所有所述关键视频帧，确定所述训练视频对应的多个训练视频帧，包括：对所述多个候选视频帧中除所述关键视频帧以外的其他候选视频帧，根据第二抽帧间隔进行抽帧操作，得到多个抽取视频帧；所述第二抽帧间隔大于所述第一抽帧间隔；将所有所述关键视频帧和所述抽取视频帧，确定为所述训练视频对应的多个训练视频帧。 5.根据权利要求1所述的基于视频和文本的模型训练方法，其特征在于，在所述对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧之后，所述方法还包括：判断所述多个训练视频帧的数量是否大于预设的第一帧数阈值；若是，将所述多个训练视频帧划分为至少两个视频帧数量小于或等于所述第一帧数阈值的划分训练视频帧组；每个所述划分训练视频帧组用于在对视频重建预测模型进行训练时作为单次输入的训练数据；和/或，判断所述多个训练视频帧的数量是否小于预设的第二帧数阈值；若是，从所述训练视频中抽取视频帧填充至所述多个训练视频帧中，直至所述多个训练视频帧的数量等于所述第二帧数阈值。权　利　要　求　书 1/2 页 2 CN 115240103 A 26.根据权利要求1所述的基于视频和文本的模型训练方法，其特征在于，在所述将所述多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预测模型进行训练之前，所述方法还包括：对按照原始时间顺序排列的所述多个训练视频帧的排列顺序进行打乱，得到乱序训练视频帧；所述乱序训练视频帧用于输入至所述视频重建预测模型的编码器；所述编码器根据所述乱序训练视频帧的编码输出数据用于在恢复为所述原始时间顺序后输入至所述视频重建预测模型的解码器；和/或，确定出所述多个训练视频帧中的掩膜视频帧；对所述掩膜视频帧进行删除，将所述多个训练视频帧剩余的训练视频帧确定为输入视频帧；所述输入视频帧用于输入至所述视频重建预测模型的编码器；所述掩膜视频帧用于与所述编码器根据所述输入视频帧的编码输出数据一起输入至所述视频重建预测模型的解码器；所述掩膜视频帧的数量与所述多个训练视频帧的总数量的比值大于 50％。 7.根据权利要求1所述的基于视频和文本的模型训练方法，其特征在于，所述视频重建预测模型包括编码器；所述编码器包括视频嵌入层、文本嵌入层、特征融合层和第一 Transformer层；所述视频嵌入层用于接收所述训练视频帧并处理得到视频特征；所述文本嵌入层用于接收所述描述文本并处理得到文本特征；所述特征融合层用于将所述视频特征和所述文本特征进行融合以得到训练特征，并将所述训练特征输入至所述第一 Transformer层。 8.根据权利要求1所述的基于视频和文本的模型训练方法，其特征在于，所述多个预测视频帧和输入的所述多个训练视频帧之间的损失函数值的计算方式如下：对于任一所述预测视频帧，计算该预测视频帧与对应的所述训练视频帧之间的帧损失函数值；计算所有所述预测视频帧的所述帧损失函数值的平均值，得到多个预测视频帧和输入的所述多个训练视频帧之间的损失函数值。 9.一种基于视频和文本的模型训练装置，其特征在于，所述装置包括：数据确定模块，用于确定用于训练模型的训练视频和对应的描述文本；抽帧操作模块，用于对所述训练视频进行抽帧操作，得到所述训练视频对应的多个训练视频帧；模型训练模块，用于将所述多个训练视频帧和所述描述文本输入基于Transformer网络结构的视频重建预测模型进行训练，在训练中计算所述视频重建预测模型输出的多个预测视频帧和输入的所述多个训练视频帧之间的损失函数值，根据所述损失函数值对所述视频重建预测模型的模型参数进行优化直至收敛，得到训练好的所述视频重建预测模型。 10.一种基于视频和文本的模型训练装置，其特征在于，所述装置包括：存储有可执行程序代码的存储器；与所述存储器耦合的处理器；所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1 ‑8任一项所述的基于视频和文本的模型训练方法。权　利　要　求　书 2/2 页 3 CN 115240103 A 3

专利 基于视频和文本的模型训练方法及装置

专利基于视频和文本的模型训练方法及装置