(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210612980.5
(22)申请日 2022.05.31
(71)申请人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 郑茂 袁宇辰 柴子峰 蒋树强
黎向阳 朱永清 杨嘉豪
(74)专利代理 机构 北京励诚知识产权代理有限
公司 11647
专利代理师 熊金凤
(51)Int.Cl.
G06V 10/80(2022.01)
G06V 10/74(2022.01)
G06V 10/82(2022.01)
G06V 10/764(2022.01)G06V 20/62(2022.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(54)发明名称
视觉文本预训练模型的训练方法、 装置、 介
质和设备
(57)摘要
本申请提供了一种视觉文本预训练模型的
训练方法、 装置、 介质和设备, 可应用于人工智
能、 计算机视觉、 智慧交通等场景, 该方法包括:
根据视频文本样本对进行特征提取得到初始视
频特征和初始文本特征; 根据初始视频特征和初
始文本特征进行特征融合得到融合特征; 根据融
合特征和预设的多个中间特征确定桥接特征; 根
据初始视频特征、 初始文本特征、 桥接特征和预
设的掩码矩 阵确定目标视频特征和目标文本特
征, 预设的掩码矩阵用于使初始视频特征和初始
文本特征相互掩模; 根据初始视频特征、 初始文
本特征、 桥接特征、 目标视频特征 以及目标文本
特征确定目标函数, 并根据目标函数对进行模型
训练, 以学习多模态交互信息、 且保持多模态之
间的模态分离性。
权利要求书4页 说明书19页 附图7页
CN 115131638 A
2022.09.30
CN 115131638 A
1.一种视 觉文本预训练模型的训练方法, 其特 征在于, 所述方法包括:
获取成对标注 的视频文本样本对, 并对所述视频文本样本对进行特征提取, 得到所述
视频文本样本对中视频样本的初始视频特征、 以及所述视频文本样本对中文本样本的初始
文本特征;
根据所述初始视频 特征以及所述初始文本特 征进行特征融合, 得到第一融合特 征;
根据所述第一融合特 征和预设的多个中间特 征确定桥接特 征;
根据所述初始视频特征、 所述初始文本特征、 所述桥接特征和预设的掩码矩阵确定目
标视频特征和目标文本特征, 其中, 所述预设的掩码矩阵用于使所述初始视频特征和所述
初始文本特 征相互掩 模;
根据所述初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所
述目标文本特 征确定目标函数;
根据所述目标函数对所述视觉文本预训练模型进行训练, 以使训练后的视觉文本预训
练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细
粒度交互信息、 且所述初始视频 特征与所述初始文本特 征之间保持模态分离性。
2.根据权利要求1所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述
第一融合特 征和预设的多个中间特 征确定桥接特 征, 包括:
确定所述第一融合特 征和每个所述中间特 征之间的第一相似度;
根据所述第一相似度对所述多个中间特 征进行加权求和, 得到所述 桥接特征。
3.根据权利要求2所述的视觉文本预训练模型的训练方法, 其特征在于, 所述初始视频
特征包括多个第一视频帧特征, 所述初始文本特征包括第一文本结尾特征, 所述根据所述
初始视频 特征以及所述初始文本特 征进行特征融合, 得到第一融合特 征, 包括:
将所述多个第一视频帧特 征进行均值池化, 得到第一整体视频 特征;
根据所述第 一整体视频特征和所述第 一文本结尾特征进行特征融合, 得到第 一融合特
征。
4.根据权利要求3所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述
初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特
征确定目标函数, 包括: 根据所述目标视频特征、 所述目标文本特征以及预设的可学习矩
阵, 确定所述目标视频 特征和所述目标文本特 征之间是否匹配的二分类概 率;
根据所述二分类概率与所述视频文本样本对所对应的真实匹配标注确定第一损失函
数, 并根据所述第一损失函数确定目标函数, 其中, 所述真实匹配标注用于标注所述视频文
本样本对中的视频样本与文本样本是否匹配。
5.根据权利要求3所述的视觉文本预训练模型的训练方法, 其特征在于, 所述方法还包
括:
获取包含有多个所述视频文本样本对的训练样本集;
基于所述训练样本集中多个所述视频文本样本对所对应的所述初始视频特征、 所述初
始文本特征、 所述桥接特征和所述预设的掩码矩阵, 确定目标视频特征集合和目标文本特
征集合, 其中, 所述目标视频特征集合中包含每个所述视频样本对应的目标视频特征、 以及
每个所述文本样本对应的目标文本特征, 所述目标文本特征集合中的每个目标文本特征包
括第二文本结尾特征, 所述目标视频特征集合中的每个目标视频特征包括多个第二视频帧权 利 要 求 书 1/4 页
2
CN 115131638 A
2特征;
根据所述第 一整体视频特征, 从所述目标文本特征集合对应的多个所述第 二文本结尾
特征中确定一个难负文本特 征;
分别将所述目标视频特征集合中的每个目标视频特征所对应的多个第二视频帧特征
进行均值池化, 得到所述目标视频特征集合中的每个目标视频特征所对应的第二整体视频
特征;
根据所述第 一文本结尾特征, 从所述目标视频特征集合对应的多个所述第 二整体视频
特征中确定一个难负视频 特征。
6.根据权利要求5所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述
初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特
征确定目标函数, 包括:
根据所述目标视频特征、 所述目标文本特征、 以及预设的可学习矩阵, 确定所述目标视
频特征和所述目标文本特征之 间是否匹配的二分类概率、 所述目标视频特征和所述难负文
本特征之 间是否匹配的二分类概率、 以及所述目标文本特征和所述难负视频特征之 间是否
匹配的二分类概 率;
根据所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率、 所述目标视
频特征和所述难负文本特征之 间是否匹配的二分类概率、 所述目标文本特征和所述难负视
频特征之 间是否匹配的二分类概率、 以及所述目标视频特征和所述目标文本特征对应的真
实匹配标注、 所述 目标视频特征和所述难负文本特征对应的真实匹配标注、 所述 目标文本
特征和所述难负视频特征之 间的真实匹配标注确定第一损失函数, 并根据所述第一损失函
数确定目标函数, 其中, 所述真实匹配标注用于标注不同特 征之间是否匹配。
7.根据权利要求5所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述
初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特
征确定目标函数, 包括:
计算所述第一整体视频 特征与所述第一文本结尾特 征之间的第二相似度;
计算所述第 一整体视频特征, 以及多个所述第 二文本结尾特征中不与 所述第一整体视
频特征对应的第二文本结尾特 征之间的第三相似度;
根据所述第 二相似度和所述第 三相似度确定第 二损失函数, 并根据所述第 二损失函数
确定目标函数。
8.根据权利要求7所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述
初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特
征确定目标函数, 包括:
计算所述第一文本结尾特 征与所述第一整体视频 特征之间的第四相似度;
计算所述第 一文本结尾特征, 以及多个所述第 二整体视频特征中不与 所述第一文本结
尾特征相对应的第二整体视频 特征之间的第五相似度;
根据所述第四相似度和所述第五相似度确定第 三损失函数, 并根据所述第 三损失函数
确定目标函数。
9.根据权利要求8所述的视觉文本预训练模型的训练方法, 其特征在于, 所述根据 所述
初始视频特征、 所述初始文本特征、 所述桥接特征、 所述目标视频特征以及所述目标文本特权 利 要 求 书 2/4 页
3
CN 115131638 A
3
专利 视觉文本预训练模型的训练方法、装置、介质和设备
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:01上传分享