专利 视觉文本预训练模型的训练方法、装置、介质和设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210612980.5 (22)申请日 2022.05.31 (71)申请人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人郑茂　袁宇辰　柴子峰　蒋树强　黎向阳　朱永清　杨嘉豪　 (74)专利代理机构北京励诚知识产权代理有限公司 11647 专利代理师熊金凤 (51)Int.Cl. G06V 10/80(2022.01) G06V 10/74(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称视觉文本预训练模型的训练方法、装置、介质和设备 (57)摘要本申请提供了一种视觉文本预训练模型的训练方法、装置、介质和设备，可应用于人工智能、计算机视觉、智慧交通等场景，该方法包括：根据视频文本样本对进行特征提取得到初始视频特征和初始文本特征；根据初始视频特征和初始文本特征进行特征融合得到融合特征；根据融合特征和预设的多个中间特征确定桥接特征；根据初始视频特征、初始文本特征、桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，预设的掩码矩阵用于使初始视频特征和初始文本特征相互掩模；根据初始视频特征、初始文本特征、桥接特征、目标视频特征以及目标文本特征确定目标函数，并根据目标函数对进行模型训练，以学习多模态交互信息、且保持多模态之间的模态分离性。权利要求书4页说明书19页附图7页 CN 115131638 A 2022.09.30 CN 115131638 A 1.一种视觉文本预训练模型的训练方法，其特征在于，所述方法包括：获取成对标注的视频文本样本对，并对所述视频文本样本对进行特征提取，得到所述视频文本样本对中视频样本的初始视频特征、以及所述视频文本样本对中文本样本的初始文本特征；根据所述初始视频特征以及所述初始文本特征进行特征融合，得到第一融合特征；根据所述第一融合特征和预设的多个中间特征确定桥接特征；根据所述初始视频特征、所述初始文本特征、所述桥接特征和预设的掩码矩阵确定目标视频特征和目标文本特征，其中，所述预设的掩码矩阵用于使所述初始视频特征和所述初始文本特征相互掩模；根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数；根据所述目标函数对所述视觉文本预训练模型进行训练，以使训练后的视觉文本预训练模型用于学习所述视频文本样本对的所述初始视频特征与所述初始文本特征之间的细粒度交互信息、且所述初始视频特征与所述初始文本特征之间保持模态分离性。 2.根据权利要求1所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述第一融合特征和预设的多个中间特征确定桥接特征，包括：确定所述第一融合特征和每个所述中间特征之间的第一相似度；根据所述第一相似度对所述多个中间特征进行加权求和，得到所述桥接特征。 3.根据权利要求2所述的视觉文本预训练模型的训练方法，其特征在于，所述初始视频特征包括多个第一视频帧特征，所述初始文本特征包括第一文本结尾特征，所述根据所述初始视频特征以及所述初始文本特征进行特征融合，得到第一融合特征，包括：将所述多个第一视频帧特征进行均值池化，得到第一整体视频特征；根据所述第一整体视频特征和所述第一文本结尾特征进行特征融合，得到第一融合特征。 4.根据权利要求3所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：根据所述目标视频特征、所述目标文本特征以及预设的可学习矩阵，确定所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率；根据所述二分类概率与所述视频文本样本对所对应的真实匹配标注确定第一损失函数，并根据所述第一损失函数确定目标函数，其中，所述真实匹配标注用于标注所述视频文本样本对中的视频样本与文本样本是否匹配。 5.根据权利要求3所述的视觉文本预训练模型的训练方法，其特征在于，所述方法还包括：获取包含有多个所述视频文本样本对的训练样本集；基于所述训练样本集中多个所述视频文本样本对所对应的所述初始视频特征、所述初始文本特征、所述桥接特征和所述预设的掩码矩阵，确定目标视频特征集合和目标文本特征集合，其中，所述目标视频特征集合中包含每个所述视频样本对应的目标视频特征、以及每个所述文本样本对应的目标文本特征，所述目标文本特征集合中的每个目标文本特征包括第二文本结尾特征，所述目标视频特征集合中的每个目标视频特征包括多个第二视频帧权　利　要　求　书 1/4 页 2 CN 115131638 A 2特征；根据所述第一整体视频特征，从所述目标文本特征集合对应的多个所述第二文本结尾特征中确定一个难负文本特征；分别将所述目标视频特征集合中的每个目标视频特征所对应的多个第二视频帧特征进行均值池化，得到所述目标视频特征集合中的每个目标视频特征所对应的第二整体视频特征；根据所述第一文本结尾特征，从所述目标视频特征集合对应的多个所述第二整体视频特征中确定一个难负视频特征。 6.根据权利要求5所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：根据所述目标视频特征、所述目标文本特征、以及预设的可学习矩阵，确定所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率、所述目标视频特征和所述难负文本特征之间是否匹配的二分类概率、以及所述目标文本特征和所述难负视频特征之间是否匹配的二分类概率；根据所述目标视频特征和所述目标文本特征之间是否匹配的二分类概率、所述目标视频特征和所述难负文本特征之间是否匹配的二分类概率、所述目标文本特征和所述难负视频特征之间是否匹配的二分类概率、以及所述目标视频特征和所述目标文本特征对应的真实匹配标注、所述目标视频特征和所述难负文本特征对应的真实匹配标注、所述目标文本特征和所述难负视频特征之间的真实匹配标注确定第一损失函数，并根据所述第一损失函数确定目标函数，其中，所述真实匹配标注用于标注不同特征之间是否匹配。 7.根据权利要求5所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：计算所述第一整体视频特征与所述第一文本结尾特征之间的第二相似度；计算所述第一整体视频特征，以及多个所述第二文本结尾特征中不与所述第一整体视频特征对应的第二文本结尾特征之间的第三相似度；根据所述第二相似度和所述第三相似度确定第二损失函数，并根据所述第二损失函数确定目标函数。 8.根据权利要求7所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特征确定目标函数，包括：计算所述第一文本结尾特征与所述第一整体视频特征之间的第四相似度；计算所述第一文本结尾特征，以及多个所述第二整体视频特征中不与所述第一文本结尾特征相对应的第二整体视频特征之间的第五相似度；根据所述第四相似度和所述第五相似度确定第三损失函数，并根据所述第三损失函数确定目标函数。 9.根据权利要求8所述的视觉文本预训练模型的训练方法，其特征在于，所述根据所述初始视频特征、所述初始文本特征、所述桥接特征、所述目标视频特征以及所述目标文本特权　利　要　求　书 2/4 页 3 CN 115131638 A 3

专利 视觉文本预训练模型的训练方法、装置、介质和设备

专利视觉文本预训练模型的训练方法、装置、介质和设备