专利 一种多模态数据集的数据增强方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211139105.6 (22)申请日 2022.09.19 (71)申请人鼎富智能科技有限公司地址 230000 安徽省合肥市高新区习友路 3333号A1楼19层-B区 (72)发明人刘小康　李健铨　胡加明　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师周宇 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/74(2022.01) (54)发明名称一种多模态数据集的数据增强方法及装置 (57)摘要本申请提供一种多模态数据集的数据增强方法及装置，应用于数据处理技术领域，其中，方法包括：获取多模态数据集中的第一图像文本对；将第一图像文本对中的第一图像转换为对应的第一图像向量；根据第一图像向量生成第二图像向量；将第二图像向量转换为对应的第二图像，得到第二图像文本对；其中，第二图像文本对包括第二图像以及第一图像文本对中的文本；将第二图像文本对加入多模态数据集中，以实现对多模态数据集的数据增强。与现有技术中直接对图像进行处理相比，本申请实施例中对图像转换得到的向量进行处理，从而可以得到更多的新的图像，同时还可以得到改变风格后的图像。因此，本申请实施例中对多模态数据集进行数据增强的效果较好。权利要求书2页说明书12页附图2页 CN 115546577 A 2022.12.30 CN 115546577 A 1.一种多模态数据集的数据增强方法，其特征在于，包括：获取多模态数据集中的第一图像文本对；其中，所述多模态数据集包括多组图像文本对，每组图像文本对包括一张图像以及用于描述该图像的文本；将所述第一图像文本对中的第一图像转换为对应的第一图像向量；根据所述第一图像向量生成第二图像向量；将所述第二图像向量转换为对应的第二图像，得到第二图像文本对；其中，所述第二图像文本对包括所述第二图像以及所述第一图像文本对中的文本；将所述第二图像文本对加入所述多模态数据集中，以实现对所述多模态数据集的数据增强。 2.根据权利要求1所述的多模态数据集的数据增强方法，其特征在于，所述将所述第一图像文本对中的第一图像转换为对应的第一图像向量的步骤，通过数据转换模型中的图像编码器执行。 3.根据权利要求2所述的多模态数据集的数据增强方法，其特征在于，所述数据转换模型还包括：文本编码器以及图像文本匹配网络，所述数据转换模型通过如下过程进行训练：获取多个样本图像、多个样本文本以及对应的标注数据；其中，所述标注数据用于表征所述样本图像与所述样本文本之间的真实匹配关系；将所述多个样本图像输入所述图像编码器中，得到对应的多个样本图像向量，以及，将所述多个样本文本输入所述文本编码器中，得到对应的多个样本文本向量；将所述多个样本图像向量以及所述多个样本文本向量输入所述图像文本匹配网络中，得到对应的预测匹配关系；根据所述预测匹配关系以及所述标注数据，对所述数据转换模型的参数进行更新。 4.根据权利要求3所述的多模态数据集的数据增强方法，其特征在于，所述数据转换模型为CLIP模型。 5.根据权利要求4所述的多模态数据集的数据增强方法，其特征在于，所述根据所述预测匹配关系以及所述标注数据，对所述数据转换模型的参数进行更新，包括：根据所述CLIP模型对应的损失函数计算表征所述预测匹配关系与所述真实匹配关系之间的差异的预测损失；其中，所述损失函数用于增大匹配的样本图像与样本文本之间的相似度，降低不匹配的样本图像与样本文本之间的相似度；根据所述预测损失更新所述数据转换模型的参数。 6.根据权利要求1 ‑5任一项所述的多模态数据集的数据增强方法，其特征在于，所述根据所述第一图像向量生成第二图像向量，包括：获取所述多模态数据集中的第三图像文本对；将所述图像文本对中的第三图像转换为对应的第三图像向量；对所述第一图像向量以及所述第三图像向量进行球面线性插值，得到所述第二图像向量。 7.一种多模态数据集的数据增强装置，其特征在于，包括：获取模块，用于获取多模态数据集中的第一图像文本对；其中，所述多模态数据集包括多组图像文本对，每组图像文本对包括一张图像以及用于描述该图像的文本；第一转换模块，用于将所述第一图像文本对中的第一图像转换为对应的第一图像向权　利　要　求　书 1/2 页 2 CN 115546577 A 2量；生成模块，用于根据所述第一图像向量生成第二图像向量；第二转换模块，用于将所述第二图像向量转换为对应的第二图像，得到第二图像文本对；其中，所述第二图像文本对包括所述第二图像以及所述第一图像文本对中的文本；数据增强模块，用于将所述第二图像文本对加入所述多模态数据集中，以实现对所述多模态数据集的数据增强。 8.一种计算机程序产品，其特征在于，包括计算机程序指令，所述计算机程序指令被处理器读取并运行时，执行如权利要求1 ‑5任一项所述的多模态数据集的数据增强方法。 9.一种电子设备，其特征在于，包括：处理器、存储器和总线；所述处理器和所述存储器通过所述总线完成相互间的通信；所述存储器存储有可被所述处理器执行的计算机程序指令，所述处理器调用所述计算机程序指令能够执行如权利要求1 ‑5任一项所述的多模态数据集的数据增强方法。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序指令，所述计算机程序指令被计算机运行时，使所述计算机执行如权利要求 1‑5任一项所述的多模态数据集的数据增强方法。权　利　要　求　书 2/2 页 3 CN 115546577 A 3

专利 一种多模态数据集的数据增强方法及装置

专利一种多模态数据集的数据增强方法及装置