(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211139105.6
(22)申请日 2022.09.19
(71)申请人 鼎富智能科技有限公司
地址 230000 安徽省合肥市高新区习友路
3333号A1楼19层-B区
(72)发明人 刘小康 李健铨 胡加明
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 周宇
(51)Int.Cl.
G06V 10/774(2022.01)
G06V 10/82(2022.01)
G06V 10/74(2022.01)
(54)发明名称
一种多模态数据集的数据增强方法及装置
(57)摘要
本申请提供一种多模态数据集的数据增强
方法及装置, 应用于数据处理技术领域, 其中, 方
法包括: 获取多模态数据集中的第一图像文本
对; 将第一图像文本对中的第一图像转换为对应
的第一图像向量; 根据第一图像向量生成第二图
像向量; 将第二图像向量转换为对应的第二图
像, 得到第二图像文本对; 其中, 第二图像文本对
包括第二图像以及第一图像文本对中的文本; 将
第二图像文本对加入多模态数据集中, 以实现对
多模态数据集的数据增强。 与现有技术中直接对
图像进行处理相比, 本申请实施例中对图像转换
得到的向量进行处理, 从而可以得到更多的新的
图像, 同时还可以得到改变风格后的图像。 因此,
本申请实施例中对多模态数据集进行数据增强
的效果较好。
权利要求书2页 说明书12页 附图2页
CN 115546577 A
2022.12.30
CN 115546577 A
1.一种多模态数据集的数据增强方法, 其特 征在于, 包括:
获取多模态数据集中的第一图像文本对; 其中, 所述多模态数据集包括多组图像文本
对, 每组图像文本对 包括一张图像以及用于描述该图像的文本;
将所述第一图像文本对中的第一图像转换为对应的第一图像向量;
根据所述第一图像向量 生成第二图像向量;
将所述第 二图像向量转换为对应的第 二图像, 得到第 二图像文本对; 其中, 所述第二图
像文本对 包括所述第二图像以及所述第一图像文本对中的文本;
将所述第二图像文本对加入所述多模态数据集中, 以实现对所述多模态数据集的数据
增强。
2.根据权利要求1所述的多模态数据集的数据增强方法, 其特征在于, 所述将所述第 一
图像文本对中的第一图像转换为对应的第一图像向量的步骤, 通过数据转换模型中的图像
编码器执 行。
3.根据权利要求2所述的多模态数据集的数据增强方法, 其特征在于, 所述数据转换模
型还包括: 文本编码器以及图像文本匹配网络, 所述数据转换模型通过如下 过程进行训练:
获取多个样本图像、 多个样本文本以及对应的标注数据; 其中, 所述标注数据用于表征
所述样本图像与所述样本文本之间的真实匹配关系;
将所述多个样本图像输入所述图像编码器中, 得到对应的多个样本图像向量, 以及, 将
所述多个样本文本 输入所述文本编码器中, 得到对应的多个样本文本向量;
将所述多个样本图像向量以及所述多个样本文本向量输入所述图像文本匹配网络 中,
得到对应的预测匹配关系;
根据所述预测匹配关系以及所述标注数据, 对所述数据转换模型的参数进行 更新。
4.根据权利要求3所述的多模态数据集的数据增强方法, 其特征在于, 所述数据转换模
型为CLIP模型。
5.根据权利要求4所述的多模态数据集的数据增强方法, 其特征在于, 所述根据 所述预
测匹配关系以及所述标注数据, 对所述数据转换模型的参数进行 更新, 包括:
根据所述CLIP模型对应的损失函数计算表征所述预测匹配关系与所述真实匹配关系
之间的差异的预测损失; 其中, 所述损失函数用于增大匹配的样本图像与样本文本之间的
相似度, 降低不匹配的样本图像与样本文本之间的相似度;
根据所述预测损失更新所述数据转换模型的参数。
6.根据权利要求1 ‑5任一项所述的多模态数据集的数据增强方法, 其特征在于, 所述根
据所述第一图像向量 生成第二图像向量, 包括:
获取所述多模态数据集中的第三图像文本对;
将所述图像文本对中的第三图像转换为对应的第三图像向量;
对所述第一图像向量以及所述第 三图像向量进行球面线性插值, 得到所述第 二图像向
量。
7.一种多模态数据集的数据增强装置, 其特 征在于, 包括:
获取模块, 用于获取多模态数据集中的第一图像文本对; 其中, 所述多模态数据集包括
多组图像文本对, 每组图像文本对 包括一张图像以及用于描述该图像的文本;
第一转换模块, 用于将所述第一图像文本对中的第一图像转换为对应的第一图像向权 利 要 求 书 1/2 页
2
CN 115546577 A
2量;
生成模块, 用于根据所述第一图像向量 生成第二图像向量;
第二转换模块, 用于将所述第二图像向量转换为对应的第二图像, 得到第二图像文本
对; 其中, 所述第二图像文本对 包括所述第二图像以及所述第一图像文本对中的文本;
数据增强模块, 用于将所述第二图像文本对加入所述多模态数据集中, 以实现对所述
多模态数据集的数据增强。
8.一种计算机程序产品, 其特征在于, 包括计算机程序指令, 所述计算机程序指令被处
理器读取并运行时, 执 行如权利要求1 ‑5任一项所述的多模态数据集的数据增强方法。
9.一种电子设备, 其特 征在于, 包括: 处 理器、 存储器和总线;
所述处理器和所述存 储器通过 所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的计算机程序指令, 所述处理器调用所述计算
机程序指令能够执 行如权利要求1 ‑5任一项所述的多模态数据集的数据增强方法。
10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储计算机程序
指令, 所述计算机程序指 令被计算机运行时, 使 所述计算机执行如权利要求 1‑5任一项所述
的多模态数据集的数据增强方法。权 利 要 求 书 2/2 页
3
CN 115546577 A
3
专利 一种多模态数据集的数据增强方法及装置
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:32上传分享