(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210613785.4
(22)申请日 2022.06.01
(65)同一申请的已公布的文献号
申请公布号 CN 114723843 A
(43)申请公布日 2022.07.08
(73)专利权人 广东时谛智能科技有限公司
地址 510308 广东省广州市海珠区新港东
路70号之四幢自编0 01号
(72)发明人 张绪杰 黄成文 梁小丹
(74)专利代理 机构 北京泽方誉航专利代理事务
所(普通合伙) 11884
专利代理师 陈照辉
(51)Int.Cl.
G06T 11/00(2006.01)
G06V 10/26(2022.01)
G06V 10/74(2022.01)
G06V 10/80(2022.01)G06V 10/82(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 40/284(2020.01)
(56)对比文件
CN 114491125 A,202 2.05.13
CN 114565119 A,202 2.05.31
CN 113393550 A,2021.09.14
CN 111062432 A,2020.04.24
CN 114169255 A,2022.03.11
US 2020311798 A1,2020.10.01
CN 110956579 A,2020.04.0 3
周作为 等. “利用自然语言文本描述进行图
像编辑”. 《电子技 术与软件工程》 .2020,1 19-
121.
审查员 陈英
(54)发明名称
多模态融合生成虚拟服装方法、 装置、 设备
及存储介质
(57)摘要
本申请公开了一种多模态融合生成虚拟服
装方法、 装置、 设备及存储介质。 本申请通过确定
样本服装图像的各个语义块与样本文本序列的
各个词汇的对应 关系, 并根据该对应 关系将服装
的原图编码和文本编码进行融合, 并根据融合后
的编码优化特征编码本, 以使特征编码本融合服
装细节图像特征和对应描述文本特征, 生成多模
态特征编码。 通过特征编码本获取草稿编码图、
局部图编码和文本编码转换成对应的多模态特
征编码, 并通过多模态特征编码训练基于注意力
机制的图像预测模型, 以便通过注 意力预测模型
将多个多模态特征编码进行融合 以预测服装的
图像。 通过上述技术手段, 关注虚拟服装的细 节,
优化虚拟服装的视 觉效果。
权利要求书3页 说明书13页 附图6页
CN 114723843 B
2022.12.06
CN 114723843 B
1.一种多模态融合 生成虚拟服装方法, 其特 征在于, 包括:
获取样本服装图像对应的语义分割图和样本文本序列, 根据所述语义分割图的语义图
像编码和所述样本文本序列的文本编 码, 确定所述语义分割图中各个语义块对应的所述样
本文本序列中的词汇;
将所述样本服装图像输入预设的第一编码器, 得到所述第一编码器输出的原图编码,
根据所述语义块在所述语义分割图中的位置信息, 将所述原图编 码中对应位置信息处的编
码与所述语义块对应词汇的编码进行加权求和, 得到二维融合编码, 将所述二维融合编码
进行离散化, 得到多个一维编码;
计算所述一维编码与各个样本编码之间的距离值, 确定距离值最小的样本编码, 根据
所述距离值最小的样本编码, 优化对应的一维编码, 并将优化后的一维编码替换特征编码
本中所述距离值最小的样本编 码, 通过预设的解码器对优化后的一 维编码进 行解码得到复
原图像, 根据所述复原图像和所述样本服装图像优化所述 解码器和所述第一编码器;
获取所述样本服装图像对应的样本草稿图像和样本局部图像, 根据优化好的特征编码
本将所述样本草稿图像的草稿图编 码、 所述样本局部图像的局部图编 码和所述文本编 码分
别转换为第一样本编码、 第二样本编码和第三样本编码;
将所述第一样本编码、 所述第 二样本编码和所述第 三样本编码输入预设的注意力预测
模型, 得到所述注意力预测模型输出 的预测编码, 根据所述预测编码和所述原图编码优化
所述注意力预测模型。
2.根据权利要求1所述的多模态融合生成虚拟服装方法, 其特征在于, 所述根据 所述语
义分割图的语义图像编 码和所述样本文本序列的文本编 码, 确定所述语义分割图中各个语
义块对应的所述样本文本序列中的词汇, 包括:
将所述语义分割图输入预先训练的第 二编码器, 得到所述第 二编码器输出的语义图像
编码, 将所述样本文本序列输入预先训练的第三编码器, 得到所述第三编码器输出 的文本
编码;
将所述语义图像编码和所述文本编码输入预先训练 的分数预测模型, 通过所述分数预
测模型确定所述语义图像编码中各个语义块的编码与所述文本编码中各个词汇的编码的
相似度, 根据所述相似度确定各个语义块与各个词汇之间的关系分数, 根据所述关系分数
确定所述语义 块对应的词汇。
3.根据权利要求1所述的多模态融合生成虚拟服装方法, 其特征在于, 所述根据 所述复
原图像和所述样本服装图像优化所述 解码器和所述第一编码器, 包括:
将所述样本服装图像和所述复原图像分别划分为多个第 一图像块和多个第 二图像块,
将所述第一图像块和所述第二图像块输入预设的鉴别器中, 得到所述 鉴别器输出的数值;
将各个数值进行结合得到对抗生成网络损失, 根据 所述对抗生成网络损失进行反向梯
度传播, 分步更新所述第一编码器、 所述 解码器和所述 鉴别器的模型参数。
4.根据权利要求1所述的多模态融合生成虚拟服装方法, 其特征在于, 所述根据优化好
的特征编 码本将所述样本草稿图像的草稿图编 码、 所述样本局部图像的局部图编 码和所述
文本编码分别转换为第一样本编码、 第二样本编码和第三样本编码, 包括:
将所述样本草稿图像输入预先训练 的第四编码器, 得到所述第四编码器输出的草稿图
编码, 将所述样本局部图像输入训练好的第一编码器, 得到所述第一编码器输出 的局部图权 利 要 求 书 1/3 页
2
CN 114723843 B
2编码;
确定所述草稿图编码、 所述局部图编码和所述文本编码与优化好的特征编码本 中的各
个样本编码的距离值, 确定对应距离值最小的样本编码为所述第一样本编码、 所述第二样
本编码和所述第三样本编码。
5.根据权利要求1所述的多模态融合生成虚拟服装方法, 其特征在于, 所述将所述第 一
样本编码、 所述第二样本编码和所述第三样本编码输入预设的注意力预测模型, 得到所述
注意力预测模型输出的预测 编码, 根据所述预测 编码和所述原图编 码优化所述注意力预测
模型, 包括:
将所述第一样本编码、 所述第二样本编码和所述第三样本编码进行组合, 并通过特定
标记隔离所述第一样本编码、 所述第二样本编码和所述第三样本编码, 得到组合样本编码;
将所述组合样本编码输入所述注意力预测模型, 得到所述注意力预测模型输出的预测
编码;
通过对数似然函数确定所述预测编码和所述原图编码的损失值, 并根据 所述损失值优
化所述注意力预测模型的模型参数。
6.根据权利要求1 ‑5任一所述的多模态融合生成虚拟服装方法, 其特征在于, 在所述根
据所述预测编码和所述原图编码优化所述注意力预测模型之后, 还 包括:
通过训练好的第 三编码器确定目标文本序列的编码, 通过训练好的第 一编码器确定目
标局部图像的编码和/或通过训练好的第四编码器确定目标草稿图像的编码;
通过优化好的特征编码本将所述目标文本序列的编码转换为对应的样本编码, 通过优
化好的特征编 码本将所述目标局部图像和/或所述目标草稿图像的编 码转换为对应的样本
编码;
将所述目标文本序列以及所述目标草稿图像和/或所述目标局部图像的样本编码输入
训练好的注意力预测模型, 得到所述注意力预测模型输出的目标 预测编码;
将所述目标 预测编码输入训练好的解码器, 得到所述 解码器输出的目标服装图像。
7.一种多模态融合 生成虚拟服装 装置, 其特 征在于, 包括:
关系确定模块, 被配置为获取样本服装图像对应的语义分割图和样本文本序列, 根据
所述语义分割图的语义图像编 码和所述样本文本序列的文本编 码, 确定所述语义分割图中
各个语义块对应的所述样本文本序列中的词汇;
编码融合模块, 被配置为将所述样本服装图像输入预设的第一编码器, 得到所述第一
编码器输出 的原图编码, 根据所述语义块在所述语义分割图中的位置信息, 将所述原图编
码中对应位置信息处的编 码与所述语义块对应词汇的编 码进行加权求和, 得到二 维融合编
码, 将所述 二维融合编码进行离 散化, 得到多个一维编码;
第一训练模块, 被配置为计算所述一维编码与各个样本编码之间的距离值, 确定距离
值最小的样本编 码, 根据所述距离值最小的样 本编码, 优化对应的一维编 码, 并将优化后的
一维编码替换特征编码本中所述距离值最小的样本编 码, 通过预设的解码器对优化后的一
维编码进 行解码得到复原图像, 根据所述复原图像和所述样本服装图像优化所述解码器和
所述第一编码器;
编码转换模块, 被配置为获取所述样本服装图像对应的样本草稿图像和样本局部图
像, 根据优化好的特征编码本将所述样本草稿图像的草稿图编码、 所述样本局部图像的局权 利 要 求 书 2/3 页
3
CN 114723843 B
3
专利 多模态融合生成虚拟服装方法、装置、设备及存储介质
文档预览
中文文档
23 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:29:01上传分享