(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211080126.5
(22)申请日 2022.09.05
(65)同一申请的已公布的文献号
申请公布号 CN 115205949 A
(43)申请公布日 2022.10.18
(73)专利权人 腾讯科技 (深圳) 有限公司
地址 518057 广东省深圳市南 山区高新区
科技中一路腾讯大厦3 5层
(72)发明人 徐超 朱俊伟 储文青 邰颖
汪铖杰
(74)专利代理 机构 深圳翼盛智成知识产权事务
所(普通合伙) 44300
专利代理师 李玉婷
(51)Int.Cl.
G06V 40/16(2022.01)G06V 10/74(2022.01)
G06V 10/774(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
审查员 张楠霞
(54)发明名称
图像生成方法以及相关 设备
(57)摘要
本申请公开了一种图像生成方法以及相关
设备, 相关实施例可应用于云技术、 人工智能、 智
慧交通、 辅助驾驶等各种场景; 可 以获取目标对
象的原始面部图像帧、 待生 成的目标面部图像帧
对应的音频驱动信息、 以及情绪引 导信息; 对原
始面部图像帧进行空间特征提取, 得到原始面部
空间特征; 对音频驱动信息和情绪引导信息进行
特征交互处理, 得到面部局部姿态特征; 基于原
始面部空间特征和面部局部姿态特征对目标对
象进行面部重建处理, 生成目标面部图像帧。 本
申请可以利用音频驱动信息和情绪引导信息, 捕
捉目标对象部分的面部姿态细 节信息, 进而对原
始面部图像帧进行面部调整, 获取对应的目标面
部图像帧, 这样有利于提高目标面部图像帧的生
成效率和准确性。
权利要求书4页 说明书31页 附图4页
CN 115205949 B
2022.12.06
CN 115205949 B
1.一种图像生成方法, 其特 征在于, 包括:
获取目标对象的原始面部 图像帧、 待生成的目标面部 图像帧对应的音频驱动信息、 以
及情绪引导信息;
对所述原始面部图像帧进行空间特征提取, 得到所述原始面部图像帧对应的原始面部
空间特征;
对所述音频驱动信 息和所述情绪引导信 息进行特征交互处理, 得到所述目标面部图像
帧对应的面部局部姿态特征, 具体包括: 对所述音频驱动信息中每个音频帧对应的字符串
按照音频帧的顺序进行排列, 得到排列后的字符串序列, 将所述情绪引导信息对应的字符
串添加到所述排列后的字符串序列中, 得到目标字符串序列, 针对所述 目标字符串序列中
的每个字符串, 提取所述字符串的特征信息, 根据所述字符串的前后字符串的特征信息, 对
所述字符串的特征信息进行处理, 将处理后的每个字符串的特征信息进行融合, 得到交互
特征信息, 基于所述交互特征信息和所述情绪引导信息, 预测所述 目标面部图像 帧对应的
面部局部姿态特 征;
对所述原始面部空间特征和所述面部局部姿态特征进行融合, 得到 融合后面部空间特
征; 基于所述融合后面部空间特征, 对 所述目标对象进 行面部重 建处理, 得到所述目标对象
对应的参 考面部图像帧;
对所述原始面部图像帧进行多尺度的特征提取, 得到所述原始面部图像帧对应的多个
尺度下的原始面部特征图; 对所述参考面部图像 帧进行多尺度的特征提取, 得到所述参考
面部图像帧对应的多个尺度下的参 考面部特征图;
对所述融合后面部空间特征进行编码映射处理, 得到所述融合后 面部空间特征对应的
隐特征信息; 将所述多个尺度下 的原始面部特征图、 所述多个尺度下 的参考面部特征图以
及所述隐特 征信息进行融合, 得到所述目标面部图像帧。
2.根据权利要求1所述的方法, 其特征在于, 所述对所述音频驱动信 息和所述情绪引导
信息进行 特征交互处理, 得到所述目标面部图像帧对应的面部局部姿态特 征, 还包括:
对所述音频驱动信息和所述情绪引导信息进行特征交互处理, 得到交互特征信息, 具
体包括: 对所述音频驱动信息中每个音频帧对应的字符串按照音频帧的顺序进行排列, 得
到排列后的字符串序列, 将所述情绪引导信息对应的字符串 添加到所述排列后的字符串序
列中, 得到目标字符串序列, 针对所述目标字符串序列中的每个字 符串, 提取所述字 符串的
特征信息, 根据所述字符串的前后字符串的特征信息, 对所述字符串的特征信息进 行处理,
将处理后的每 个字符串的特 征信息进行融合, 得到交 互特征信息;
基于所述交互特征信 息和所述情绪引导信 息, 预测所述目标面部图像帧对应的面部局
部姿态特 征。
3.根据权利要求2所述的方法, 其特征在于, 所述对所述音频驱动信 息和所述情绪引导
信息进行 特征交互处理, 得到交 互特征信息, 还 包括:
提取所述原始面部空间特 征中的对象身份信息;
对所述音频驱动信 息中各音频帧进行位置嵌入处理, 得到所述音频驱动信 息对应的位
置编码信息;
将所述对象身份信息、 所述位置编码信息、 所述音频驱动信息和所述情绪引导信息进
行特征交互处理, 得到交 互特征信息。权 利 要 求 书 1/4 页
2
CN 115205949 B
24.根据权利要求2所述的方法, 其特征在于, 所述基于所述交互特征信 息和所述情绪引
导信息, 预测所述目标面部图像帧对应的面部局部姿态特 征, 包括:
将所述交 互特征信息和所述情绪引导信息进行融合, 得到融合后特 征信息;
对所述融合后特征信 息进行解码处理, 得到所述目标面部图像帧对应的面部局部姿态
特征。
5.根据权利要求1所述的方法, 其特征在于, 所述对所述音频驱动信 息和所述情绪引导
信息进行 特征交互处理, 得到所述目标面部图像帧对应的面部局部姿态特 征, 包括:
设置所述情绪引导信息对应的预设情绪强度信息;
对所述音频驱动信 息、 所述情绪引导信 息以及所述预设情绪强度信 息进行特征交互处
理, 得到所述目标面部图像帧对应的面部局部姿态特 征和目标情绪强度信息;
所述对所述音频驱动信 息和所述情绪引导信 息进行特征交互处理, 得到所述目标面部
图像帧对应的面部局部姿态特 征之后, 还 包括:
基于所述原始面部空间特征、 所述面部局部姿态特征以及所述目标情绪强度信息, 对
所述目标对象进行面部 重建处理, 生成所述目标面部图像帧。
6.根据权利要求1所述的方法, 其特征在于, 所述基于所述融合后面部空间特征, 对所
述目标对象进行面部 重建处理, 得到所述目标对象对应的参 考面部图像帧, 包括:
基于所述融合后面部空间特征, 对所述目标对象进行面部重建处理, 得到所述目标对
象对应的重建后三维面部图像;
对所述重建后三维面部图像进行渲染映射处理, 得到所述目标对象对应的参考面部图
像帧。
7.根据权利要求1所述的方法, 其特征在于, 所述对所述原始面部图像帧进行空间特征
提取, 得到所述原 始面部图像帧对应的原 始面部空间特 征, 包括:
通过图像生成模型, 对所述原始面部 图像帧进行空间特征提取, 得到所述原始面部 图
像帧对应的原 始面部空间特 征;
所述对所述音频驱动信 息和所述情绪引导信 息进行特征交互处理, 得到所述目标面部
图像帧对应的面部局部姿态特 征, 包括:
通过所述图像生成模型, 对所述音频驱动信息和所述情绪引导信息进行特征交互处
理, 得到所述目标面部图像帧对应的面部局部姿态特 征。
8.根据权利要求7所述的方法, 其特征在于, 所述通过图像生成模型, 对所述原始面部
图像帧进行空间特征提取, 得到所述原始面部图像 帧对应的原始面部空间特征之前, 还包
括:
获取训练数据, 所述训练数据包括样本对象的原始面部 图像帧样本、 目标驱动面部 图
像帧样本、 以及所述目标驱动面部图像帧样本对应的音频驱动信息样本和情绪引导信息样
本;
通过预设图像生成模型, 对所述原始面部 图像帧样本进行空间特征提取, 得到所述原
始面部图像帧样本对应的原 始面部空间特 征;
对所述音频驱动信 息样本和所述情绪引导信 息样本进行特征交互处理, 得到所述目标
驱动面部图像帧样本对应的面部局部姿态特 征;
基于所述原始面部空间特征和所述面部局部姿态特征, 对所述样本对象进行面部重建权 利 要 求 书 2/4 页
3
CN 115205949 B
3
专利 图像生成方法以及相关设备
文档预览
中文文档
40 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共40页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:28:46上传分享