专利 图像生成方法以及相关设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211080126.5 (22)申请日 2022.09.05 (65)同一申请的已公布的文献号申请公布号 CN 115205949 A (43)申请公布日 2022.10.18 (73)专利权人腾讯科技（深圳）有限公司地址 518057 广东省深圳市南山区高新区科技中一路腾讯大厦3 5层 (72)发明人徐超　朱俊伟　储文青　邰颖　汪铖杰　 (74)专利代理机构深圳翼盛智成知识产权事务所(普通合伙) 44300 专利代理师李玉婷 (51)Int.Cl. G06V 40/16(2022.01)G06V 10/74(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) 审查员张楠霞 (54)发明名称图像生成方法以及相关设备 (57)摘要本申请公开了一种图像生成方法以及相关设备，相关实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；可以获取目标对象的原始面部图像帧、待生成的目标面部图像帧对应的音频驱动信息、以及情绪引导信息；对原始面部图像帧进行空间特征提取，得到原始面部空间特征；对音频驱动信息和情绪引导信息进行特征交互处理，得到面部局部姿态特征；基于原始面部空间特征和面部局部姿态特征对目标对象进行面部重建处理，生成目标面部图像帧。本申请可以利用音频驱动信息和情绪引导信息，捕捉目标对象部分的面部姿态细节信息，进而对原始面部图像帧进行面部调整，获取对应的目标面部图像帧，这样有利于提高目标面部图像帧的生成效率和准确性。权利要求书4页说明书31页附图4页 CN 115205949 B 2022.12.06 CN 115205949 B 1.一种图像生成方法，其特征在于，包括：获取目标对象的原始面部图像帧、待生成的目标面部图像帧对应的音频驱动信息、以及情绪引导信息；对所述原始面部图像帧进行空间特征提取，得到所述原始面部图像帧对应的原始面部空间特征；对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征，具体包括：对所述音频驱动信息中每个音频帧对应的字符串按照音频帧的顺序进行排列，得到排列后的字符串序列，将所述情绪引导信息对应的字符串添加到所述排列后的字符串序列中，得到目标字符串序列，针对所述目标字符串序列中的每个字符串，提取所述字符串的特征信息，根据所述字符串的前后字符串的特征信息，对所述字符串的特征信息进行处理，将处理后的每个字符串的特征信息进行融合，得到交互特征信息，基于所述交互特征信息和所述情绪引导信息，预测所述目标面部图像帧对应的面部局部姿态特征；对所述原始面部空间特征和所述面部局部姿态特征进行融合，得到融合后面部空间特征；基于所述融合后面部空间特征，对所述目标对象进行面部重建处理，得到所述目标对象对应的参考面部图像帧；对所述原始面部图像帧进行多尺度的特征提取，得到所述原始面部图像帧对应的多个尺度下的原始面部特征图；对所述参考面部图像帧进行多尺度的特征提取，得到所述参考面部图像帧对应的多个尺度下的参考面部特征图；对所述融合后面部空间特征进行编码映射处理，得到所述融合后面部空间特征对应的隐特征信息；将所述多个尺度下的原始面部特征图、所述多个尺度下的参考面部特征图以及所述隐特征信息进行融合，得到所述目标面部图像帧。 2.根据权利要求1所述的方法，其特征在于，所述对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征，还包括：对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到交互特征信息，具体包括：对所述音频驱动信息中每个音频帧对应的字符串按照音频帧的顺序进行排列，得到排列后的字符串序列，将所述情绪引导信息对应的字符串添加到所述排列后的字符串序列中，得到目标字符串序列，针对所述目标字符串序列中的每个字符串，提取所述字符串的特征信息，根据所述字符串的前后字符串的特征信息，对所述字符串的特征信息进行处理，将处理后的每个字符串的特征信息进行融合，得到交互特征信息；基于所述交互特征信息和所述情绪引导信息，预测所述目标面部图像帧对应的面部局部姿态特征。 3.根据权利要求2所述的方法，其特征在于，所述对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到交互特征信息，还包括：提取所述原始面部空间特征中的对象身份信息；对所述音频驱动信息中各音频帧进行位置嵌入处理，得到所述音频驱动信息对应的位置编码信息；将所述对象身份信息、所述位置编码信息、所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到交互特征信息。权　利　要　求　书 1/4 页 2 CN 115205949 B 24.根据权利要求2所述的方法，其特征在于，所述基于所述交互特征信息和所述情绪引导信息，预测所述目标面部图像帧对应的面部局部姿态特征，包括：将所述交互特征信息和所述情绪引导信息进行融合，得到融合后特征信息；对所述融合后特征信息进行解码处理，得到所述目标面部图像帧对应的面部局部姿态特征。 5.根据权利要求1所述的方法，其特征在于，所述对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征，包括：设置所述情绪引导信息对应的预设情绪强度信息；对所述音频驱动信息、所述情绪引导信息以及所述预设情绪强度信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征和目标情绪强度信息；所述对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征之后，还包括：基于所述原始面部空间特征、所述面部局部姿态特征以及所述目标情绪强度信息，对所述目标对象进行面部重建处理，生成所述目标面部图像帧。 6.根据权利要求1所述的方法，其特征在于，所述基于所述融合后面部空间特征，对所述目标对象进行面部重建处理，得到所述目标对象对应的参考面部图像帧，包括：基于所述融合后面部空间特征，对所述目标对象进行面部重建处理，得到所述目标对象对应的重建后三维面部图像；对所述重建后三维面部图像进行渲染映射处理，得到所述目标对象对应的参考面部图像帧。 7.根据权利要求1所述的方法，其特征在于，所述对所述原始面部图像帧进行空间特征提取，得到所述原始面部图像帧对应的原始面部空间特征，包括：通过图像生成模型，对所述原始面部图像帧进行空间特征提取，得到所述原始面部图像帧对应的原始面部空间特征；所述对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征，包括：通过所述图像生成模型，对所述音频驱动信息和所述情绪引导信息进行特征交互处理，得到所述目标面部图像帧对应的面部局部姿态特征。 8.根据权利要求7所述的方法，其特征在于，所述通过图像生成模型，对所述原始面部图像帧进行空间特征提取，得到所述原始面部图像帧对应的原始面部空间特征之前，还包括：获取训练数据，所述训练数据包括样本对象的原始面部图像帧样本、目标驱动面部图像帧样本、以及所述目标驱动面部图像帧样本对应的音频驱动信息样本和情绪引导信息样本；通过预设图像生成模型，对所述原始面部图像帧样本进行空间特征提取，得到所述原始面部图像帧样本对应的原始面部空间特征；对所述音频驱动信息样本和所述情绪引导信息样本进行特征交互处理，得到所述目标驱动面部图像帧样本对应的面部局部姿态特征；基于所述原始面部空间特征和所述面部局部姿态特征，对所述样本对象进行面部重建权　利　要　求　书 2/4 页 3 CN 115205949 B 3

专利 图像生成方法以及相关设备

专利图像生成方法以及相关设备