图像生成模型的训练方法、图像生成方法、装置、电子设备、计算机程序产品及存储介质与流程

专利查询2025-04-29 63

本申请涉及人工智能技术，尤其涉及一种图像生成模型的训练方法、图像生成方法、装置、计算机程序产品及计算机可读存储介质。

背景技术：

1、生成表情也被称为面捕动画或面部合成，也是计算机视觉和图形学的重要研究领域。该领域的目标是创造出真实、逼真的人脸表情，这些表情可以被应用在电影制作、游戏开发、虚拟现实、远程通讯以及其他各种交互式应用中。

2、基于给定音频和给定说话人形象生成说话人的说话图像帧(比如视频)，而且说话图像帧中的说话人唇形与音频内容对应，称为说话人视频生成，它可以应用在数字虚拟人、游戏、动漫角色配音及音唇同步语音翻译等场景。wav2lip模型是基于对抗神经网络(generative adversarial network，gan)的唇形动作迁移算法，实现视频人物口型与语音同步。wav2lip模型不仅可以基于静态图像输出与目标语音匹配的唇形同步视频，还可以直接对动态视频进行唇形转换，输出与输入语音匹配的视频。然而，wav2lip模型只能在低像素下渲染出低质量的结果。此外，wav2lip模型无法适用于需要精确控制唇部运动的配音和语言学习任务。

技术实现思路

1、本申请实施例提供一种图像生成模型的训练方法、图像生成方法、装置、计算机程序产品及计算机可读存储介质，能够得到预测效果更加准确的图像生成模型。

2、本申请实施例的技术方案是这样实现的：

3、本申请实施例提供一种图像生成模型的训练方法，所述方法包括：

4、获取训练音频和所述训练音频对应的第一面部图像；

5、对所述训练音频进行预测处理，得到第二面部图像；

6、根据所述第一面部图像、所述第二面部图像和第一损失函数，确定第一损失值；

7、根据所述第一面部图像的第一特征、所述第二面部图像的第二特征和第二损失函数确定第二损失值；

8、根据所述第一面部图像中第一唇部区域图像、所述第二面部图像中第二唇部区域图像和第三损失函数，确定第三损失值；

9、根据所述第一损失值、所述第二损失值和所述第三损失值对初始图像生成模型进行训练，得到图像生成模型。

10、本申请实施例提供一种图像生成方法，所述方法包括：

11、获取待处理面部图像、待处理音频和图像生成模型，所述图像生成模型是利用本申请实施例提供的图像生成模型的训练方法训练得到的；

12、通过所述图像生成模型，对所述待处理面部图像和所述待处理音频进行处理，得到与所述待处理音频对应的面部生成图像。

13、本申请实施例提供一种图像生成模型的训练装置，包括：

14、第一获取模块，用于获取训练音频和所述训练音频对应的第一面部图像；

15、预测模块，用于对所述训练音频进行预测处理，得到第二面部图像；

16、第一确定模块，用于根据所述第一面部图像、所述第二面部图像和第一损失函数，确定第一损失值；

17、第二确定模块，用于根据所述第一面部图像的第一特征、所述第二面部图像的第二特征和第二损失函数确定第二损失值；

18、第三确定模块，用于根据所述第一面部图像中第一唇部区域图像、所述第二面部图像中第二唇部区域图像和第三损失函数，确定第三损失值；

19、训练模块，用于根据所述第一损失值、所述第二损失值和所述第三损失值对初始图像生成模型进行训练，得到图像生成模型。

20、本申请实施例提供一种图像生成装置，包括：

21、第二获取模块，用于获取待处理面部图像、待处理音频和图像生成模型，所述图像生成模型是利用本申请实施例提供的图像生成模型的训练方法训练得到的；

22、处理模块，用于通过所述图像生成模型，对所述待处理面部图像和所述待处理音频进行处理，得到与所述待处理音频对应的面部生成图像。

23、本申请实施例提供一种电子设备，所述电子设备包括：

24、存储器，用于存储计算机可执行指令；

25、处理器，用于执行所述存储器中存储的计算机可执行指令时，实现本申请实施例提供的图像生成模型的训练方法，或者实现本申请实施例提供的图像生成方法。

26、本申请实施例提供一种计算机可读存储介质，存储有计算机程序或计算机可执行指令，用于被处理器执行时实现本申请实施例提供的图像生成模型的训练方法，或者实现本申请实施例提供的图像生成方法。

27、本申请实施例提供一种计算机程序产品，包括计算机程序或计算机可执行指令，所述计算机程序或计算机可执行指令被处理器执行时，实现本申请实施例提供的图像生成模型的训练方法，或者实现本申请实施例提供的图像生成方法。

28、本申请实施例具有以下有益效果：

29、本申请实施例通过获取训练音频和对应的第一面部图像，结合预测处理得到第二面部图像，并根据不同损失函数计算不同部分的损失值，期间，根据第一面部图像、第二面部图像以及第一损失函数计算第一损失值，也即第一损失值用于衡量第二面部图像与第一面部图像之间的误差；并利用第一特征和第二特征以及第二损失函数计算第二损失值，第二损失值用于衡量第二面部图像的第二特征与第一面部图像的第一特征之间的误差，最后根据第一唇部区域图像和第二唇部区域图像以及第三损失函数计算第三损失值，第三损失值用于衡量第二面部图像中第二唇部区域图像和第一面部图像中第一唇部区域图像之间的误差，通过联合考虑第一损失值、第二损失值和第三损失值，对初始图像生成模型进行训练，从而得到的训练好的图像生成模型能够生成具有更加准确、真实的面部图像，提高了训练好的图像生成模型的生成性能。

技术特征：

1.一种图像生成模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1中所述的方法，其特征在于，所述根据所述第一面部图像的第一特征、所述第二面部图像的第二特征和第二损失函数确定第二损失值之前，所述方法还包括：

3.根据权利要求1中所述的方法，其特征在于，所述根据所述第一面部图像中第一唇部区域图像、所述第二面部图像中第二唇部区域图像和第三损失函数，确定第三损失值，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述第一损失值、所述第二损失值和所述第三损失值对初始图像生成模型进行训练，得到图像生成模型，包括：

5.根据权利要求1至4任一项中所述的方法，其特征在于，所述获取训练音频和所述训练音频对应的第一面部图像，包括：

6.一种图像生成方法，其特征在于，所述方法包括：

7.根据权利要求6中所述的方法，其特征在于，所述获取待处理面部图像包括：

8.根据权利要求7中所述的方法，其特征在于，所述方法还包括：

9.一种图像生成模型的训练装置，其特征在于，所述装置包括：

10.一种图像生成装置，其特征在于，所述装置包括：

11.一种电子设备，其特征在于，所述电子设备包括：

12.一种计算机可读存储介质，存储有计算机可执行指令或者计算机程序，其特征在于，所述计算机可执行指令或者计算机程序被处理器执行时实现权利要求1至5任一项所述的图像生成模型的训练方法，或者被处理器执行时实现权利要求6至8所述的图像生成方法。

13.一种计算机程序产品，包括计算机可执行指令或计算机程序，其特征在于，所述计算机可执行指令或计算机程序被处理器执行时实现权利要求1至5任一项所述的图像生成模型的训练方法，或者被处理器执行时实现权利要求6至8所述的图像生成方法。

技术总结
本申请提供了一种图像生成模型的训练方法、图像生成方法、装置、计算机程序产品及计算机可读存储介质；方法包括：获取训练音频和训练音频对应的第一面部图像；对训练音频进行预测处理，得到第二面部图像；根据第一面部图像、第二面部图像和第一损失函数，确定第一损失值；根据第一面部图像的第一特征、第二面部图像的第二特征和第二损失函数确定第二损失值；根据第一面部图像中第一唇部区域图像、第二面部图像中第二唇部区域图像和第三损失函数，确定第三损失值；根据第一损失值、第二损失值和第三损失值对初始图像生成模型进行训练，得到图像生成模型。通过本申请，能够得到生成效果更加真实的图像生成模型。

技术研发人员：杨茂,张良国
受保护的技术使用者：马上消费金融股份有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-28052.html

专利

最新回复(0)