一种口型驱动、口型驱动模型的训练方法及装置与流程

专利查询2026-02-01 18

本公开涉及口型驱动，尤其涉及一种口型驱动方法及装置、口型驱动模型的训练方法及装置。

背景技术：

1、口型动画的制作在电影、游戏以及虚拟现实等新型人机交互方式中均占据重要地位。在观看模型动画时，观众往往对模型口型动作的一些细微变化较为敏感。因此如何生成真是自然的口型动画是当今计算机图形学领域的第一个富有挑战性的课题。

2、在生成口型动画的方法中，有一系列采用音频驱动的方法，这类方法一般以一段音频作为输入，生成一段与该音频同步的口型动画。在采用音频驱动生成口型动画的过程中，往往会出现帧间口型抖动的问题。

3、那么，需要提供一种改进方案，以缓解音频驱动生成口型动画的过程中帧间口型抖动的问题。

技术实现思路

1、本公开一个或多个实施例提供了一种口型驱动方法及装置、口型驱动模型的训练方法及装置，以实现提取得到有助于平滑口型的口型驱动参数，降低口型抖动问题。

2、根据第一方面，提供一种口型驱动方法，包括：

3、依次将音频特征序列中各音频特征作为目标音频特征，从所述音频特征序列中确定出该目标音频特征对应的目标特征子序列，所述音频特征序列为待处理音频滤波所得的特征序列；

4、对所述目标特征子序列进行第一特征提取，得到音频中间特征；

5、依次将各音频特征对应的音频中间特征作为目标中间特征，从各音频中间特征中确定出该目标中间特征对应的中间特征子序列；

6、基于所述中间特征子序列，进行第二特征提取，确定对应的音频平滑特征；

7、处理各音频中间特征对应的音频平滑特征，确定用于生成口型动画的所述音频特征序列对应的目标口型驱动参数序列。

8、根据第二方面，提供一种口型驱动模型的训练方法，其中，所述口型驱动模型包括第一提取层，第二提取层和第一输出层；所述方法包括：

9、确定所述第一提取层的当前参数；

10、依次将样本音频特征序列中各样本音频特征作为第一特征，从所述样本音频特征序列中确定出该第一特征对应的第一特征子序列，所述样本音频特征序列为样本音频滤波所得的特征序列；

11、利用所述第一提取层的当前参数，对所述第一特征子序列进行第一特征提取，得到样本中间特征；

12、依次将各样本音频特征对应的样本中间特征作为第二特征，从各样本中间特征中，确定出该第二特征对应的第二特征子序列；

13、利用所述第二提取层，基于所述第二特征子序列，进行第二特征提取，确定对应的样本平滑特征；

14、利用所述第一输出层，处理各样本中间特征对应的样本平滑特征，确定所述样本音频特征序列对应口型驱动预测参数序列；

15、基于所述口型驱动预测参数序列，及所述样本音频特征序列对应的口型驱动标签参数序列，调整所述第二提取层和第一输出层的参数。

16、根据第三方面，提供一种口型驱动装置，包括：

17、第一确定模块，配置为依次将音频特征序列中各音频特征作为目标音频特征，从所述音频特征序列中确定出该目标音频特征对应的目标特征子序列，所述音频特征序列为待处理音频滤波所得的特征序列；

18、第一特征提取模块，配置为对所述目标特征子序列进行第一特征提取，得到音频中间特征：

19、第二确定模块，配置为依次将各音频特征对应的音频中间特征作为目标中间特征，从各音频中间特征中确定出该目标中间特征对应的中间特征子序列；

20、第二特征提取模块，配置为基于所述中间特征子序列，进行第二特征提取，确定对应的音频平滑特征；

21、第一处理模块，配置为处理各音频中间特征对应的音频平滑特征，确定用于生成口型动画的所述音频特征序列对应的口型驱动参数序列。

22、根据第四方面，提供一种口型驱动模型的训练装置，其中，所述口型驱动模型包括第一提取层，第二提取层和第一输出层；所述装置包括：

23、第三确定模块，配置为确定所述第一提取层的当前参数；

24、第四确定模块配置为依次将样本音频特征序列中各样本音频特征作为第一特征，从所述样本音频特征序列中确定出该第一特征对应的第一特征子序列，所述样本音频特征序列为样本音频滤波所得的特征序列；

25、第三特征提取模块，配置为利用所述第一提取层的当前参数，对所述第一特征子序列进行第一特征提取，得到样本中间特征；

26、第五确定模块，配置为依次将各样本音频特征对应的样本中间特征作为第二特征，从各样本中间特征中，确定出该第二特征对应的第二特征子序列；

27、第四特征提取模块，配置为利用所述第二提取层，基于所述第二特征子序列，进行第二特征提取，确定对应的样本平滑特征；

28、第二处理模块，配置为利用所述第一输出层，处理各样本中间特征对应的样本平滑特征，确定所述样本音频特征序列对应口型驱动预测参数序列；

29、第一调整模块，配置为基于所述口型驱动预测参数序列，及所述样本音频特征序列对应的口型驱动标签参数序列，调整所述第二提取层和第一输出层的参数。

30、根据第五方面，提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面或第二方面所述的方法。

31、根据第六方面，提供一种电子设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面或第二方面所述的方法。

32、根据本公开实施例提供的口型驱动、口型驱动模型的训练方法及装置，口型驱动方法中，依次将音频特征序列中各音频特征作为目标音频特征，从音频特征序列中确定出该目标音频特征对应的目标特征子序列，音频特征序列为待处理音频滤波所得的特征序列；对目标特征子序列进行第一特征提取，得到音频中间特征；依次将各音频特征对应的音频中间特征作为目标中间特征，从各音频中间特征中确定出该目标中间特征对应的中间特征子序列；基于中间特征子序列，进行第二特征提取，确定对应的音频平滑特征；处理各音频中间特征对应的音频平滑特征，确定用于生成口型动画的所述音频特征序列对应的口型驱动参数序列。上述过程中，对进行第一特征提取后，所得的各音频特征对应的音频中间特征进行滑窗，得到相应的中间特征子序列，进而对中间特征子序列进行第二特征提取，实现在特征提取后所得的特征上进行二次特征提取的效果，无需增大滑窗，也能得到包含更多相邻音频特征的信息的音频平滑特征，利用该类特征生成口型驱动参数，可以使得该口型驱动参数对应的口型动画更平滑，减少口型动画中口型抖动的问题。

技术特征：

1.一种口型驱动方法，包括：

2.如权利要求1所述的方法，其中，所述基于所述中间特征子序列，进行第二特征提取，确定对应的音频平滑特征，包括：

3.如权利要求1所述的方法，其中，所述对所述维度调整特征子序列进行所述第二特征提取，包括：

4.如权利要求1所述的方法，其中，所述从各音频中间特征中确定出该目标中间特征对应的中间特征子序列，包括：

5.如权利要求1-4任一项所述的方法，还包括：

6.如权利要求1-4任一项所述的方法，所述目标口型驱动参数序列为预测音素序列或者为预测权重值集合序列或者为预测口型关键点位置集合序列。

7.一种口型驱动模型的训练方法，其中，所述口型驱动模型包括第一提取层，第二提取层和第一输出层；所述方法包括：

8.如权利要求7所述的方法，其中，所述调整所述第二提取层和第一输出层的参数，包括：

9.如权利要求7所述的方法，其中，所述确定所述第一提取层的当前参数，包括：

10.一种口型驱动装置，包括：

11.一种口型驱动模型的训练装置，其中，所述口型驱动模型包括第一提取层，第二提取层和第一输出层；所述装置包括：

12.一种电子设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-9中任一项所述的方法。

技术总结
本公开实施例提供一种口型驱动、口型驱动模型的训练方法及装置，该方法包括：依次将音频特征序列中各音频特征作为目标音频特征，从音频特征序列中确定出该目标音频特征对应的目标特征子序列，音频特征序列为待处理音频滤波所得的特征序列；对目标特征子序列进行第一特征提取，得到音频中间特征；依次将各音频特征对应的音频中间特征作为目标中间特征，从各音频中间特征中确定出该目标中间特征对应的中间特征子序列；基于中间特征子序列，进行第二特征提取，确定对应的音频平滑特征；处理各音频中间特征对应的音频平滑特征，确定用于生成口型动画的音频特征序列对应的口型驱动参数序列。

技术研发人员：孙敬娜,董欣,张惜今,杜康
受保护的技术使用者：北京字跳网络技术有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-33838.html

专利

最新回复(0)