一种口型驱动方法、装置、设备及存储介质与流程

专利查询2025-11-10 31

本公开涉及图像处理，具体涉及一种口型驱动方法、装置、设备及存储介质。

背景技术：

1、口型驱动可以利用音频数据作为输入，借助于驱动算法，将音频数据转换为驱动信号，从而通过驱动信号引导口型的变换。

2、在相关技术中，可以采用blendshape或者viseme方案，实现口型驱动。其中，blendshape方案可以预先定义一系列的规则口型，然后通过对输入的音频数据进行处理，从而得到规则口型的权重系数。利用权重系数对规则口型进行加权求和，便可以得到与音频数据相匹配的实际口型。在viseme方案中，可以将音频数据处理为对应的音素，不同的音素可以对应不同的口型，通过音素来驱动口型便可以使得驱动得到的口型与输入的音频数据相匹配。

3、在现有的一些场景下，口型驱动的过程需要在一些运算能力比较普通的设备上进行，这就限制了口型驱动过程中能够处理的数据量。此外，口型驱动通常对于延时也会有一定的要求。鉴于此，目前需要一种高效的，并且能够满足一定实时性条件的口型驱动方法。

技术实现思路

1、有鉴于此，本公开一个或者多个实施方式提供了一种口型驱动方法、装置、设备及存储介质，在满足一定的实时性要求的情况下，提高口型驱动的效率。

2、本公开一方面提供了一种口型驱动方法，所述方法包括：获取待处理的音频数据，并提取所述音频数据的音频特征；生成所述音频特征对应的口型驱动特征，以通过所述口型驱动特征进行口型驱动；其中，若基于所述音频特征生成第一监督特征，所述第一监督特征与根据所述音频数据生成的表征监督真值的第二监督特征相匹配。

3、本公开另一方面还提供了一种口型驱动装置，所述装置包括：特征提取单元，用于获取待处理的音频数据，并提取所述音频数据的音频特征；口型驱动单元，用于生成所述音频特征对应的口型驱动特征，以通过所述口型驱动特征进行口型驱动；监督单元，用于若基于所述音频特征生成第一监督特征，确保所述第一监督特征与根据所述音频数据生成的表征监督真值的第二监督特征相匹配。

4、本公开另一方面还提供了一种电子设备，所述电子设备包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现上述的口型驱动方法。

5、本公开另一方面还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现上述的口型驱动方法。

6、本公开一个或者多个实施方式提供的技术方案，可以利用监督特征对口型驱动特征的准确度进行辅助校正。在根据音频特征生成口型驱动特征时，还能够保证基于音频特征生成的第一监督特征，与根据音频数据生成的表征正确结果的第二监督特征相匹配，在不增加数据处理复杂度的情况下，保证了口型驱动特征的准确度，进而在满足一定的实时性要求的情况下，提高了口型驱动的效率。

技术特征：

1.一种口型驱动方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，提取所述音频数据的音频特征包括：

3.根据权利要求2所述的方法，其特征在于，从所述采样数据中选取窗口数据包括：

4.根据权利要求3所述的方法，其特征在于，所述第一数量的取值范围为所述第二数量的1.5倍至2.5倍。

5.根据权利要求1所述的方法，其特征在于，所述音频特征通过特征提取模型提取，所述特征提取模型按照以下方式进行训练：

6.根据权利要求5所述的方法，其特征在于，通过所述特征提取模型提取所述音频训练数据的训练特征包括：

7.根据权利要求5所述的方法，其特征在于，所述第一特征处理分支中包括第一全连接层；生成所述训练特征对应的口型预测特征包括：

8.根据权利要求5所述的方法，其特征在于，所述第二特征处理分支中包括第二全连接层；生成所述训练特征对应的监督预测特征包括：

9.根据权利要求5或8所述的方法，其特征在于，所述预设的监督标准特征按照以下方式生成：

10.根据权利要求9所述的方法，其特征在于，若所述第二采样频率与提取所述训练特征时对所述音频训练数据采用的第一采样频率不同，所述方法还包括：

11.一种口型驱动装置，其特征在于，所述装置包括：

12.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时，实现如权利要求1至10中任一所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至10中任一所述的方法。

技术总结
本公开提出了一种口型驱动方法、装置、设备及存储介质，其中，所述方法包括：获取待处理的音频数据，并提取所述音频数据的音频特征；生成所述音频特征对应的口型驱动特征，以通过所述口型驱动特征进行口型驱动；其中，若基于所述音频特征生成第一监督特征，所述第一监督特征与根据所述音频数据生成的表征监督真值的第二监督特征相匹配。本公开一个或者多个实施方式提供的技术方案，在满足一定的实时性要求的情况下，提高口型驱动的效率。

技术研发人员：孙敬娜,董欣,张惜今,杜康
受保护的技术使用者：北京字跳网络技术有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31862.html

专利

最新回复(0)