头相关声场传递函数生成方法及系数生成模型训练方法与流程

专利查询2025-04-13 57

本公开的实施方式涉及音频处理，更具体地，本公开的实施方式涉及一种头相关声场传递函数生成方法及系数生成模型训练方法。

背景技术：

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、沉浸式音频已经越来越普及地应用在音乐、电影、播客等音频内容制作领域中，也应用在耳机、扬声器、增强现实(augmented reality，简称：ar)设备、虚拟现实(virtualreality，简称：vr)设备等设备中，为用户提供了身临其境的沉浸声声场感受。其中最关键的技术原理是利用头相关声场传递函数(head-related transfer function，简称：hrtf)对音频进行处理。

3、hrtf是描述声音从声源到达耳朵所经历的变化的函数，与用户的头部和耳部的外形相关联。相关技术中，对于hrtf的生成，通常是人工测量用户头部和耳部的特征数据，进而从数据库中找到与特征数据最相近的标准数据，再将数据库中标准数据对应的hrtf作为该用户的hrtf。

4、综上所述，现有的hrtf生成方法仅能从数据库中存储的hrtf确定用户的hrtf，导致生成的hrtf与用户特征的匹配性较低。

技术实现思路

1、本公开提供一种头相关声场传递函数生成方法、系数生成模型训练方法及装置，以现有的hrtf生成方法仅能从数据库中存储的hrtf确定用户的hrtf，导致的生成的hrtf与用户特征的匹配性较低的问题。

2、在本公开实施方式的第一方面中，提供了一种头相关声场传递函数生成方法，包括：

3、对获取的目标图像，以及声源的频率特征和空间特征进行特征提取和特征融合处理，得到融合特征，所述目标图像包括用户的头部图像和耳部图像；

4、将所述融合特征输入至系数生成模型中，得到头相关声场传递函数的系数，所述系数生成模型为与预先训练的基于融合特征生成头相关声场传递函数的系数的神经网络模型；

5、根据所述系数和预设的球面谐波基函数，生成头相关声场传递函数。

6、在本公开的一个实施例中，对获取的目标图像，以及声源的频率特征和空间特征进行特征提取和特征融合处理，得到融合特征，包括：

7、对所述头部图像进行特征提取处理，得到头部特征；

8、对所述耳部图像进行特征提取处理，得到耳部特征；

9、对所述头部特征、所述耳部特征、所述频率特征和所述空间特征进行融合处理，得到融合特征。

10、在本公开的一个实施例中，所述对所述头部图像进行特征提取处理，得到头部特征，包括：

11、根据预设的关键点检测算法，对所述头部图像进行关键点检测，得到多个头部关键点的位置和标识；

12、根据所述多个头部关键点的位置和标识，生成至少一个头部关键点间距；

13、将所述至少一个头部关键点间距，作为所述头部特征。

14、在本公开的一个实施例中，所述对所述耳部图像进行特征提取处理，得到耳部特征，包括：

15、根据预设的关键点检测算法，对所述耳部图像进行关键点检测，得到多个耳部关键点的位置和标识；

16、根据所述多个耳部关键点的位置和标识，生成至少一个耳部关键点间距和至少一个耳部关键点角度；

17、将所述至少一个耳部关键点间距和所述至少一个耳部关键点角度，作为所述耳部特征。

18、在本公开的一个实施例中，对所述头部特征、所述耳部特征、所述频率特征和所述空间特征进行融合处理，得到融合特征，包括：

19、分别对所述头部特征、所述耳部特征、所述频率特征和所述空间特征进行向量化，得到头部向量、耳部向量、频率向量和空间向量；

20、将所述头部向量、所述耳部向量、所述频率向量和所述空间向量进行向量拼接处理，得到所述融合特征。

21、在本公开实施方式的第二方面中，提供了一种系数生成模型训练方法，包括：

22、获取多组训练图像和每组训练图像对应的头相关声场传递函数；

23、对于每组训练图像对应的头相关声场传递函数，对所述头相关声场传递函数进行特征提取，得到所述组训练图像对应的频率特征和空间特征；

24、对于每组训练图像，对所述组训练图像，以及所述组训练图像对应的频率特征和空间特征进行特征提取和特征融合处理，得到所述组训练图像对应的融合特征；

25、根据所述多组训练图像对应的融合特征，对初始神经网络模型进行训练，直至损失值小于预设损失值阈值，得到系数生成模型。

26、在本公开的一个实施例中，所述对所述头相关声场传递函数进行特征提取，得到所述组训练图像对应的频率特征和空间特征，包括：

27、根据预设频率数量，对所述头相关声场传递函数进行傅里叶变换，得到变换函数；

28、将所述变换函数的系数作为所述频率特征；

29、对所述头相关声场传递函数进行频率划分，得到所述预设频率数量个频率划分函数；

30、对于每个频率划分函数，根据所述频率划分函数和预设的球面谐波基函数，计算所述频率划分函数对应的空间分解系数，所述空间分解系数为所述频率划分函数根据所述预设的球面谐波基函数进行分解的系数；

31、将每个频率划分函数对应的空间分解系数作为所述空间特征。

32、在本公开的一个实施例中，所述根据所述多组训练图像对应的融合特征，对初始神经网络模型进行训练，直至损失值小于预设损失值阈值，得到系数生成模型，包括：

33、从所述多组训练图像对应的融合特征中选择一个融合特征；

34、将所述融合特征输入至初始神经网络模型中，得到预测系数；

35、根据所述预测系数和所述训练图像对应的真实系数，计算损失值；

36、若所述损失值小于预设损失值阈值，则将所述初始神经网络模型作为所述系数生成模型；

37、若所述损失值大于或等于预设损失值阈值，则对所述初始神经网络模型进行更新，得到训练后的神经网络模型，并将所述训练后的神经网络模型作为新的初始神经网络模型，重复前述步骤直至损失值小于预设损失值阈值，得到所述系数生成模型。

38、在本公开实施方式的第三方面中，提供了一种头相关声场传递函数生成装置，包括：

39、处理模块，用于：

40、对获取的目标图像，以及声源的频率特征和空间特征进行特征提取和特征融合处理，得到融合特征，所述目标图像包括用户的头部图像和耳部图像；

41、将所述融合特征输入至系数生成模型中，得到头相关声场传递函数的系数，所述系数生成模型为与预先训练的基于融合特征生成头相关声场传递函数的系数的神经网络模型；

42、生成模块，用于根据所述系数和预设的球面谐波基函数，生成头相关声场传递函数。

43、在本公开实施方式的第四方面中，提供了一种系数生成模型训练装置，包括：

44、获取模块，用于获取多组训练图像和每组训练图像对应的头相关声场传递函数；

45、处理模块，用于：

46、对于每组训练图像对应的头相关声场传递函数，对所述头相关声场传递函数进行特征提取，得到所述组训练图像对应的频率特征和空间特征；

47、对于每组训练图像，对所述组训练图像，以及所述组训练图像对应的频率特征和空间特征进行特征提取和特征融合处理，得到所述组训练图像对应的融合特征；

48、训练模块，用于根据所述多组训练图像对应的融合特征，对初始神经网络模型进行训练，直至损失值小于预设损失值阈值，得到系数生成模型。

49、在本公开实施方式的第五方面中，提供了一种电子设备，包括：

50、至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

51、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述计算设备执行如第一方面任一项所述的头相关声场传递函数生成方法。

52、在本公开实施方式的第六方面中，提供了一种电子设备，包括：

53、至少一个处理器；以及与所述至少一个处理器通信连接的存储器；

54、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述计算设备执行如第二方面任一项所述的系数生成模型训练方法。

55、在本公开实施方式的第七方面中，提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一项所述的头相关声场传递函数生成方法，或者实现第二方面任一项所述的系数生成模型训练方法。

56、在本公开实施方式的第八方面中，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时用于实现第一方面任一项所述的头相关声场传递函数生成方法，或者实现第二方面任一项所述的系数生成模型训练方法。

57、根据本公开实施方式的头相关声场传递函数生成方法、系数生成模型训练方法及装置，通过对目标图像、声源的频率特征和空间特征进行特征提取和特征融合处理，得到融合特征后，将融合特征输入至系数生成模型中，得到头相关声场传递函数的系数。进而根据系数和预设的球面谐波基函数，生成头相关声场传递函数。本技术通过包括用户的头部图像和耳部图像的目标图像，以及声源的频率特征和空间特征生成头相关声场传递函数，提高了头相关声场传递函数与用户特征的匹配性。

技术特征：

1.一种头相关声场传递函数生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对获取的目标图像，以及声源的频率特征和空间特征进行特征提取和特征融合处理，得到融合特征，包括：

3.一种系数生成模型训练方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述头相关声场传递函数进行特征提取，得到所述组训练图像对应的频率特征和空间特征，包括：

5.一种头相关声场传递函数生成装置，其特征在于，包括：

6.一种系数生成模型训练装置，其特征在于，包括：

7.一种电子设备，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

9.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1或2所述的头相关声场传递函数生成方法，或者实现权利要求3或4所述的系数生成模型训练方法。

10.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时用于实现权利要求1或2所述的头相关声场传递函数生成方法，或者实现权利要求3或4所述的系数生成模型训练方法。

技术总结
本公开的实施方式提供了一种头相关声场传递函数生成方法、系数生成模型训练方法，涉及音频处理技术领域。该头相关声场传递函数生成方法包括：通过对目标图像、声源的频率特征和空间特征进行特征提取和特征融合处理，得到融合特征后，将融合特征输入至系数生成模型中，得到头相关声场传递函数的系数。进而根据系数和预设的球面谐波基函数，生成头相关声场传递函数。本申请通过包括用户的头部图像和耳部图像的目标图像，以及声源的频率特征和空间特征生成头相关声场传递函数，提高了头相关声场传递函数与用户特征的匹配性。此外，本公开的实施方式提供了一种头相关声场传递函数生成装置、系数生成模型训练装置。

技术研发人员：赵翔宇,蔡苗苗,刘华平,金强,李宜烜,李鹏,潘颂声,陈锦海
受保护的技术使用者：杭州网易云音乐科技有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-27489.html

专利

最新回复(0)