基于非线性残差噪声估计的语音增强方法与流程

专利查询2025-05-19 75

本发明属于语音降噪领域，特别是涉及基于非线性残差噪声估计的语音增强方法。

背景技术：

1、清晰、可懂度高的语音是保证语音处理应用性能的关键，现实环境中，遍布的噪声会影响语音信号的质量，导致通信、语音处理等应用的性能下降。为了获得清晰、可懂度高的语音，常用语音降噪方法处理带噪语音。

2、由于传统语音降噪方法易于部署，因此仍被广泛应用，特别是基于imcra-omlsa的语音降噪方法，其中imcra（improved minimum controlled recursive averaging，改进的最小控制迭代平均）用于估计噪声，omlsa（optimally modified log-spectral amplitudeestimator，最优改进对数谱幅度估计）用于估计去噪语音增益完成降噪。但基于imcra估计出来的噪声水平相比于真实噪声略小。

技术实现思路

1、发明目的：本发明的目的是提供一种基于改进噪声估计提升降噪效果的基于非线性残差噪声估计的语音增强方法。

2、技术方案：本发明所述基于非线性残差噪声估计的语音增强方法，包括以下步骤：

3、获得带噪语音流的复数频谱；

4、基于非线性残差噪声估计，计算复数频谱的噪声功率谱；其中，初始噪声功率谱为初始的复数频谱幅值的平方，其他帧的噪声功率谱包括imcra估计出来的噪声功率谱和非线性残差噪声功率谱；

5、计算后验信噪比和先验信噪比，并根据后验信噪比与先验信噪比，基于omlsa方法，更新语音存在时的增益；

6、估计语音不存在时的增益以及语音存在概率；

7、基于omlsa方法，根据语音存在时的增益、语音不存在时的增益和语音存在概率计算整体增益，然后计算去噪语音信号频谱幅度；

8、基于去噪语音信号频谱幅度和相同帧带噪语音复数频谱的相位，合成对应帧时域去噪语音信号，进而获得带噪语音流的时域去噪语音信号。

9、进一步的，获得带噪语音流的复数频谱，包括：对带噪语音流，分帧加窗后，进行傅里叶变换获得复数频谱。

10、进一步的，基于非线性残差噪声估计，计算复数频谱的噪声功率谱；包括：

11、噪声功率谱计算公式为：

12、，

13、其中，为第0帧的第个频点的复数频谱，为imcra估计出来的第帧的第个频点的噪声功率谱，为第帧的第个频点的非线性残差噪声功率谱，为第帧的第个频点的语音存在概率。

14、进一步的，的表达式为：

15、，

16、其中，和为系数，为第帧的第个频点的后验信噪比。

17、进一步的，后验信噪比计算公式为：

18、，

19、其中，为第帧的第个频点的后验信噪比，为第帧的第个频点的复数频谱，为噪声功率谱。

20、进一步的，先验信噪比计算公式为：

21、，

22、其中，为第帧的第个频点的先验信噪比，为先验信噪比的平滑系数，为语音存在时第帧的第个频点的增益，为第帧的第个频点的后验信噪比，为第帧的第个频点的后验信噪比。

23、进一步的，根据后验信噪比与先验信噪比，基于omlsa方法，更新语音存在时的增益；包括：

24、语音存在时的增益更新表达式为：

25、，

26、其中，为语音存在时第帧的第个频点的增益，为第帧的第个频点的先验信噪比，为积分变量，为中间变量，表达式为：，为第帧的第个频点的后验信噪比。

27、进一步的，估计语音不存在时的增益以及语音存在概率；包括：

28、语音不存在时的增益通过imcra方法估计或者根据经验值获得；

29、基于imcra方法估计语音存在概率，表达式为：

30、，

31、其中，是无语音概率，为中间变量，表达式为：，为第帧的第个频点的后验信噪比，为第帧的第个频点的先验信噪比。

32、进一步的，去噪语音信号频谱幅度计算方法包括以下步骤：

33、（1）计算整体增益，表达式为：

34、，

35、其中，为语音存在时第帧的第个频点的增益的次幂，为语音不存在时第帧的第个频点的增益的次幂，为语音存在概率；

36、（2）计算去噪语音信号频谱幅度，表达式为：

37、，

38、其中，为第帧的第个频点的复数频谱幅值。

39、所述方法对应的语音增强系统，包括：

40、数据处理单元，用于获得带噪语音流的复数频谱；

41、噪声功率谱计算单元，用于基于非线性残差噪声估计，计算复数频谱的噪声功率谱；其中，初始噪声功率谱为初始的复数频谱幅值的平方，其他帧的噪声功率谱包括imcra估计出来的噪声功率谱和非线性残差噪声功率谱；

42、信噪比计算单元，用于计算后验信噪比和先验信噪比；

43、增益更新单元，用于根据后验信噪比与先验信噪比，基于omlsa方法，更新语音存在时的增益；

44、估计单元，用于估计语音不存在时的增益以及语音存在概率；

45、去噪语音信号频谱幅度计算单元，用于基于omlsa方法，根据语音存在时的增益、语音不存在时的增益和语音存在概率计算整体增益，然后计算去噪语音信号频谱幅度；

46、时域去噪语音信号合成单元，用于基于去噪语音信号频谱幅度和相同帧带噪语音复数频谱的相位，合成对应帧时域去噪语音信号，进而获得带噪语音流的时域去噪语音信号。

47、有益效果：与现有技术相比，本发明的显著技术效果为：基于非线性函数进行非线性残差噪声估计，并根据后验信噪比调整所增加的残差噪声大小，且限制在设定范围内，既提高了估计噪声水平，又保证了随后验信噪比增大而减小的残差噪声不会导致降噪量过多，最终实现降噪效果的提升。

技术特征：

1.基于非线性残差噪声估计的语音增强方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，获得带噪语音流的复数频谱，包括：对带噪语音流，分帧加窗后，进行傅里叶变换获得复数频谱。

3.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，基于非线性残差噪声估计，计算复数频谱的噪声功率谱；包括：

4.根据权利要求3所述的基于非线性残差噪声估计的语音增强方法，其特征在于，的表达式为：

5.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，后验信噪比计算公式为：

6.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，先验信噪比计算公式为：

7.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，根据后验信噪比与先验信噪比，基于omlsa方法，更新语音存在时的增益；包括：

8.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，估计语音不存在时的增益以及语音存在概率；包括：

9.根据权利要求1所述的基于非线性残差噪声估计的语音增强方法，其特征在于，去噪语音信号频谱幅度计算方法包括以下步骤：

10.基于非线性残差噪声估计的语音增强系统，其特征在于，包括：

技术总结
本发明公开了基于非线性残差噪声估计的语音增强方法，包括：获得带噪语音流的复数频谱；基于非线性残差噪声估计，计算复数频谱的噪声功率谱；计算后验信噪比和先验信噪比，并根据后验信噪比与先验信噪比，更新语音存在时的增益；估计语音不存在时的增益以及语音存在概率；根据语音存在时的增益、语音不存在时的增益和语音存在概率计算整体增益，然后计算去噪语音信号频谱幅度；基于去噪语音信号频谱幅度和相同帧带噪语音复数频谱的相位，合成对应帧时域去噪语音信号，进而获得带噪语音流的时域去噪语音信号。本发明方法既提高了估计噪声水平，又不会导致降噪量过多，最终实现降噪效果的提升。

技术研发人员：李郡,张若雨,尚德龙,周玉梅
受保护的技术使用者：中科南京智能技术研究院
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-28499.html

专利

最新回复(0)