语音信号的处理方法、电子设备及可读存储介质与流程

    专利查询2025-11-13  2


    本技术涉及终端,特别涉及一种语音信号的处理方法、电子设备及可读存储介质。


    背景技术:

    1、用户在使用诸如手机之类的电子设备进行通话时,在一些场景中有打开免提的需求。相比于通过听筒通话,在免提通话场景中电子设备的麦克风通常容易拾取更多的环境噪声。

    2、在相关技术中,一般通过人工智能(artificial intelligence,ai)降噪算法,对麦克风采集的音频信号进行噪声抑制处理,从而达到降噪效果。然而,ai降噪算法能够对突发噪声进行有效抑制,但在环境噪声中存在非目标(也即其他用户)的语音时,ai降噪算法对非目标语音信号的抑制力度不足,从而会影响通话体验。


    技术实现思路

    1、本技术提供了一种语音信号的处理方法、电子设备及可读存储介质,可以解决相关技术中采用ai降噪算法进行降噪处理使得对非目标语音信号的抑制力度不足,从而导致影响通话体验的问题。所述技术方案如下:

    2、第一方面,提供了一种语音信号的处理方法,应用于电子设备,所述电子设备配置有多个麦克风,所述方法包括:

    3、获取第一语音信号,所述第一语音信号是对所述多个麦克风中的主麦克风采集的音频信号进行噪声抑制处理后得到;

    4、对所述多个麦克风采集的混合音频信号进行盲源分离,得到分离后的多个通道音频信号;

    5、基于所述多个通道音频信号与所述第一语音信号,分别确定目标语音信号和干扰声源信号,所述干扰声源信号包括非目标语音信号和/或非语音噪声信号;

    6、基于所述第一语音信号、所述目标语音信号以及所述干扰声源信号,确定最终语音信号。

    7、如此,由于将目标语音信号和非目标语音分离出来,所以基于第一语音信号、目标语音信号和干扰声源信号确定最终语音信号时,可以有效地对非目标语音进行控制,也即对非目标语音进行有效地抑制,从而可以达到增强最终语音信号的目的,进而可以提高通话体验。

    8、作为本技术的一个示例,所述基于所述多个通道音频信号与所述第一语音信号,分别确定目标语音信号和干扰声源信号,包括:

    9、分别确定所述多个通道音频信号中每个通道音频信号与所述第一语音信号之间的相关性,得到所述每个通道音频信号对应的相关性分值;

    10、基于所述每个通道音频信号对应的相关性分值与所述多个通道音频信号,分别确定所述目标语音信号和所述干扰声源信号。

    11、如此,由于目标声源通常距离麦克风较近,其能量会大于非目标语音,与第一语音信号将有更高的相关性。所以通过确定每个通道音频信号与第一语音信号之间的相关性,可以确定出目标语音信号和干扰声源信号,从而便于采用目标语音信号或干扰声源信号对第一语音信号进行处理。

    12、作为本技术的一个示例,所述多个通道音频信号的数量为2;

    13、所述基于所述每个通道音频信号对应的相关性分值与所述多个通道音频信号,分别确定所述目标语音信号和所述干扰声源信号,包括:

    14、从所述多个通道音频信号中确定相关性分值大于或等于第一预设阈值的通道音频信号,得到第一通道音频信号;

    15、从所述多个通道音频信道中确定相关性分值小于所述第一预设阈值的通道音频信号,得到第二通道音频信号;

    16、若所述第一通道音频信号的相关性分值与所述第二通道音频信号的相关性分值的差值大于第二预设阈值,则确定所述第一通道音频信号为所述目标语音信号,以及确定所述第二通道音频信号为所述干扰声源信号。

    17、如此,根据两个通道语音信号各自的相关性分值大小,以及两个通道语音信号的相关性分值关系,确定哪个是目标声源信号,以及哪个是干扰声源信号,可以提高判断的准确性和有效性。

    18、作为本技术的一个示例,所述多个通道音频信号的数量大于2;

    19、所述基于所述每个通道音频信号对应的相关性分值与所述多个通道音频信号,分别确定所述目标语音信号和所述干扰声源信号,包括:

    20、基于所述每个通道音频信号对应的相关性分值,从所述多个通道音频信号中确定相关性分值排于前预设数量的通道音频信号;

    21、将相关性分值排于前预设数量的通道音频信号合并为所述目标语音信号,以及将所述多个通道音频信号中剩余的通道音频信号合并为所述干扰声源信号。

    22、如此,通过将相关性分值较高的预设数量个通道音频信号合并为目标语音信号,以及将相关性较低的至少一个道语音信号合并为干扰声源信号,可以提高目标语音信号和干扰声源信号的可靠性和有效性。

    23、作为本技术的一个示例,所述根据所述第一语音信号、所述目标语音信号以及所述干扰声源信号,确定所述最终语音信号,包括:

    24、基于所述目标语音信号,滤除所述干扰声源信号中残留的目标语音,得到滤波后的所述干扰声源信号;

    25、基于滤波后的所述干扰声源信号,对所述第一语音信号进行噪声抑制处理,所述最终语音信号为噪声抑制处理后的所述第一语音信号。

    26、如此,通过消除干扰声源信号中残留的目标语音,使得得到的滤波后的干扰声源信号是稳态噪声,基于该稳态噪声对第一语音信号进行噪声抑制处理,可以提高抑制效果。

    27、作为本技术的一个示例,所述根据所述第一语音信号、所述目标语音信号以及所述干扰声源信号,确定所述最终语音信号,包括:

    28、基于所述干扰声源信号,对所述目标语音信号进行噪声抑制处理,得到滤波后的所述目标语音信号;

    29、基于所述主麦克风采集的音频信号和滤波后的所述目标语音信号,确定第一掩码值,所述第一掩码值用于指示所述目标语音信号在所述主麦克风采集的音频信号中所占的份量;

    30、基于所述第一语音信号与所述混合音频信号,确定第二掩码值,所述第二掩码值用于指示所述第一语音信号在所述混合音频信号中所占的份量;

    31、从所述第一掩码值和所述第二掩码值中选择最小掩码值;

    32、基于所述最小掩码值与所述最小掩码值对应的原始语音信号,确定所述最终语音信号,在所述最小掩码值是所述第一掩码值的情况下对应的原始语音信号为所述主麦克风采集的音频信号,以及在所述最小掩码值是所述第二掩码值的情况下对应的原始语音信号为所述混合音频信号。

    33、如此,通过确定主麦克风采集的音频信号和第一语音信号各自对应的掩码值,可以确定各自包含的语音比例。由于掩码值越大代表语音比例越高,说明包括非目标语音的可能性越大,所以选择最下掩码值,并根据最小掩码值和其对应的原始语音信号,确定最终语音信号,从而得到包括非目标语音较少的音频数据。

    34、作为本技术的一个示例,所述基于所述主麦克风采集的音频信号和滤波后的所述目标语音信号,确定第一掩码值,包括:

    35、确定滤波后的所述目标语音信号的幅值谱;

    36、确定所述主麦克风采集的音频信号的幅值谱;

    37、基于所述目标语音信号的幅值谱与所述主麦克风采集的音频信号的幅值谱,确定所述第一掩码值。

    38、如此,通过确定目标语音信号和主麦克风采集的音频信号各自的幅值谱,也即确定各个信号对应的能量,之后根据目标语音信号和主麦克风采集的音频信号各自的幅值谱确定第一掩码值,使得第一掩码值能够更为准确地表示语音所占比例。

    39、作为本技术的一个示例,所述基于所述第一语音信号与所述混合音频信号,确定第二掩码值,包括:

    40、确定所述第一语音信号的幅值谱;

    41、确定所述混合音频信号的幅值谱;

    42、基于所述第一语音信号的幅值谱和所述混合音频信号的幅值谱,确定所述第二掩码值。

    43、如此,通过确定第一语音信号和混合音频信号各自的幅值谱,也即确定各个信号对应的能量,之后根据第一语音信号和混合音频信号各自的幅值谱确定第二掩码值,使得第二掩码值能够更为准确地表示语音所占比例。

    44、作为本技术的一个示例,所述对所述多个麦克风采集的混合音频信号进行盲源分离,得到分离后的多个通道音频信号,包括:

    45、对所述混合音频信号进行频域转换,得到混合音频频域信号;

    46、基于所述混合音频频域信号,确定w矩阵,所述w矩阵用于指示所述多个麦克风中每个麦克风采集的音频信号的能量;

    47、根据所述w矩阵与所述混合音频频域信号,确定所述多个通道音频信号。

    48、如此,由于盲源分离不依赖任何先验的传输通道信息,所以使得本技术实施例提供的方法能够实现方位自适应的非目标语音抑制,也即可以实现对电子设备的任意方向的目标语音进行增强。

    49、作为本技术的一个示例,所述获取第一语音信号,包括:

    50、获取所述主麦克风采集的音频信号;

    51、将所述主麦克风采集的音频信号输入至目标降噪模型中进行降噪处理,输出所述第一语音信号,所述目标降噪模型能够抑制非语音噪声。

    52、如此,通过目标降噪模型进行降噪处理,可以抑制约12db以上的非语音噪声,另外通过目标降噪模型对主麦克风采集的音频信号进行降噪处理,可以提高降噪的泛化能力。

    53、第二方面,提供了一种语音信号的处理装置,所述语音信号的处理装置具有实现上述第一方面中语音信号的处理方法行为的功能。所述语音信号的处理装置包括至少一个模块,所述至少一个模块用于实现上述第一方面所提供的语音信号的处理方法。

    54、第三方面,提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如下内容:

    55、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的语音信号的处理方法。

    56、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的语音信号的处理方法。

    57、上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。


    技术特征:

    1.一种语音信号的处理方法,其特征在于,应用于电子设备,所述电子设备配置有多个麦克风,所述方法包括:

    2.如权利要求1所述的方法,其特征在于,所述基于所述多个通道音频信号与所述第一语音信号,分别确定目标语音信号和干扰声源信号,包括:

    3.如权利要求2所述的方法,其特征在于,所述多个通道音频信号的数量为2;

    4.如权利要求2所述的方法,其特征在于,所述多个通道音频信号的数量大于2;

    5.如权利要求1-4中任一项所述的方法,其特征在于,所述基于所述第一语音信号、所述目标语音信号以及所述干扰声源信号,确定最终语音信号,包括:

    6.如权利要求1-4中任一项所述的方法,其特征在于,所述基于所述第一语音信号、所述目标语音信号以及所述干扰声源信号,确定最终语音信号,包括:

    7.如权利要求6所述的方法,其特征在于,所述基于所述主麦克风采集的音频信号和滤波后的所述目标语音信号,确定第一掩码值,包括:

    8.如权利要求6或7所述的方法,其特征在于,所述基于所述第一语音信号与所述混合音频信号,确定第二掩码值,包括:

    9.如权利要求1-8中任一项所述的方法,其特征在于,所述对所述多个麦克风采集的混合音频信号进行盲源分离,得到分离后的多个通道音频信号,包括:

    10.如权利要求1-9中任一项所述的方法,其特征在于,所述获取第一语音信号,包括:

    11.一种电子设备,其特征在于,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-10中任意一项所述的方法。

    12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如权利要求1-10中任意一项所述的方法。


    技术总结
    本申请公开了一种语音信号的处理方法、电子设备及可读存储介质,属于终端技术领域。该方法包括:获取第一语音信号,第一语音信号是对多个麦克风中的主麦克风采集的音频信号进行噪声抑制处理后得到。对多个麦克风采集的混合音频信号进行盲源分离,得到分离后的多个通道音频信号,基于多个通道音频信号与第一语音信号,分别确定目标语音信号和干扰声源信号,干扰声源信号包括非目标语音信号和/或非语音噪声信号。基于第一语音信号、目标语音信号以及干扰声源信号,确定最终语音信号。本申请可以有效地对非目标语音进行控制,也即对非目标语音进行有效地抑制,从而可以达到增强最终语音信号的目的,进而可以提高通话体验。

    技术研发人员:曹国智,周秦,刘镇亿
    受保护的技术使用者:荣耀终端有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31956.html

    最新回复(0)