一种幅度相位混合特征交叉的语音增强方法

    专利查询2022-07-06  187



    1.本发明涉及语音增强中的噪声消除领域,特别涉及一种幅度相位混合特征交叉的深度学习语音增强方法。


    背景技术:

    2.经典方法语音增强方法,如谱减法、维纳滤波法、最小均方误差估计等,在一定程度上展示了较好的噪声抑制效果,但衍生了广为熟知的音乐噪声。特别地,经典的语音增强方法大多假设噪声为加性噪声,噪声是一种慢变过程,或者噪声的分布为某种特定的分布;当实际的噪声不满足假设时,这些经典方法的降噪性能将会大打折扣。
    3.近年来,基于深度学习的语音增强方法展示出了优于经典方法的语音增强效果以及良好的应用前景。根据网络学习的目标不同,基于深度学习的语音增强方法可分为三大类:基于频谱映射语音增强方法、基于时频掩蔽语音增强方法和基于信号近似语音增强方法。然而,这些基于深度学习的语音增强方法大都基于幅度信息构建网络架构,相位信息并没有得到充分开发。事实上,语音的相位信息对语音质量和语音可懂度有较大的影响。因此,为充分利用含噪语音信号的特征信息,将幅度和相位同时作为输入特征是极具应用意义的。


    技术实现要素:

    4.本发明的目的在于提供一种幅度相位混合特征交叉的深度学习语音增强方法,与单一特征方法相比,如幅度谱映射和基于幅度谱特征的时频掩蔽,本方法在相同模型大小的条件下能进一步提高语音质量和可懂度;在相对较小模型下能获得与单一特征方法相当的语音质量和可懂度。
    5.具体的发明方案为:
    6.一种基于幅度相位混合特征交叉的深度学习语音增强方法,包括:
    7.a)根据长度为n的离散时域含噪语音信号y,得到增强型混合交叉特征o;
    8.b)根据长度为n的离散时域干净语音信号s和与之对应的离散时域含噪语音信号y,得到幅度相位降噪网络(amplitude phase noise suppression network-apnsn)训练所用标签交叉压缩复数掩模l;
    9.c)将增强型混合交叉特征o输入到已训练的幅度相位降噪网络apnsn得到估计交叉压缩复数掩模
    10.d)根据估计交叉压缩复数掩模得到时域重构信号其中,步骤a)进一步包括:
    11.a1).将长度为n的离散时域含噪语音信号y变换到时频域后,得到含噪信号频谱
    12.所述含噪信号频谱y中,t=floor(n/nh) 1表示变换到时频域后的帧数,其中nh为短时傅里叶变换stft的帧移长度,floor()表示对元素向下取整;
    13.所述含噪信号频谱y中,f=n
    stft
    /2 1表示含噪语音信号变换到时频域后的频点
    数,其中n
    stft
    为stft(short time fourier transform,stft)变换的长度;
    14.a2).利用下式,根据含噪信号频谱y,得到离散时域含噪语音信号y的对数功率谱和相位即
    [0015][0016]
    其中,a[i,j]表示矩阵a第i行第j列的元素;re(
    ·
    )和im(
    ·
    )分别表示复数的实部和虚部;θ[i,j]表示矩阵θ第i行第j列的元素;
    [0017]
    a3).将a和θ的每列依次交叉排列得到混合交叉特征即
    [0018][0019]
    其中,可表示为
    [0020][0021]
    其中,符号(
    ·
    )
    t
    表示矩阵或矢量的取转置操作;
    [0022]
    a4).利用下式,根据混合交叉特征h,得到增强型混合交叉特征即
    [0023][0024]
    其中,t

    =t-m 1,f

    =2*m*f,m为特征扩张系数,可表示为
    [0025][0026]
    其中,可表示为,
    [0027][0028]
    其中,h[x,:]表示第x行所有列的元素。
    [0029]
    其中,步骤b)所述apnsn网络的训练标签交叉压缩复数掩模l的生成步骤进一步包括:
    [0030]
    b1).将长度为n的离散时域干净语音信号s变换到时频域,得到干净信号频谱
    [0031]
    b2).利用下式,根据含噪信号频谱y和干净信号频谱s,可得到复数掩模实部和复数掩模虚部即
    [0032][0033]
    其中,yr[i,j]表示含噪信号频谱y第i行第j列元素的实部;yi[i,j]表示含噪信号频谱y第i行第j列元素的虚部;sr[i,j]表示干净信号频谱s第i行第j列元素的实部;si[i,j]表示干净信号频谱s第i行第j列元素的虚部;
    [0034]
    b3).利用下式,根据复数掩模实部mr和复数掩模虚部mi,计算到压缩复数掩模实部rr
    和压缩复数掩模虚部ri,即
    [0035][0036]
    其中,i={1,2

    t},j={1,2

    f};下标x代表r或i;r
    x
    ∈[-k,k]为压缩复数掩模实部或虚部;c为压缩系数控制着曲线的陡峭程度;
    [0037]
    b4).根据步骤a)中a3)所述方式,将压缩复数掩模实部rr和复数掩模虚部ri的每列依次交叉排列得到
    [0038]
    b5).利用下式,根据可得到apnsn训练所用标签交叉压缩复数掩模即
    [0039][0040]
    其中,m

    =(m-1)2,表示矩阵的第m

    1行到t-m

    行所有列的元素。
    [0041]
    其中,步骤c)所述的幅度相位降噪网络apnsn的网络架构与网络训练分别为:
    [0042]
    网络架构:幅度相位降噪网络apnsn网络由输入块,中间块和输出块组成;
    [0043]
    所述输入块由1层全连接层,结点数为2n、批归一化层和elu激活函数组成;
    [0044]
    所述中间块由特征压缩块、特征重构块和特征还原块组成;其中,特征压缩块由3个输入块构成,结点数依次为n、n/2、n/4,特征重构模块由2层lstm组成,结点数均为n/4,特征还原块由3个输入块组成,结点数依次为n/4、n/2、n;其中,特征压缩块和特征还原块采用残差连接;
    [0045]
    所述输出块由1层全连接层组成,结点数为f;
    [0046]
    训练过程包括:
    [0047]
    收集含噪信号与干净信号集合{y,s}并计算相应训练样本集合{o,l}对apnsn网络训练,误差收敛后保存网络模型及其参数;
    [0048]
    所述apnsn网络的训练输入为增强型混合交叉特征o;
    [0049]
    所述apnsn网络的训练标签为交叉压缩复数掩模l;
    [0050]
    所述含噪信号与干净信号集合{y,s}根据实际应用记录、人工合成得到。
    [0051]
    其中,步骤d)重构时域信号步骤进一步包括:
    [0052]
    d1).利用下式,根据估计交叉压缩复数掩模计算估计压缩复数掩模实部和估计压缩复数掩模虚部即
    [0053][0054]
    其中,表示矩阵第p列的所有行元素;表示矩阵第q列的所有行元素;表示矩阵第u列的所有行元素;表示矩阵第v列的所有行元素;
    [0055]
    d2).利用下式,根据估计压缩复数掩模实部和估计压缩复数掩模虚可得到估计复数掩模实部和估计复数掩模虚部即
    [0056][0057]
    其中,i={1,2,...,t

    },j={1,2

    f};下标x代表r或i;
    [0058]
    d3).利用下式,根据估计复数掩模实部和估计复数掩模虚部和含噪信号频谱y,可得到时频域估计信号即
    [0059][0060]
    其中,i={1,2,

    ,t

    },j={1,2,

    ,f},y[m

    1:t-m

    ,:]表示矩阵y中第m

    1行到t-m

    行所有列的元素;
    [0061]
    d4).将时频域估计信号经短时傅里叶反变换后可得到时域重构信号
    [0062]
    本发明的有益效果是:在相同模型大小条件下,相较于单一特征方法,如幅度谱映射和基于幅度谱特征的时频掩蔽,本发明能进一步提高语音质量以及可懂度,同时能在一定程度上减小模型的大小。
    附图说明
    [0063]
    图1为本发明的流程示意图;
    [0064]
    图2为增强型混合交叉特征提取流程示意图;
    [0065]
    图3为交叉压缩复数掩模计算流程示意图;
    [0066]
    图4为时域重构流程示意图。
    具体实施方式
    [0067]
    下面结合附图进一步详细描述本发明的技术方案,但本发明的保护范围不局限于以下所述。
    [0068]
    如图1所示,步骤a)所述,根据长度为n的离散时域含噪信号y,可得到增强型混合交叉特征o;增强型混合交叉特征o提取流程如图2所示,具体实施如下所示:
    [0069]
    a1).将长度为n的离散时域含噪语音信号y变换到时频域后,得到含噪信号频谱
    [0070]
    所述含噪信号频谱y中,t=floor(n/nh) 1表示变换到时频域后的帧数,其中nh为短时傅里叶变换stft的帧移长度,floor()表示对元素向下取整;
    [0071]
    所述含噪信号频谱y中,f=n
    stft
    /2 1表示含噪语音信号变换到时频域后的频点数,其中n
    stft
    为stft(short time fourier transform,stft)变换的长度;
    [0072]
    a2).利用下式,根据含噪信号频谱y,得到离散时域含噪语音信号y的对数功率谱和相位即
    [0073][0074]
    其中,a[i,j]表示矩阵a第i行第j列的元素;re(
    ·
    )和im(
    ·
    )分别表示复数的实部和虚部;θ[i,j]表示矩阵θ第i行第j列的元素;
    [0075]
    a3).将a和θ的每列依次交叉排列得到混合交叉特征即
    [0076][0077]
    其中,可表示为
    [0078][0079]
    其中,符号(
    ·
    )
    t
    表示矩阵或矢量的取转置操作;
    [0080]
    a4).利用下式,根据混合交叉特征h,得到增强型混合交叉特征即
    [0081][0082]
    其中,t

    =t-m 1,f

    =2*m*f,m为特征扩张系数,可表示为
    [0083][0084]
    其中,可表示为,
    [0085][0086]
    其中,h[x,:]表示第x行所有列的元素。
    [0087]
    示例1:所述步骤a)示例如下:
    [0088]
    假设:长度为n=1024离散时域含噪语音信号y=[y1,y2,

    ,y
    1024
    ],特征扩张系数m=3,stft变换长度n
    stft
    =256,stft帧移长度nh=128,且经过stft后的含噪信号频谱为
    [0089][0090]
    根据含噪信号频谱y,得到的对数功率谱和相位分别为
    [0091][0092][0093]
    根据对数功率谱a和相位θ,进一步可得到混合交叉特征为
    [0094][0095]
    根据混合交叉特征h,可得到增强型混合交叉特征为
    [0096][0097]
    如图1所示,步骤b)所述幅度相位降噪网络apnsn训练所用标签交叉压缩复数掩模l计算流程如图3所示,具体实施如下所示:
    [0098]
    b1).将长度为n的离散时域干净语音信号s变换到时频域,得到干净信号频谱
    [0099]
    b2).利用下式,根据含噪信号频谱y和干净信号频谱s,可得到复数掩模实部和复数掩模虚部即
    [0100][0101]
    其中,yr[i,j]表示含噪信号频谱y第i行第j列元素的实部;yi[i,j]表示含噪信号频谱y第i行第j列元素的虚部;sr[i,j]表示干净信号频谱s第i行第j列元素的实部;si[i,j]表示干净信号频谱s第i行第j列元素的虚部;
    [0102]
    b3).利用下式,根据复数掩模实部mr和复数掩模虚部mi,计算到压缩复数掩模实部rr和压缩复数掩模虚部ri,即
    [0103][0104]
    其中,i={1,2

    t},j={1,2

    f};下标x代表r或i;r
    x
    ∈[-k,k]为压缩复数掩模实部或虚部;c为压缩系数控制着曲线的陡峭程度;
    [0105]
    b4).根据步骤a)中a3)所述方式,将压缩复数掩模实部rr和复数掩模虚部ri的每列依次交叉排列得到
    [0106]
    b5).利用下式,根据可得到apnsn训练所用标签交叉压缩复数掩模即
    [0107][0108]
    其中,m

    =(m-1)/2,表示矩阵的第m

    1行到t-m

    行所有列的元素。
    [0109]
    示例2:所述步骤b)示例如下:
    [0110]
    假设:长度为n=1024离散时域干净语音信号s=[s1,s2,

    ,s
    1024
    ],常数k=10,压缩系数c=0.1,stft变换相关参数和含噪信号频谱y承接示例1,经过stft变换后的干净信号频谱为
    [0111][0112]
    根据含噪信号频谱y和干净信号频谱s,得到的复数掩模实部和复数掩模虚部分别为
    [0113][0114][0115]
    根据复数掩模实部mr和复数掩模虚部mi,得到压缩复数掩模实部和压缩复数掩模虚部分别为
    [0116][0117][0118]
    根据压缩复数掩模实部rr和压缩复数掩模虚部ri,可得到即为
    [0119][0120]
    根据可得到apnsn网络训练标签交叉压缩复数掩模即为
    [0121][0122]
    如图1所示,步骤c)所述幅度相位降噪网络apnsn的网络架构与训练方法分别为:
    [0123]
    网络架构:幅度相位降噪网络apnsn网络由输入块,中间块和输出块组成;
    [0124]
    所述输入块由1层全连接层,结点数为2n、批归一化层和elu激活函数组成;
    [0125]
    所述中间块由特征压缩块、特征重构块和特征还原块组成;其中,特征压缩块由3个输入块构成,结点数依次为n、n/2、n/4,特征重构模块由2层lstm组成,结点数均为n/4,特征还原块由3个输入块组成,结点数依次为n/4、n/2、n;其中,特征压缩块和特征还原块采用残差连接;
    [0126]
    所述输出块由1层全连接层组成,结点数为f;
    [0127]
    训练过程包括:
    [0128]
    收集含噪信号与干净信号集合{y,s}并计算相应训练样本集合{o,l}对apnsn网络训练,误差收敛后保存网络模型及其参数;
    [0129]
    所述apnsn网络的训练输入为增强型混合交叉特征o;
    [0130]
    所述apnsn网络的训练标签为交叉压缩复数掩模l;
    [0131]
    所述含噪信号与干净信号集合{y,s}根据实际应用记录、人工合成得到。
    [0132]
    如图1所示,步骤d)所述时域重构信号的计算流程如图4所示,具体实施如下:
    [0133]
    d1).利用下式,根据估计交叉压缩复数掩模计算估计压缩复数掩模实部和估计压缩复数掩模虚部即
    [0134][0135]
    其中,表示矩阵第p列的所有行元素;表示矩阵第q列的所有行元素;表示矩阵第u列的所有行元素;表示矩阵第v列的所有行元素;
    [0136]
    d2).利用下式,根据估计压缩复数掩模实部和估计压缩复数掩模虚部可得到估计复数掩模实部和估计复数掩模虚部即
    [0137]
    [0138]
    其中,i={1,2,...,t

    },j={1,2

    f};下标x代表r或i;
    [0139]
    d3).利用下式,根据估计复数掩模实部和估计复数掩模虚部和含噪信号频谱y,可得到时频域估计信号即
    [0140][0141]
    其中,i={1,2,

    ,t

    },j={1,2,

    ,f},y[m

    1:t-m

    ,:]表示矩阵y中第m

    1行到t-m

    行所有列的元素;
    [0142]
    d4).将时频域估计信号经短时傅里叶反变换后可得到时域重构信号
    [0143]
    示例3:所述步骤d)示例如下:
    [0144]
    假设:常数k,压缩系数c,特征扩张系数m,stft变换相关参数和含噪信号频谱y承接示例1与示例2,估计交叉压缩复数掩模为
    [0145][0146]
    根据估计交叉压缩复数掩模得到估计压缩复数掩模实部和估计压缩复数掩模虚部分别为
    [0147][0148]
    根据和进一步可得到估计复数掩模实部和估计复数掩模虚部即
    [0149][0150][0151]
    根据和含噪信号频谱y,可得到时频域估计信号为
    [0152][0153]
    将时频域估计信号经过短时傅里叶反变换后,最终可得到时域重构信号
    [0154]
    需要说明的是,本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
    转载请注明原文地址:https://tc.8miu.com/read-415.html

    最新回复(0)