面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统

    专利查询2025-08-06  16


    本发明属于涉及音频处理,尤其是面向域外说话人的多层级解耦个性化语音合成方法及系统。


    背景技术:

    0、技术背景

    1、个性化语音合成可以根据人们的需求,个性化地定制特定说话人的语音,在人机交互的应用场景中,其应用领域非常广泛,例如合成特定音色的语音可用于语音导航、新闻播报和智能机器人等。目前,对于个性化语音合成的需求在不断增长,尤其是在实际运用场景中,面临着大量域外(训练时未出现的)说话人适应的挑战。因此如何利用少量目标说话人语音在零资源条件下(zero-shot)来合成与其音色相似的语音具有更重要的研究意义和应用价值。

    2、目前基于深度学习的语音合成(text to speech,tts)系统因seq2seq模型和神经网络声码器的引入,能够合成真实自然的语音,这些tts模型拓展到更为复杂的场景,包括多种风格和音色,来表现复杂多样的语音合成。个性化语音合成通常根据目标说话人的语料多少划分为两类:(1)基于大量目标说话人数据方式,通过收集并标注大量目标说话人<语音,文本>数据对来合成特定说话人的声音,实现个性化语音定制,然而收集特定说话人大量语料是非常艰难的工作,目前很少使用该方法。(2)基于少量目标说话人数据方式,通过训练一个多说话人tts系统,在由各种庞大的语音数据集上进行预训练以提高模型对不同说话人的泛化性,为了合成特定目标说话人语音,该方法有两种实现方式,一种是二阶段训练的低资源(few-shot)方式,该方法只需要少量目标说话人语音数据就能合成该说话人的语音,缺点是对目标说话人语音数据质量要求比较高,且需要重新训练模型带来额外的时间开销;另一种是一阶段训练的零资源(zero-shot)方式,该方法不需要重新训练模型且仅需在模型推理时提供一条目标说话人语音数据就能实时合成该说话人的声音,缺点是只提供一条目标说话人语音数据,模型难以建模和利用该语音音色特征。

    3、在实际应用场景中,需要被定制声音的说话人往往只能提供少量参考数据,大部分方法都依赖于训练的数据,基于数据驱动的个性化语音合成并不能满足现实中个性化合成需求。零资源方式的个性化语音合成能够实时合成目标说话人语音,但对于域外说话人的语音,模型难以解耦未见说话人音色特征,导致模型泛化能力差,使得合成的语音与真实语音之间存在明显音色差异。

    4、针对实际运用场景中现有零资源的个性化语音合成方法存在的难以建模和利用单条目标说话人语音特征问题,为进一步提升该方法语音合成性能,提出面向域外说话人适应场景的多层级解耦个性化语音合成方法,设计不同粒度说话人表征模块,分别从说话人音素粒度与全局说话人粒度解耦参考音频音色特征,进一步挖掘参考音频中隐藏的音色特征。


    技术实现思路

    1、针对上述提到的问题,本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统,提升了合成的域外说话人语音与真实语音之间的音色相似度。

    2、本发明采用cdfse-fastspeech2作为模型基础框架,并设计了不同粒度说话人表征模块,以获得不同粒度的说话人特征向量。提出全局说话人表征模块(global-levelspeaker presenting module,gm),动态正则化调节参考音频中说话人音色信息,以提高模型对未见说话人的泛化能力;提出细粒度说话人表征模块(global-level speakerpresenting module,gm),利用预训练asr模型解耦音素粒度说话人特征,并通过注意力机制以提高网络对音素级别音色特征的捕捉能力;模型的输入是文本和参考音频,输入的文本经过字符转音素、音素嵌入和音素编码器后得到文本表征etext,参考音频经过预处理后得到梅尔谱图,通过不同粒度的编码器得到不同粒度表征的说话人特征,在音色适配器中通过不同的方式融合etext,并对语音的音长、音高和能量进行预测,输入到梅尔谱图解码器中,预测最终与参考音频音色相似语音的梅尔谱图,最后通过预训练的声码器hifi-gan得到最终的语音信号。

    3、本发明的技术方案是:第一方面,本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法,所述方法包括:

    4、(1)全局说话人表征模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人全局音色特征;

    5、(2)细粒度说话人表征模块利用预训练的语音识别技术细致解耦音素级别特征,通过注意力机制精准捕捉音色细节;

    6、(3)音色适配器模块对全局说话人表征模块的输出、细粒度说话人表征模块输出、音色编码器输出的文本特征进行音色特征适配融合;再对语音的音长、音高和能量进行预测,输入到梅尔谱图解码器中,预测最终与参考音频音色相似语音的梅尔谱图,最后通过预训练的声码器hifi-gan得到最终的语音信号。

    7、进一步地,所述(1)中包括:

    8、参考音频b经过快速傅里叶卷积消除语音局部信息后经过预训练说话人编码器得到固定维度说话人特征向量,说话人特征向量作为key和value,文本特征作为query经过多头注意力模块,学习说话人特征向量与文本特征向量之间的语音内容和音色信息等相关性的说话人表征,说话人表征向量分别经过不同的卷积后得到和以此调整权重和偏差。

    9、进一步地,计算方式如下:

    10、

    11、上述(1)式中表示经过全局说话人表征模块的输出的特征,其中,和表示特征的均值和方差,和是由经过卷积计算得到的权重系数和偏差;

    12、预训练说话人编码器的模型结构与asv-subtools一致,先将语音信号经过快速傅里叶卷积提取全局特征后输入到该编码器中,对其进行预训练,输入的音频,经过预训练说话人编码器输出都是256维固定长度说话人特征向量;

    13、eglospk:表示经过调整后的全局说话人特征向量,这个向量被用于反映说话人的全局音色特征;γ和β:是通过卷积网络学习得到的权重系数和偏差,用于调整归一化后的文本特征向量,这两个参数是通过卷积层(conv)处理权重向量生成的,这个权重向量表示文本特征与说话人特征之间的关联性;etext:是原始的文本特征向量;

    14、μ(etext)和σ(etext):分别代表文本特征向量的均值和标准差,用于归一化处理;

    15、是从文本特征向量和说话人特征向量之间的关系学习得到的权重系数;用以表示不同文本特征如何受到说话人特性的影响;;

    16、conv(·):是卷积操作,在处理序列或时间数据时用于提取特征;

    17、学习说话人特征向量espk与文本特征向量etext之间的语音内容和音色信息等相关性的说话人表征这是一个权重系数,由softmax函数处理的点积注意力机制计算得到;

    18、q,k,v:分别代表查询query、键key和值value;这是注意力机制中组成部分,用于从序列数据中抽取信息;在这个上下文中,q通常代表文本特征向量,k和v表示与说话人特征相关的向量;

    19、这是一个归一化因子,是键向量的维度,用于缩放点积,避免过大的值影响softmax函数的梯度;

    20、vt:值矩阵的转置。这一部分与softmax函数的输出相乘,用于加权汇总信息,形成最终的输出向量该向量反映了文本特征和说话人特征之间的加权关系。

    21、进一步地,所述(2)中包括:

    22、提取参考音频中细粒度音节的音色表征,具体包括从原始语音中分别提取语音内容特征和说话人特征,通过注意力模块,对文本中的音节与参考音频中同样的音节对齐。

    23、进一步地,所述细粒度说话人表征模块中,参考音频分别经过pre-net网络和预训练asr模型编码器来提取语音的帧级特征和aif特征;

    24、语音通过asr和pre-net得到的aif特征和帧级特征分别被传递给下采样内容编码器和下采样说话人编码器,这两个下采样编码器的结构一样,都由4个一维卷积层和一个256维的全连接输出层组成;这4个卷积层分别包含128、256、512、512个大小为3×1的卷积核,每个卷积层之后是平均池化层,经过两个编码器后分别得到音素粒度内容表征和音素粒度说话人表征该编码器的设计是对音频时域特征进行16倍压缩以获取最佳音素级别音色特征向量;将st经过平均池化层后通过一个说话人分类器来保证提取的特征为音素粒度说话人特征;

    25、内容编码器和说话人编码器有同样的结构,其输出的内容表征ct和说话人表征st的每一帧和在语音中是一一对应,因此语音内容特征在时域上的每一帧对应的是音素级别的说话人表征再把音素粒度说话人特征、音素粒度内容表征ct输入到参考音频注意力模块中,其中,使用音素编码器输出的文本表征向量etext作为参考音频注意力模块的q,音素粒度内容表征ct作为参考音频注意力模块的v,音素粒度说话人特征作为参考音频注意力模块的k,用来对文本序列etext和音素粒度内容表征ct之间进行对齐,从参考音频获取需要合成的内容的细粒度音色特征,从而动态调整音素粒度说话人特征的权重,以输出细粒度的说话人特征向量efinespk,此时的efinespk是携带音素内容相关的细粒度的说话人特征向量。

    26、进一步地,所述(3)中包括:

    27、文本经过字符转音素、音素嵌入和音素编码器后得到文本表征etext;

    28、参考音频经过预处理后得到梅尔谱图,通过全局说话人表征模块、细粒度说话人表征模块得到不同粒度表征的说话人特征;在音色适配器中通过不同的方式融合etext,并对语音的音长、音高和能量进行预测,输入到梅尔谱图解码器中,预测最终与参考音频音色相似语音的梅尔谱图,最后通过预训练的声码器hifi-gan得到最终的语音信号。

    29、第二方面,本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成系统,用于执行上述第一方面所述方法的模块。

    30、本发明的训练策略包括:

    31、模型在训练时保证输入的参考音频内容与文本内容相同,以促使模型学习到音素相关的细粒度音色信息。采用随机掩码、切分、打乱和拼接的方法处理音频,消除文本与语音时间序列的对齐一致性,同时保留音素相关的音色信息。为提升模型的泛化能力,训练时使用来自同一说话人的不同语音,增强模型对不同全局音色信息的捕捉能力。推理时,输入任意中文文本和一条目标说话人的参考音频,输出与参考音频音色相似且内容匹配的语音。

    32、数据集的选取及处理包括:使用aishell3公共数据集,包含88035句语音,由218名不同口音区域的发音人录制。实验选择8个说话人(4男4女)作为测试集,评估模型对未见说话人的性能,其他说话人作为训练集。

    33、实验设置包括。语音数据统一采样至22.05khz,使用python的audio包提取梅尔谱图。使用adam优化器,批量大小为16,学习率随训练步数逐渐减少。所有实验在配备nvidiageforce rtx 3090的ubuntu 18.04系统上运行,进行了300,000次迭代。

    34、评价指标为:使用平均主观意见得分(mos)和说话人相似度平均主观意见得分(smos)评估语音的自然性和音色相似度。客观评价指标包括梅尔倒谱失真(mcd)、基频f0的均方根误差(rmse)和使用wespeaker计算的说话人特征向量余弦相似度(cs),以衡量合成音频与真实音频之间的相似度。

    35、本发明的有益效果是:

    36、本发明通过提出多层级解耦的个性化语音合成方法,分别从说话人音素粒度与全局说话人粒度解耦音色特征,增强网络对音色特征的建模能力,从而更充分的挖掘参考音频中隐藏的音色特征。在粗粒度层面,对语音信号采用快速傅里叶卷积提取说话人全局特征对说话人编码器进行预训练,以提高模型对未见说话人的泛化能力。在细粒度层面,借助预训练语音识别模型(automatic speech recognition,asr)解耦音素粒度说话人特征,并通过注意力机制以提高模型对音素级别音色特征的捕捉能力。本发明提升了合成的域外说话人语音与真实语音之间的音色相似度,取得了相比其他个性化语音合成模型更好的性能表现。


    技术特征:

    1.面向域外说话人适应场景的多层级解耦个性化语音合成方法,其特征在于:所述方法包括:

    2.根据权利要求1所述的面向域外说话人适应场景的多层级解耦个性化语音合成方法,其特征在于:所述(1)中包括:

    3.根据权利要求2所述的面向域外说话人适应场景的多层级解耦个性化语音合成方法,其特征在于:

    4.根据权利要求1所述的面向域外说话人适应场景的多层级解耦个性化语音合成方法,其特征在于:所述(2)中包括:

    5.根据权利要求4所述的面向域外说话人适应场景的多层级解耦个性化语音合成方法,其特征在于:所述细粒度说话人表征模块中,参考音频分别经过pre-net网络和预训练asr模型编码器来提取语音的帧级特征和aif特征;

    6.根据权利要求1所述的面向域外说话人适应场景的多层级解耦个性化语音合成方法,其特征在于:所述(3)中包括:

    7.面向域外说话人适应场景的多层级解耦个性化语音合成系统,其特征在于,用于执行如权利要求1-6任一项所述方法的模块。


    技术总结
    本发明提供面向域外说话人适应场景的多层级解耦个性化语音合成方法及系统,主要针对个性化语音合成中域外说话人音色难以准确捕捉的问题,通过全局说话人表征模块和细粒度说话人表征模块的创新结合,有效提升了零资源条件下域外说话人语音合成的性能。全局模块使用快速傅里叶卷积和多头注意力机制提取并优化说话人音色特征,增强模型对未见说话人的泛化能力。细粒度模块则利用预训练的语音识别技术细致解耦音素级别特征,通过注意力机制精准捕捉音色细节。实验结果显示,本发明方法在AISHELL3数据集上的表现优于现有技术,尤其在说话人特征向量余弦相似度等客观评价指标上取得显著进步,验证了其在处理未见说话人适应问题上的有效性和实用性。

    技术研发人员:毛存礼,王娜,王琳钦
    受保护的技术使用者:昆明理工大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31054.html

    最新回复(0)