用于短语音说话人确认的生成对抗网络优化方法及系统与流程

    专利查询2022-07-08  152



    1.本文件涉及语音处理技术领域,尤其涉及一种基于生成对抗网络的短语音说话人确认优化方法及系统。


    背景技术:

    2.声纹识别是通过语音确定说话人身份的任务,说话人确认是声纹识别研究的一个分支。说话人确认模型可分为端到端的模型和分阶段的模型,现如今研究最多、使用最广泛的是分阶段的模型。分阶段的说话人确认分成前端和后端两个阶段,前端用于说话人身份特征提取,将说话人语音数据生成一个矢量,后端用于对生成的一对矢量进行相似性计算从而判断两段语音是否属于同一说话人。
    3.生成对抗网络一般包含一个生成器和鉴别器,两者进行交替训练,生成器的目标是尽量生成好的数据能够骗过鉴别器,鉴别器又可以通过生成的数据提升自己的鉴别能力,两者相互制衡相互促进,最终获得一个较好的生成器。
    4.实验表明,说话人确认系统的性能随语音时长减少而降低,现阶段得到的较优的效果都是基于尽可能长的语音测试而来的但由于现实中很难获取到足够长的语音数据,所以在实际使用中系统的效果比预期要差很多,因此,优化说话人确认系统在短时语音条件下的性能是很有必要的。


    技术实现要素:

    5.本说明书一个或多个实施例提供了一种用于短语音说话人确认的生成对抗网络优化方法,包括:
    6.s1.获取多对长、短语音声学特征样本;
    7.s2.将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本;
    8.s3.将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型,通过说话人确认模型输出伪身份特征样本和真身份特征样本;
    9.s4.将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,并通过反向传播优化更新鉴别器、分类器和生成器的参数。
    10.本说明书一个或多个实施例提供了一种用于短语音说话人确认的生成对抗网络优化系统,包括:
    11.数据获取模块:用于获取多对长、短语音声学特征样本;
    12.数据处理模块:用于将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本;
    13.样本生成模块:用于将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型,通过说话人确认模型输出伪身份特征样本和真身份特征样本;
    14.训练优化模块:用于将真身份特征样本和伪身份特征样本输入鉴别器和分类器,
    通过损失函数计算所述鉴别器和分类器的损失,并通过反向传播优化更新鉴别器、分类器和生成器的参数。
    15.与现有技术相比,本发明的有益效果是:利用生成模型学到的语音特征分布,将短时语音特征生成长时语音特征,提升了系统在短时条件下的性能,提升了系统的判别效果;泛化性更好,能够适用于多种场景;能够适用于多种说话人确认系统,训练简单。
    附图说明
    16.为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
    17.图1为本说明书一个或多个实施例的用于短语音说话人确认的生成对抗网络优化方法的流程图;
    18.图2为本说明书一个或多个实施例的用于短语音说话人确认的生成对抗网络架构图;
    19.图3是本说明书一个或多个实施例的用于短语音说话人确认的生成对抗网络优化系统的示意图。
    具体实施方式
    20.为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
    21.方法实施例
    22.根据本发明实施例,提供了一种用于短语音说话人确认的生成对抗网络优化方法,图1是本说明书一个或多个实施例的用于短语音说话人确认的生成对抗网络优化方法的流程图,如图1所示,根据本发明实施例的用于短语音说话人确认的生成对抗网络优化方法具体包括:
    23.s1.获取多对长、短语音声学特征样本;
    24.s2.将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本;
    25.s3.将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型,通过说话人确认模型输出伪身份特征样本和真身份特征样本;
    26.s4.将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,并通过反向传播优化更新鉴别器、分类器和生成器的参数。
    27.其中,获取的长、短语音声学特征是由原始长、短语音经过一些线性变换得到的,本发明实施例中,短语音指长度不足4秒的语音,长语音指大于等于 4秒的语音。
    28.图2为本说明书一个或多个实施例的用于短语音说话人确认的生成对抗网络架构
    图,如图2所示,生成对抗网络架构包括:生成器、说话人确认模型、鉴别器和分类器,进行训练优化时,将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本,具体的:
    29.s21.将短语音声学特征样本输入生成器,经线性变换生成额外的声学特征样本;
    30.其中,生成器的网络结构如表1所示:
    31.表1
    [0032][0033]
    其中in_channel表示说话人确认模型所使用的语音声学特征维度,k为卷积核大小,d为卷积核扩展大小,s为卷积步长,激活函数均使用relu。生成器以reshape层为界分成两部分,第一部分是固定不变的,通过5个一维卷积 (conv1d)提取更深层的特征,之后经过池化层(pool)计算均值和方差并拼接,再送入两个全连接层(fc)。第二部分根据需要生成额外特征的长度来确定,下表为生成额外200帧的配置,经过3个一维反卷积(deconv1d)操作,最终输出200帧(约2秒)的额外的声学特征。
    [0034]
    s22.将短语音声学特征样本和额外的声学特征样本进行拼接,生成伪长语音声学特征样本;
    [0035]
    s23.对所述伪长语音声学特征样本进行倒谱均值归一化处理。
    [0036]
    其中,额外的声学特征样本的长度与短语音声学特征样本的长度相等。
    [0037]
    将进行倒谱均值归一化处理后的伪长语音声学特征与步骤s1中获取的与生成伪长语音声学特征的短语音对应的长语音声学特征输入提前训练好的说话人确认模型,获得说话人身份特征,即分别与伪长语音声学特征和长语音声学特征对应的伪身份特征和真身份特征。
    [0038]
    其中,使用的说话人确认模型包括但不限于基于resnet的x-vector、 e-tdnn和ecapa-tdnn等,使用的语音声学特征的维度需要和训练好的说话人确认模型使用的保持一致,训练好的说话人确认模型在对抗生成网络训练优化时参数冻结,如果使用了线形判别分析进行了降维,在对抗生成网络训练时输出的说话人身份特征也需要进行降维。
    [0039]
    经训练好的说话人确认模型提取出与伪长语音声学特征和长语音声学特征对应的伪身份特征和真身份特征后,将其送入鉴别器和分类器进行反复训练及优化,具体过程如下:
    [0040]
    s41.将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计
    算所述鉴别器和分类器的损失,通过反向传播更新鉴别器和分类器的参数;
    [0041]
    s42.将伪身份特征样本送入鉴别器和分类器,在送入鉴别器时,将伪的身份特征样本标签伪造为真,通过损失函数计算所述鉴别器和分类器的损失,通过反向传播更新生成器的参数。
    [0042]
    其中,损失函数采用交叉熵损失函数,采用rmsprop优化器,学习率设置为0.0001。
    [0043]
    鉴别器的结构如表2所示:
    [0044]
    表2
    [0045][0046]
    分类器的结构如表3所示:
    [0047]
    表3
    [0048][0049]
    其中,embedding_dim代表身份特征的维度,speakers代表训练集中总说话人个数,鉴别器和分类器除了最后一层其余层在训练时共享。
    [0050]
    本实施例在训练的时候每40轮迭代后进行一次测试,若说话人确认模型的判别正确率大于0.75就可以结束对生成对抗网络的迭代训练。
    [0051]
    训练结束投入使用时,丢弃网络中的鉴别器和分类器,保留生成器,将需要进行识别的短语音的声学特征输入生成器,短语音声学特征和生成器输出特征拼接并处理后输入说话人确认模型,输出说话人身份特征,将身份特征送入后端进行判别。
    [0052]
    采用本发明实施例,利用生成器学到的语音特征分布,用短时语音生成一个能够包含更多说话人身份信息的长语音,提升了系统在短时条件下的性能,提升了系统的判别效果;泛化性更好,本发明实施例中的生成器生成的额外语音声学特征其本质上是经过线性变换的语音数据,所以能够适用于多种场景;本发明实施例中生成的额外语音特征分布接近实际该说话人的语音声学特征分布,可解释性更强,易于理解;训练简单,能够适用于多种说话人确认系统。
    [0053]
    系统实施例
    [0054]
    根据本发明实施例,提供了一种用于短语音说话人确认的生成对抗网络优化系统,图3是本说明书一个或多个实施例的用于短语音说话人确认的生成对抗网络优化系统的示意图,如图3所示,根据本发明实施例的用于短语音说话人确认的生成对抗网络优化系统具体包括:
    [0055]
    数据获取模块30:用于获取多对长、短语音声学特征样本。
    [0056]
    数据处理模块32:用于将短语音声学特征样本输入生成器进行拼接,得到生成的伪长语音声学特征样本。
    [0057]
    数据处理模块32具体用于:
    [0058]
    将短语音声学特征样本输入生成器,经线性变换生成额外的声学特征样本;
    [0059]
    将短语音声学特征样本和额外的声学特征样本进行拼接,生成伪长语音声学特征样本;
    [0060]
    对所述伪长语音声学特征样本进行倒谱均值归一化处理。
    [0061]
    样本生成模块34:用于将伪长语音声学特征样本与获取的所述长语音声学特征样本分别输入说话人确认模型,通过说话人确认模型输出伪身份特征样本和真身份特征样本。
    [0062]
    说话人确认模型为训练好的说话人确认模型,包括:基于resnet的x-vector 模型、e-tdnn模型和ecapa-tdnn模型。
    [0063]
    训练优化模块36:用于将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,并通过反向传播优化更新鉴别器、分类器和生成器的参数。
    [0064]
    训练优化模块36具体用于:
    [0065]
    将真身份特征样本和伪身份特征样本输入鉴别器和分类器,通过损失函数计算所述鉴别器和分类器的损失,通过反向传播更新鉴别器和分类器的参数;
    [0066]
    将伪身份特征样本送入鉴别器和分类器,在送入鉴别器时,将伪的身份特征样本标签伪造为真,通过损失函数计算所述鉴别器和分类器的损失,通过反向传播更新生成器的参数。
    [0067]
    其中,损失函数采用交叉熵损失函数,采用rmsprop优化器,学习率设置为0.0001。
    [0068]
    本实施例在每40轮迭代训练后进行一次测试,若说话人确认模型的判别正确率大于0.75就可以结束对生成对抗网络的迭代训练。
    [0069]
    本发明实施例是与上述方法实施例对应的系统实施例,各个模块的具体操作可以参照方法实施例的描述进行理解,在此不再赘述。
    [0070]
    最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
    转载请注明原文地址:https://tc.8miu.com/read-2442.html

    最新回复(0)