自适应噪声抑制的多语言长录音转写方法、系统以及设备与流程

    专利查询2025-12-03  1


    本发明涉及语音处理的,特别涉及一种自适应噪声抑制的多语言长录音转写方法、系统以及设备。


    背景技术:

    1、在各种国际会议、学术交流、跨国商务谈判以及多语种的媒体内容中,多语言长录音的出现越来越普遍。然而,目前在处理多语言长录音时面临着诸多挑战。

    2、一方面,实际环境中往往存在各种噪声干扰,如背景人声、设备噪声、环境噪声等,这些噪声会严重影响音频的质量,使得语音的清晰度降低,给后续的转写工作带来极大困难。

    3、另一方面,不同语言的语音特点各异,发音规则、语调、语速等都有所不同,这增加了准确转写的难度,造成效率低下,难以满足实际需求。


    技术实现思路

    1、本发明的主要目的为提供一种自适应噪声抑制的多语言长录音转写方法、系统以及设备,旨在自适应去除噪声的干扰,以及提高多语言长录音转写的效率。

    2、为实现上述目的,本发明提供了一种自适应噪声抑制的多语言长录音转写方法,包括以下步骤:

    3、对多语言长录音进行音频分割,得到多个音频片段;对每个音频片段进行频谱分析,得到对应的频谱特征;

    4、根据频谱特征对各个音频片段进行噪声检测,确定噪声片段;

    5、对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频;

    6、对去噪后的多语言音频进行语音活动检测,确定语音片段和非语音片段;对语音片段进行特征提取,得到语音特征;

    7、将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果。

    8、进一步地,所述根据频谱特征对各个音频片段进行噪声检测,确定噪声片段,包括:

    9、对音频片段的频谱特征进行能量分布分析,得到不同频率区间的能量分布情况;

    10、将能量分布情况与预设的噪声能量分布阈值进行比较处理,若任一频率区间的能量值低于噪声能量分布阈值且持续时长达到预设时长,则将所述频率区间对应的音频片段部分标记为疑似噪声片段;

    11、对疑似噪声片段进行周期性检测处理,若无周期性,则确定所述疑似噪声片段为噪声片段。

    12、进一步地,所述对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频,包括:

    13、对噪声片段进行噪声特征提取处理,得到噪声特征参数;

    14、根据噪声特征参数构建自适应滤波器;

    15、将所述多语言长录音输入自适应滤波器进行滤波,得到去噪后的多语言音频;其中,所述自适应滤波器在滤波过程中实时调整滤波器参数以适应不同的噪声变化。

    16、进一步地,所述根据噪声特征参数构建自适应滤波器,包括:

    17、设置滤波器的初始参数;初始参数包括滤波器阶数、收敛系数和步长因子;

    18、利用噪声特征参数训练滤波器的权值向量,通过最小均方误差算法不断调整权值向量,使得滤波器输出与噪声片段之间的误差最小化;在训练过程中,实时监测误差变化情况,当误差稳定在预设范围内时,停止训练,完成自适应滤波器的构建。

    19、进一步地,所述将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果,包括:

    20、将语音特征输入多语言转写模型的输入层,经过输入层的预处理后传递至隐藏层;

    21、基于隐藏层对语音特征进行深度特征提取,提取出不同语言的语义特征和语法特征;

    22、基于多语言转写模型的输出层,对提取出的语义特征和语法特征进行概率计算,确定每个时间步最匹配的字符或单词;

    23、对输出层得到的每个时间步的字符或单词进行依序组合,并去除重复和错误部分,得到最终的文本结果。

    24、进一步地,所述对多语言长录音进行音频分割,得到多个音频片段之前,包括:

    25、与多个翻译终端协商建立加密通信连接;其中,各个翻译终端为各个用户所持终端;

    26、获取各个翻译终端的录音音频;

    27、按照时间顺序,将各个翻译终端的录音音频进行组合,得到所述多语言长录音。

    28、本发明还提供了一种自适应噪声抑制的多语言长录音转写系统,包括:

    29、分割模块,用于对多语言长录音进行音频分割,得到多个音频片段;对每个音频片段进行频谱分析,得到对应的频谱特征;

    30、检测模块,用于根据频谱特征对各个音频片段进行噪声检测,确定噪声片段;

    31、去噪模块,用于对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频;

    32、提取模块,用于对去噪后的多语言音频进行语音活动检测,确定语音片段和非语音片段;对语音片段进行特征提取,得到语音特征;

    33、转写模块,用于将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果。

    34、本发明还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

    35、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

    36、本发明提供的自适应噪声抑制的多语言长录音转写方法、系统以及设备,包括:对多语言长录音进行音频分割,得到多个音频片段;对每个音频片段进行频谱分析,得到对应的频谱特征;根据频谱特征对各个音频片段进行噪声检测,确定噪声片段;对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频;对去噪后的多语言音频进行语音活动检测,确定语音片段和非语音片段;对语音片段进行特征提取,得到语音特征;将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果。在本发明中,通过对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,有效降低噪声的干扰,提升语音质量;通过将语音特征输入预先训练的多语言转写模型进行转写,能够适应不同语言的特点,准确地将语音特征转换为文本,提高了多语言长录音转写的准确性和效率。



    技术特征:

    1.一种自适应噪声抑制的多语言长录音转写方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的自适应噪声抑制的多语言长录音转写方法,其特征在于,所述根据频谱特征对各个音频片段进行噪声检测,确定噪声片段,包括:

    3.根据权利要求1所述的自适应噪声抑制的多语言长录音转写方法,其特征在于,所述对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频,包括:

    4.根据权利要求3所述的自适应噪声抑制的多语言长录音转写方法,其特征在于,所述根据噪声特征参数构建自适应滤波器,包括:

    5.根据权利要求1所述的自适应噪声抑制的多语言长录音转写方法,其特征在于,所述将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果,包括:

    6.根据权利要求1所述的自适应噪声抑制的多语言长录音转写方法,其特征在于,所述对多语言长录音进行音频分割,得到多个音频片段之前,包括:

    7.一种自适应噪声抑制的多语言长录音转写系统,其特征在于,包括:

    8.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

    9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。


    技术总结
    本发明提供了一种自适应噪声抑制的多语言长录音转写方法、系统以及设备,包括:对多语言长录音进行音频分割,得到多个音频片段;对每个音频片段进行频谱分析,得到对应的频谱特征;根据频谱特征对各个音频片段进行噪声检测,确定噪声片段;对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,得到去噪后的多语言音频;对去噪后的多语言音频进行语音活动检测,确定语音片段和非语音片段;对语音片段进行特征提取,得到语音特征;将语音特征输入预先训练的多语言转写模型进行转写,得到对应的文本结果。在本发明中,通过对所述多语言长录音中的各个噪声片段进行自适应噪声抑制,有效降低噪声的干扰,提升语音质量。

    技术研发人员:车建波
    受保护的技术使用者:深圳市贝铂智能科技有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32373.html

    最新回复(0)