ASR变长文本转化方法、装置、计算机设备及存储介质与流程

    专利查询2025-05-25  43


    本发明涉及语音识别,应用于金融服务相关的asr变长文本转化场景中,具体涉及一种asr变长文本转化方法、装置、计算机设备以及非易失性计算机可读存储介质。


    背景技术:

    1、自动语音识别(automatic speech recognition,简称asr)是一种将人类的语音转换成书面文字的技术。这种技术使得计算机能够“听懂”人类的语言,广泛应用于各种场景和设备中。随着技术的进步,asr系统正在变得越来越准确和智能,它们在提高人类与机器交互的自然性和便捷性方面发挥着重要作用。但是,当前现有的asr系统在面对变长文本错误时无法实现快速、准确的有效校正与转化,导致自动语音识别(asr)过程中引入的错误会影响到后续语音搜索、语音翻译等下游任务的执行,影响客户的服务体验。

    2、基于此,如何提供一种asr变长文本转化方法、装置、计算机设备以及非易失性计算机可读存储介质,可以有效提高asr变长文本纠错转化时的效率及准确性,是目前本领域技术人员亟待解决的问题。


    技术实现思路

    1、鉴于上述现有技术的不足之处,本发明的目的在于提供一种可用于金融科技或其他相关领域的asr变长文本转化方法、装置、计算机设备以及非易失性计算机可读存储介质,可以有效提高asr变长文本纠错转化时的效率及准确性。

    2、为了达到上述目的,本发明采取了以下技术方案:

    3、一种asr变长文本转化方法,其中,包括:

    4、接收asr系统输出的初始变长文本,基于所述初始变长文本获取其对应的初始字符序列与初始拼音序列;

    5、通过预设的编码器对所述初始字符序列与所述初始拼音序列进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量;

    6、将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列;

    7、基于所述目标字符序列与所述目标拼音序列,生成所述初始变长文本转化后的目标变长文本。

    8、在进一步的技术方案中,所述的asr变长文本转化方法,其中,所述接收asr系统输出的初始变长文本,基于所述初始变长文本获取其对应的初始字符序列与初始拼音序列,包括:

    9、接收asr系统输出的初始变长文本;

    10、基于所述初始变长文本,提取得到其对应的初始字符序列;

    11、基于所述初始字符序列,通过pypinyin生成其对应的初始拼音序列。

    12、在进一步的技术方案中,所述的asr变长文本转化方法,其中,所述通过预设的编码器对所述初始字符序列与所述初始拼音序列进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量,包括:

    13、预先加载预训练的chinesebert模型;

    14、将所述初始字符序列与所述初始拼音序列输入所述chinesebert模型中进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量。

    15、在进一步的技术方案中,所述的asr变长文本转化方法,其中,所述将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列,包括:

    16、预先构建csc解码器与cpp解码器;

    17、将所述初始字符序列向量输入所述csc解码器,生成解码后字符序列,对所述解码后字符序列进行后处理,得到目标字符序列;

    18、将所述初始拼音序列向量输入所述cpp解码器,生成解码后拼音序列,对所述解码后拼音序列进行后处理,得到目标拼音序列。

    19、在进一步的技术方案中,所述的asr变长文本转化方法,其中,所述基于所述目标字符序列与所述目标拼音序列,生成所述初始变长文本转化后的目标变长文本,包括:

    20、将所述目标字符序列与所述目标拼音序列进行整合,生成所述初始变长文本转化后的目标变长文本;

    21、将所述目标变长文本发送至指定位置。

    22、在进一步的技术方案中,所述的asr变长文本转化方法,其中,所述将所述初始字符序列向量输入所述csc解码器,生成解码后字符序列,对所述解码后字符序列进行后处理,得到目标字符序列,还包括:

    23、利用复制增强架构将所述初始字符序列中未更改的token复制到所述目标字符序列中。

    24、在进一步的技术方案中,所述的asr变长文本转化方法,其中,所述将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列,还包括:

    25、根据所述初始拼音序列与所述目标拼音序列的拼音编辑距离自适应调整所述cpp解码器在解码任务中的权重。

    26、一种asr变长文本转化装置,其中,包括:

    27、接收模块,用于接收asr系统输出的初始变长文本,基于所述初始变长文本获取其对应的初始字符序列与初始拼音序列;

    28、编码模块,用于通过预设的编码器对所述初始字符序列与所述初始拼音序列进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量;

    29、解码模块,用于将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列;

    30、生成模块,用于基于所述目标字符序列与所述目标拼音序列,生成所述初始变长文本转化后的目标变长文本。

    31、一种计算机设备,其中,所述计算机设备包括至少一个处理器;以及,

    32、与所述至少一个处理器通信连接的存储器;其中,

    33、所述存储器上存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行时,可实现如上述任一项所述的asr变长文本转化方法。

    34、一种非易失性计算机可读存储介质,其中,所述非易失性计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,可实现如上述任一项所述的asr变长文本转化方法。

    35、相较于现有技术,本发明提供了一种asr变长文本转化方法、装置、计算机设备以及非易失性计算机可读存储介质,其中,所述方法包括:接收asr系统输出的初始变长文本,基于所述初始变长文本获取其对应的初始字符序列与初始拼音序列;通过预设的编码器对所述初始字符序列与所述初始拼音序列进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量;将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列;基于所述目标字符序列与所述目标拼音序列,生成所述初始变长文本转化后的目标变长文本。这样,本发明的方法,首先通过基于asr系统输出的初始变长文本获取到对应的初始字符序列与初始拼音序列,然后通过预设的编码器获取到对应的初始字符序列向量与初始拼音序列向量,然后通过预设的csc解码器与cpp解码器获取到对应纠正后的、准确的目标字符序列与目标拼音序列,最后通过目标字符序列与目标拼音序列而生成初始变长文本转化后的目标变长文本,从而通过本发明的方法可以有效提高asr变长文本纠错转化时的效率及准确性。


    技术特征:

    1.一种asr变长文本转化方法,其特征在于,包括:

    2.根据权利要求1所述的asr变长文本转化方法,其特征在于,所述接收asr系统输出的初始变长文本,基于所述初始变长文本获取其对应的初始字符序列与初始拼音序列,包括:

    3.根据权利要求2所述的asr变长文本转化方法,其特征在于,所述通过预设的编码器对所述初始字符序列与所述初始拼音序列进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量,包括:

    4.根据权利要求3所述的asr变长文本转化方法,其特征在于,所述将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列,包括:

    5.根据权利要求4所述的asr变长文本转化方法,其特征在于,所述基于所述目标字符序列与所述目标拼音序列,生成所述初始变长文本转化后的目标变长文本,包括:

    6.根据权利要求5所述的asr变长文本转化方法,其特征在于,所述将所述初始字符序列向量输入所述csc解码器,生成解码后字符序列,对所述解码后字符序列进行后处理,得到目标字符序列,还包括:

    7.根据权利要求6所述的asr变长文本转化方法,其特征在于,所述将所述初始字符序列向量与所述初始拼音序列向量分别输入对应预设的csc解码器与cpp解码器,生成对应的目标字符序列与目标拼音序列,还包括:

    8.一种asr变长文本转化装置,其特征在于,包括:

    9.一种计算机设备,其特征在于,所述计算机设备包括至少一个处理器;以及,

    10.一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质存储有计算机程序,所述计算机程序被至少一个处理器执行时,可实现如权利要求1-7任一项所述的asr变长文本转化方法。


    技术总结
    本发明公开了ASR变长文本转化方法、装置、计算机设备及存储介质,涉及语音识别技术领域,应用于金融服务相关的ASR变长文本转化场景中,其中,方法包括:接收ASR系统输出的初始变长文本,基于初始变长文本获取其对应的初始字符序列与初始拼音序列;通过预设的编码器对初始字符序列与初始拼音序列进行特征编码,生成对应的初始字符序列向量与初始拼音序列向量;将初始字符序列向量与初始拼音序列向量分别输入对应预设的CSC解码器与CPP解码器,生成对应的目标字符序列与目标拼音序列;基于目标字符序列与目标拼音序列,生成初始变长文本转化后的目标变长文本。通过本发明的方法可以有效提高ASR变长文本纠错转化时的效率及准确性。

    技术研发人员:张镛,王健宗,程宁,范佳欣
    受保护的技术使用者:平安科技(深圳)有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-28723.html

    最新回复(0)