流式编码和语音识别方法、装置、电子设备以及存储介质与流程

    专利查询2022-07-08  142



    1.本发明实施例涉及计算机技术领域,尤其涉及一种流式编码和语音识别方法、装置、电子设备以及存储介质。


    背景技术:

    2.自动语音识别(automatic speech recognition,asr)系统广泛应用于各种接口应用,例如,基于语音指令的搜索或知识问答应用等。
    3.基于序列到序列(sequence to sequence)的神经网络模型已经在asr技术中获得了广泛的流行度。端到端asr系统的输入通常是语音序列,输出通常是文本序列,与传统asr系统相比,它能够简化系统结构,并且避免了构建asr系统所需的语言专家知识。这种端到端asr系统可以直接学习语音识别器的各个部分和环节。
    4.用于端到端asr系统的序列到序列模型主要是基于两种类型的神经网络,即,适用于帧同步解码(frame synchronous decoding,fsd)的具有逐帧判决的神经网络和使用标签同步解码(label synchronous decoding,lsd)的具有逐标签判决的神经网络,例如,基于transformer的语音识别模型。基于lsd的asr系统在语音识别中表现出优异的结果,但是,直接将其应用于流式处理的场景中,需要较长的语音数据序列作为输入,导致实时性较长。
    5.为了使诸如transformer的语音识别模型更好地应用于流式处理的场景,可以将整个语音数据序列分成多个不重叠的帧序列,每个帧序列只需要关注这个帧序列之前的若干历史帧序列,而不需要关注整条语音数据序列。
    6.然而,将诸如transformer的语音识别模型应用于算力较差的设备中,计算处理效率仍然较低。


    技术实现要素:

    7.有鉴于此,本发明实施例提供一种流式编码和语音识别方法、装置、电子设备以及存储介质,以至少部分解决上述问题。
    8.根据本发明实施例的第一方面,提供了一种流式编码方法,包括:基于当前帧序列进行线性变换,得到所述当前帧序列的第一变换序列;基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列;基于所述第一变换序列和所述第三变换序列进行拼接处理,得到所述当前融合帧序列的第四变换序列;基于所述第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者;基于所述源序列和所述上下文序列,对所述当前帧序列进行流式编码。
    9.在本发明的另一实现方式中,所述方法还包括:对初始帧序列进行采样,得到多个采样帧;拼接所述多个采样帧,得到所述当前帧序列。
    10.在本发明的另一实现方式中,所述对初始帧序列进行采样,得到多个采样帧,包括:对初始帧序列进行均匀采样,得到多个采样帧,使得所述初始帧序列的序列长度为所述
    当前帧序列的序列长度的m倍,m为正整数。
    11.在本发明的另一实现方式中,所述方法还包括:从所述初始帧序列中,确定所述历史参考帧序列,使得所述历史参考帧序列的序列长度为所述当前帧序列的序列长度的n倍,n为正整数。
    12.在本发明的另一实现方式中,所述基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列,包括:基于所述当前帧序列的n倍长度,截取先前融合帧序列的第二变换序列,得到历史参考帧序列的第三变换序列。
    13.在本发明的另一实现方式中,所述方法还包括:将所述历史参考帧序列的第三变换序列置于环形缓存中,所述环形缓存包括n个存储区域,每个区域用于存储与所述当前帧序列的序列长度对应的序列;将所述第一变换序列替换所述第三变换序列中的第n区域,并且将第n区域更新为第1区域。
    14.在本发明的另一实现方式中,所述基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列,包括:基于时间戳信息,确定先前融合帧序列的第二变换序列与历史参考帧序列对齐的部分序列,作为历史参考帧序列的第三变换序列。
    15.在本发明的另一实现方式中,所述方法还包括:所述第四变换序列用于更新所述第二变换序列。
    16.根据本发明实施例的第二方面,提供了一种语音识别方法,包括:获取语音数据流;基于所述语音数据流,生成当前帧序列;基于流式编码方法,对所述当前帧序列进行流式编码,所述流式编码方法为根据第一方面所述的方法;基于流式编码结果,对所述当前帧序列进行语音识别。
    17.根据本发明实施例的第三方面,提供了一种流式编码装置,包括:第一处理模块,基于当前帧序列进行线性变换,得到所述当前帧序列的第一变换序列;第二处理模块,基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列;第三处理模块,基于所述第一变换序列和所述第三变换序列进行拼接处理,得到所述当前融合帧序列的第四变换序列;第四处理模块,基于所述第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者;编码模块,基于所述源序列和所述上下文序列,对所述当前帧序列进行流式编码。
    18.根据本发明实施例的第四方面,提供了一种语音识别装置,包括:获取模块,获取语音数据流;生成模块,基于所述语音数据流,生成当前帧序列;编码模块,基于流式编码方法,对所述当前帧序列进行流式编码,所述流式编码方法为根据第一方面所述的方法;识别模块,基于流式编码结果,对所述当前帧序列进行语音识别。
    19.根据本发明实施例的第五方面,提供了一种电子设备,配置有预定算力资源,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的方法对应的操作,以满足预定算力资源的资源消耗条件。
    20.根据本发明实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的方法。
    21.在本发明实施例的方案中,由于历史参考帧序列的第三变换序列,基于先前融合
    帧序列的第二变换序列确定,减少了在线性变换处理过程中对历史参考帧序列变化处理所需的数据处理量,提高了数据处理效率,减小了设备的算力要求。
    附图说明
    22.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
    23.图1a为一个示例的语音识别模型的流式编码过程的示意图。
    24.图1b-1c为图1a示例中的注意力机制的序列处理过程的示意图。
    25.图2为根据本发明的一个实施例的流式编码方法的步骤流程图。
    26.图3a-图3c为图2实施例的序列处理过程的示意图。
    27.图4为根据本发明的另一实施例的语言识别方法的步骤流程图。
    28.图5为根据本发明的另一实施例的流式编码装置的结构框图。
    29.图6为根据本发明的另一实施例的语言识别装置的结构框图。
    30.图7为根据本发明的另一实施例的电子设备的结构示意图。
    具体实施方式
    31.为了使本领域的人员更好地理解本发明实施例中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述,显然,所描述的实施例仅是本发明实施例一部分实施例,而不是全部的实施例。基于本发明实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明实施例保护的范围。
    32.下面结合本发明实施例附图进一步说明本发明实施例具体实现。
    33.图1a为一个示例的语音识别模型的流式编码过程的示意图。如图1a所示,语言识别模型中包括序列到序列模型100,序列到序列模型100可以基于transformer结构的神经网络进行训练。序列到序列模型100包括预先训练的编码器(encoder)110和解码器(decoder)120。
    34.具体地,编码器110中包括基于注意力机制的多头注意力计算模块,其中,源序列k、上下文序列v以及目标序列q基于编码器110的输入序列确定,解码器120中包括基于注意力机制的多头注意力计算模块,其中,源序列k、上下文序列v来自编码器110的输出,目标序列q来自解码器120的输入。
    35.进一步地,在序列到序列模型100应用于语音数据流识别的情况下,基于编码器110进行流式编码,即,对语音数据流进行处理,得到重合或不重合的多段帧序列,每段帧序列的历史参考帧序列k和v分别可以用于计算所述帧序列的k和v。相应地,基于所述帧序列的k和v输入到编码器110,对所述帧序列进行流式编码。
    36.如图1b和图1c所示,在当前帧序列的k或v时,需要当前帧序列以及当前帧序列的历史参考帧序列。例如,t3-t2之间的序列为先前帧序列,t2-t1之间的序列为先前帧序列的历史参考帧序列;t4-t3之间的序列为当前帧序列,t3-t5之间的序列为当前帧序列的历史参考帧序列。应理解,当前帧序列与先前帧序列为上述的多段序列中次序相邻的帧序列,在
    本示例中,当前帧序列与先前帧序列之间不重合,优选地,当前帧序列与先前帧序列为语音数据序列中的连续部分,即,当前帧序列与先前帧序列之间不存在其他语音数据。
    37.还应理解,对于给定的采用频率而言,可以基于序列长度表征帧序列所经历的时间,例如,历史参考帧序列的序列长度为h,当前帧序列的序列长度为c。帧序列被执行序列之后,可以采用矩阵表征,序列长度为矩阵的一个维度,矩阵的另一维度表征相应的帧数据特征。由此,流式解码处理中涉及的各个矩阵:当前帧序列与先前帧序列的历史参考帧序列的矩阵h

    d;当前帧序列与先前帧序列的矩阵c

    d;线性变换的矩阵为d

    d。
    38.通过比较图1b和图1c,可见,当前帧序列的历史参考帧序列并非完全采用先前帧序列的历史参考帧序列,从而在采用历史帧信息提高流式解码准确度的同时,保证了提高了流式解码的实时性。
    39.图2为根据本发明的一个实施例的流式编码方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于桌面电脑、服务器、终端设备、嵌入式设备、物联网设备等。电子设备中可以部署有预先训练的语音识别模型,语音识别模型基于注意力机制的序列到序列模型,例如,图1a中的序列到序列模型100。电子设备中还包括配置有环形缓存,用于历史参考帧序列的第三变换序列的更新。本实施例的流式编码方法中的部分或全部步骤可以在序列到序列模型中进行处理。
    40.本实施例的流式编码方法包括:
    41.s210:基于当前帧序列进行线性变换,得到当前帧序列的第一变换序列。
    42.应理解,可以基于输入的语音数据序列进行实时截取处理,依次得到当前帧序列,其中,当前帧序列之前截取的帧序列为先前帧序列,在均匀截取帧序列的情况下,先前帧序列为上一帧序列。
    43.还应理解,可以在帧序列截取之前,对各个帧标记时间戳信息,也可以在截取之后的帧序列中的各个帧标记时间戳信息。
    44.s220:基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列。
    45.应理解,可以截取先前融合帧序列的第二变换序列中的时间在后的一部分,得到历史参考帧序列的第三变换序列。
    46.s230:基于第一变换序列和第三变换序列进行拼接处理,得到当前融合帧序列的第四变换序列。
    47.应理解,在获得第四变换序列之后,可以基于第四变换序列,更新第二变换序列,以便对后续帧序列进行流式编码。
    48.s240:基于第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者。
    49.应理解,可以基于第四变换序列,确定源序列和上下文序列。在一个示例中,源序列和上下文序列可以为相同序列,表征源序列和上下文序列各自的矩阵可以为相同矩阵。在另一示例中,表征源序列和上下文序列各自的矩阵中的元素值成预设比例关系。
    50.还应理解,基于步骤s210-s240,计算得到了源序列和上下文序列,在一个示例中,这部分的计算可以在语音识别模型之外执行,然后,将源序列和上下文序列输入到语音识别模型中;在另一示例中,这部分的计算可以在语音识别模型中执行,例如,由语音识别模
    型中的编码器执行。
    51.还应理解,上述的第一变换序列至第四变换序列均基于相同的线性变换得到,即,基于同一线性变换矩阵计算得到。
    52.s250:基于源序列和上下文序列,对当前帧序列进行流式编码。
    53.应理解,在一个示例中,可以基于注意力机制,将源序列和上下文序列执行乘法运算,然后,基于乘法运算的结果与目标序列进一步执行乘法运算,得到上下文融合序列。在另一示例中,可以将源序列、上下文序列和目标序列直接输入到基于注意力机制的计算模块中,输入上下文融合序列。
    54.还应理解,流式编码后的帧序列可以进一步由语音识别模型中的解码器处理,从解码器中可以输入文本序列,作为当前帧序列的语音识别结果。
    55.在本发明实施例的方案中,由于历史参考帧序列的第三变换序列,基于先前融合帧序列的第二变换序列确定,减少了在线性变换处理过程中对历史参考帧序列变化处理所需的数据处理量,提高了数据处理效率,减小了设备的算力要求。
    56.具体而言,参考图3a-3c的各个示例,其中,t3-t2之间的序列为先前帧序列,t2-t1之间的序列为先前帧序列的历史参考帧序列;t4-t3之间的序列为当前帧序列,t3-t5之间的序列为当前帧序列的历史参考帧序列。流式解码处理中涉及的各个矩阵:当前帧序列与先前帧序列的历史参考帧序列的矩阵h

    d;当前帧序列与先前帧序列的矩阵c

    d;线性变换的矩阵为d

    d。
    57.与现有技术不同,参考图3a,直接基于当前帧序列进行线性变换,即,当前帧序列的矩阵c

    d与线性变换的矩阵为d

    d相乘,得到当前帧序列的第一变换序列c

    d。
    58.进一步地,参考图3b,基于先前融合帧序列的第二变换序列,截取t5-t1之间的序列,得到历史参考帧序列的第三变换序列h

    d(即,t3-t5之间的序列)。然后,基于第一变换序列c

    d和第三变换序列进行拼接处理,得到当前融合帧序列的第四变换序列(h c)

    d,即,t4-t5之间的序列。
    59.在另一些示例中,流式编码方法还包括:对初始帧序列进行采样,得到多个采样帧;拼接多个采样帧,得到当前帧序列。由此,对初始帧序列进行采样,提高了帧序列处理的实时性。
    60.在另一些示例中,对初始帧序列进行采样,得到多个采样帧,包括:对初始帧序列进行均匀采样,得到多个采样帧,使得初始帧序列的序列长度为当前帧序列的序列长度的m倍,m为正整数。由此,在保证帧序列处理的实时性的基础上,序列长度之间的确定倍数关系有利于提高采样效率以及后续的流式编码效率。换言之,以1/m的采用频率,对初始帧序列进行均匀采样,初始帧序列的序列长度与采样频率1/m的乘积为当前帧序列的序列长度。
    61.具体而言,参考图3c的示例,初始帧序列可以是语音数据序列中用于当前实时截取处理的帧序列,基于1/2的采用频率,对初始帧序列进行均匀采样,得到多个采样帧。如图所示,初始帧序列的序列长度为2c,初始帧序列的历史参考帧序列的序列长度为2h,相应地,在采样之后,得到了当前帧序列的序列长度为c,当前帧序列的历史参考帧序列的序列长度为h。
    62.在另一些示例中,流式编码方法还包括:从初始帧序列中,确定历史参考帧序列,使得历史参考帧序列的序列长度为当前帧序列的序列长度的n倍,n为正整数。由此,提高了
    历史参数帧序列的更新效率。
    63.在另一些示例中,基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列,包括:基于当前帧序列的n倍长度,截取先前融合帧序列的第二变换序列,得到历史参考帧序列的第三变换序列。由此,基于确定的序列长度关系,提高了截取处理的效率,避免进行整个序列的更新处理,提高了计算效率,进一步节省了设备算力。
    64.在另一些示例中,基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列,包括:基于时间戳信息,确定先前融合帧序列的第二变换序列与历史参考帧序列对齐的部分序列,作为历史参考帧序列的第三变换序列。由此,进一步提高了历史参考帧序列的变换序列的处理效率,进一步节省了设备算力。
    65.更具体地,历史参考帧序列的序列长度为当前帧序列的序列长度的n倍,n为正整数,流式编码方法还包括:将历史参考帧序列的第三变换序列置于环形缓存中,环形缓存包括n个存储区域,每个区域用于存储与当前帧序列的序列长度对应的序列,并且将第一变换序列替换第三变换序列中的第n区域,并且将第n区域更新为第1区域。由此,基于环形缓存提高了排序处理的效率,进而提高了序列更新处理的效率。
    66.图4为根据本发明的另一实施例的语言识别方法的步骤流程图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于桌面电脑、服务器、终端设备、嵌入式设备、物联网设备等。电子设备中可以部署有预先训练的语音识别模型,语音识别模型基于注意力机制的序列到序列模型,例如,图1a中的序列到序列模型100。电子设备中还包括配置有环形缓存,用于历史参考帧序列的第三变换序列的更新。本实施例的流式编码方法中的部分或全部步骤可以在序列到序列模型中进行处理。本实施例的语音识别方法包括:
    67.s410:获取语音数据流。
    68.s420:基于语音数据流,生成当前帧序列。
    69.s430:基于流式编码方法,对当前帧序列进行流式编码。
    70.s440:基于流式编码结果,对当前帧序列进行语音识别。
    71.在本实施例的方案中,由于当前帧序列进行流式编码提高了数据处理效率,减小了设备的算力要求,因此,进一步提高了语音识别处理的效率。
    72.图5为根据本发明的另一实施例的流式编码装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于桌面电脑、服务器、终端设备、嵌入式设备、物联网设备等。电子设备中可以部署有预先训练的语音识别模型,语音识别模型基于注意力机制的序列到序列模型,例如,图1a中的序列到序列模型100。电子设备中还包括配置有环形缓存,用于历史参考帧序列的第三变换序列的更新。本实施例的流式编码方法中的部分或全部步骤可以在序列到序列模型中进行处理。本实施例的流式编码装置包括:
    73.第一处理模块510,基于当前帧序列进行线性变换,得到所述当前帧序列的第一变换序列。
    74.第二处理模块520,基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列。
    75.第三处理模块530,基于所述第一变换序列和所述第三变换序列进行拼接处理,得
    到所述当前融合帧序列的第四变换序列。
    76.第四处理模块540,基于所述第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者。
    77.编码模块550,基于所述源序列和所述上下文序列,对所述当前帧序列进行流式编码。
    78.在本发明实施例的方案中,由于历史参考帧序列的第三变换序列,基于先前融合帧序列的第二变换序列确定,减少了在线性变换处理过程中对历史参考帧序列变化处理所需的数据处理量,提高了数据处理效率,减小了设备的算力要求。
    79.在另一些示例中,流式编码装置还包括:第五处理模块,对初始帧序列进行采样,得到多个采样帧,并且拼接所述多个采样帧,得到所述当前帧序列。
    80.在另一些示例中,第五处理模块具体用于:对初始帧序列进行均匀采样,得到多个采样帧,使得所述初始帧序列的序列长度为所述当前帧序列的序列长度的m倍,m为正整数。
    81.在另一些示例中,流式编码装置还包括:第六处理模块,从所述初始帧序列中,确定所述历史参考帧序列,使得所述历史参考帧序列的序列长度为所述当前帧序列的序列长度的n倍,n为正整数。
    82.在另一些示例中,第二处理模块具体用于:基于所述当前帧序列的n倍长度,截取先前融合帧序列的第二变换序列,得到历史参考帧序列的第三变换序列。
    83.在另一些示例中,流式编码装置还包括:第七处理模块,将所述历史参考帧序列的第三变换序列置于环形缓存中,所述环形缓存包括n个存储区域,每个区域用于存储与所述当前帧序列的序列长度对应的序列;将所述第一变换序列替换所述第三变换序列中的第n区域,并且将第n区域更新为第1区域。
    84.在另一些示例中,第二处理模块具体用于:基于时间戳信息,确定先前融合帧序列的第二变换序列与历史参考帧序列对齐的部分序列,作为历史参考帧序列的第三变换序列。
    85.在另一些示例中,流式编码装置还包括:更新模块,基于第四变换序列更新第二变换序列。
    86.本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
    87.图6为根据本发明的另一实施例的语言识别装置的结构框图。本实施例的方案可以适用于任意适当的具有数据处理能力的电子设备,包括但不限于桌面电脑、服务器、终端设备、嵌入式设备、物联网设备等。电子设备中可以部署有预先训练的语音识别模型,语音识别模型基于注意力机制的序列到序列模型,例如,图1a中的序列到序列模型100。电子设备中还包括配置有环形缓存,用于历史参考帧序列的第三变换序列的更新。本实施例的流式编码方法中的部分或全部步骤可以在序列到序列模型中进行处理。本实施例的语音识别装置包括:
    88.获取模块610,获取语音数据流。
    89.生成模块620,基于所述语音数据流,生成当前帧序列。
    90.编码模块630,基于流式编码方法,对所述当前帧序列进行流式编码。
    91.识别模块640,基于流式编码结果,对所述当前帧序列进行语音识别。
    92.在本实施例的方案中,由于当前帧序列进行流式编码提高了数据处理效率,减小了设备的算力要求,因此,进一步提高了语音识别处理的效率。
    93.本实施例的装置用于实现前述多个方法实施例中相应的方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本实施例的装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述,在此亦不再赘述。
    94.参照图7,示出了根据本发明的另一实施例的电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。此外,电子设备包括但不限于桌面电脑、服务器、终端设备、嵌入式设备、物联网设备、边缘设备、低功耗设备等。例如,在上述电子设备中,可以配置有嵌入式操作系统、实时操作系统等,电子设备中可以部署有预先训练的语音识别模型,语音识别模型基于注意力机制的序列到序列模型。
    95.如图7所示,电子设备可以配置有预定算力资源,包括硬件算力资源和软件算力资源,硬件算力资源包括但不限于诸如cpu和/或gpu的数量和配置类型、操作系统的种类、存储器的数量和类型等。软件算力资源包括但不限于操作系统、应用程序等。
    96.电子设备包括:处理器(processor)702、通信接口(communications interface)704、存储器(memory)706、以及通信总线708。
    97.处理器702、通信接口704、以及存储器706通过通信总线708完成相互间的通信。
    98.通信接口704,用于与其它电子设备或服务器进行通信。
    99.处理器702,用于执行程序710,具体可以执行上述方法实施例中的相关步骤,以满足预定算力资源的资源消耗条件。资源消耗条件包括但不限于电子设备的cpu和/或gpu的数量和配置类型、操作系统的种类、存储器的数量和类型、操作系统、应用程序、设备功耗中的一种或多种的组合。
    100.具体地,程序710可以包括程序代码,该程序代码包括计算机操作指令。
    101.在本实施例减少了在线性变换处理过程中对历史参考帧序列变化处理所需的数据处理量,提高了电子设备的数据处理效率,减小了电子设备的算力要求,满足了预定算力资源的资源消耗条件。
    102.处理器702可能是处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个cpu;也可以是不同类型的处理器,如一个或多个cpu以及一个或多个asic。
    103.存储器706,用于存放程序710。存储器706可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
    104.程序710具体可以用于使得处理器702执行以下操作:基于当前帧序列进行线性变换,得到所述当前帧序列的第一变换序列;基于先前融合帧序列的第二变换序列,确定历史参考帧序列的第三变换序列;基于所述第一变换序列和所述第三变换序列进行拼接处理,得到所述当前融合帧序列的第四变换序列;基于所述第四变换序列,确定用于注意力机制的源序列和上下文序列中的至少一者;基于所述源序列和所述上下文序列,对所述当前帧序列进行流式编码。
    105.或者,程序510具体可以用于使得处理器502执行以下操作:获取语音数据流;基于
    所述语音数据流,生成当前帧序列;基于流式编码方法,对所述当前帧序列进行流式编码;基于流式编码结果,对所述当前帧序列进行语音识别。
    106.此外,程序710中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
    107.需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
    108.上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如cd rom、ram、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如asic或fpga)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,ram、rom、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
    109.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
    110.以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
    转载请注明原文地址:https://tc.8miu.com/read-2630.html

    最新回复(0)