本技术涉及语音识别,特别涉及一种交互方法、装置、电子设备及可读存储介质。
背景技术:
1、随着语音识别技术的发展,语音助手在手机、智能手表、可穿戴设备等便携式电子设备中应用越来越广泛,使用语音助手可以通过语音实现语音控制和信息查询等功能。实际使用时,用户需要对语音助手进行唤醒,具体地,通过说出预设的唤醒词唤醒语音助手。
2、需要说明的是,使用唤醒词唤醒语音助手时,需要先进行唤醒词注册,唤醒词注册步骤繁琐,例如注册唤醒词:“你好yoyo”时,需要先找到多级菜单入口,然后在安静的环境、在预设距离(比如30cm)内说三遍“你好yoyo”。繁琐的操作影响了该功能的进一步推广和普及,而且在实际使用中语音助手的误唤醒率较高。
3、因此,如何便捷地唤醒语音助手并降低误唤醒率是亟待解决的技术问题。
技术实现思路
1、本技术提供了一种交互方法、装置、电子设备及可读存储介质,能够提高唤醒语音助手的便利性、以及降低误唤醒率。
2、第一方面,提供了一种交互方法,应用于电子设备,所述方法包括:
3、利用音频数字信号处理器(audio digital signal processor,adsp)对所述电子设备的指定状态进行第一识别,得到第一识别结果;所述第一识别结果包括:确定所述电子设备的所述指定状态是否与用免唤醒词唤醒所述电子设备的语音助手时的状态匹配;
4、在所述第一识别结果是所述指定状态与用免唤醒词唤醒语音助手时的状态匹配时,触发应用处理器(application processor,ap)对第一音频数据进行第二识别,得到第二识别结果;所述第一音频数据是缓存中存储的从麦克风获取的音频数据;所述第二识别结果包括:确定所述第一音频数据中是否包括语音助手需要响应的音频数据;
5、在所述第二识别结果是所述第一音频数据中包括所述语音助手需要响应的音频数据时,唤醒所述语音助手。
6、采用该实施方式进行交互时,采用两级识别,首先利用asdp对指定状态进行第一识别,确定电子设备的指定状态是否与用免唤醒词唤醒语音助手时的状态匹配,在匹配时,触发ap对缓存中存储的从麦克风获取的音频数据进行第二识别,确定音频数据中是否包括需要语音助手需要响应的音频数据,在缓存中存储的从麦克风获取的音频数据中包括语音助手需要响应的音频数据时,唤醒语音助手。该实施例进行交互时,采用免唤醒词唤醒语音助手,操作简捷方便,另外,通过第二识别,将一部分识别任务放到ap端进行,降低了对asdp性能的要求,有利于将该技术方案应用到asdp配置不高的电子设备中,经过asdp和ap配合进行识别,有利于降低误唤醒率。
7、需要说明的是,缓存的空间有限,在缓存中循环缓存麦克风获取的音频数据,在第一识别结果是指定状态与用免唤醒词唤醒语音助手时的状态匹配时,从缓存中获取最新存储的音频数据(举例来说,每次可以存储2秒的数据,也可以存储预定大小的数据)作为第一音频数据,对第一音频数据进行识别,确定第一音频数据中是否包括语音助手需要响应的音频数据。在一些可能的实施例中,如果第一音频数据是目标用户(如果电子设备是手机,目标用户可以是机主)发出的语音,可以将目标用户发出的语音作为语音助手需要响应的音频数据。可以将录音、其他用户发出的语音、风声等对应的音频数据不作为语音助手需要响应的音频数据。
8、需要说明的是,第一音频数据可以是预设时长的音频数据也可以是容量为预设字节的音频数据,可以根据需要和/或经验等确定,本技术不做限定。
9、通过作为本技术的一个示例,所述指定状态包括如下状态中的至少一种:所述电子设备的运动状态、所述电子设备的空间姿态、所述电子设备的麦克风与声源的距离、以及接近光的光强。其中,电子设备以手机为例,在采用免唤醒词唤醒语音助手时,用户通常会有拿起电子设备的动作,也就是电子设备有移动的运动状态,手机底部麦克风靠近嘴(也就是声源与麦克风的距离较近,比如在5厘米范围内),电子设备的水平角度在一定范围内(比如相对于水平面-60°~60°),手机周围的光强通常大于一定的值(如果光强较低可能位于密闭的空间,比如可能在背包里、口袋里等)。在具体实施例中,指定状态可以根据需要进行设定。其中,电子设备的运动状态可以利用加速度传感器等检测模块进行检测,确定电子设备是否有移动的状态。电子设备的空间姿态,可以是电子设备的显示界面(比如手机的显示屏)与水平面的夹角,可以通过陀螺仪、加速度传感器等模块进行检测;声源与麦克风的距离可以利用不同麦克风检测到的声源的强度来识别(在实际使用时,可以采用一个、两个、或者三个等不数量的麦克风),接近光的强度可以利用接近光传感器来识别。
10、作为本技术的一个示例,所述第二识别包括:对所述第一音频数据进行预处理得到第二语音数据;所述预处理包括如下操作中的至少一项:语音/风噪识别、前端增强、定向拾音;以及利用预设的气息识别模型对所述第二语音数据进行识别,得到第一置信度;根据第一置信度确定第二识别结果。预设的气息识别模块可以是预先训练好的神经网络模型,通过该模型对第二语音数据进行识别,在采用免唤醒词唤醒时,用户通常靠近麦克风说话,利用气息识别模型对用户对麦克风说话时产生的气息特征进行识别,得到第一置信度,根据所述第一置信度确定所述第二识别结果,举例来说,若第一置信度为高或者超过阈值,则可以确定第二识别结果是:第一音频数据中包括语音助手需要响应的音频数据。可以理解的,在进行第二识别时,若对其他参数进行了识别,可以融合其他参数的识别结果来确定第二识别结果。具体如何融合,可以根据各参数对第二识别结果的影响来确定,也可以根据经验确定。
11、其中,语音/风噪识别预处理,可以识别第一音频数据中是否有风噪,如果有风噪,则从第一语音数据中去除风噪。前端增强的预处理,可以识别声源的位置,将靠近声源的一端确定为前端,将另一端确定为后端,比如在手机水平拿起的时候,将靠近手机底部麦克风方向的声源确定为前端的声源,可以将该方向的语音进行放大处理,有利于提高唤醒率。进一步地,可以对特定角度或者特定角度范围内的声音进行拾取,即定向拾音的预处理。具体采用哪种或者哪几种预处理操作,可以根据实际情况具体确定。
12、作为本技术的一个示例,所述第二识别还包括:对所述第一音频数据进行声源角度识别,根据识别得到的声源角度与预设的声源角度阈值确定第三识别结果,所述预设的声源角度阈值是所述第一音频数据中包括所述语音助手需要响应的音频数据时对应的角度范围;所述根据所述第一置信度确定所述第二识别结果,包括:根据所述第一置信度和所述第三识别结果确定所述第二识别结果。声源的角度可以是手机显示屏相对于水平面的倾斜角度,得到的第三识别结果可以与其他模块识别结果进行融合得出进一步的识别结果。
13、作为本技术的一个示例,所述根据所述第一置信度和所述第三识别结果确定所述第二识别结果,包括,根据预设的融合规则、对所述第一置信度和所述第三识别结果进行融合处理,确定所述第二识别结果。
14、作为本技术的一个示例,所述第二识别还可以包括:根据文本无关声纹识别模块对所述第一音频数据进行识别,得到第四识别结果,所述第四识别结果包括:确定所述第一音频数据中是否包括目标用户的声纹信息,所述第二识别结果融合所述第四识别结果后得到。
15、作为本技术的一个示例,所述第二识别还包括:根据录音回放攻击防御模块对所述第一音频数据进行识别,得到第五识别结果,所述第五识别结果包括:确定所述第一音频数据是否是录音数据。所述第二识别结果融合所述第五识别结果后得到。录音数据包括:合成/拼接的录音数据。本实施例只对真人讲话进行响应,对录音回放、录音拼接、合成的录音等不响应,这样有利于保护隐私安全。
16、第二方面,本技术提供了一种交互装置,应用于电子设备,所述交互装置包括:音频数字信号处理器adsp、应用处理器ap和唤醒模块,其中,
17、所述adsp,用于对所述电子设备的指定状态进行第一识别,得到第一识别结果;所述第一识别结果包括:确定所述电子设备的所述指定状态是否与用免唤醒词唤醒语音助手时的状态匹配;
18、所述ap,用于在所述第一识别结果是所述指定状态与用免唤醒词唤醒语音助手时的状态匹配时,对第一音频数据进行第二识别,得到第二识别结果;所述第一音频数据是缓存中存储的从麦克风获取的音频数据;所述第二识别结果包括:确定所述第一音频数据中是否包括语音助手需要响应的音频数据;
19、唤醒模块,用于在所述第二识别结果是所述第一音频数据中包括所述语音助手需要响应的音频数据时,唤醒所述语音助手。
20、作为本技术的一个示例,所述指定状态包括如下状态中的至少一种:所述电子设备的运动状态、所述电子设备的空间姿态、所述电子设备的麦克风与声源的距离、以及接近光的光强。
21、作为本技术的一个示例,所述ap进行第二识别具体可以包括:对所述第一音频数据进行预处理得到第二语音数据;所述预处理包括如下操作中的至少一项:语音/风噪识别、前端增强、定向拾音;以及利用预设的气息识别模型对所述第二语音数据进行识别,得到第一置信度;根据所述第一置信度确定所述第二识别结果。
22、作为本技术的一个示例,所述ap在进行的第二识别时,还用于:对所述第一音频数据进行声源角度识别,根据识别得到的声源角度与预设的声源角度阈值确定第三识别结果,所述预设的声源角度阈值是所述第一音频数据中包括所述语音助手需要响应的音频数据时对应的角度范围,所述根据所述第一置信度确定所述第二识别结果,包括:根据所述第一置信度和所述第三识别结果确定所述第二识别结果。
23、作为本技术的一个示例,所述ap在进行的第二识别时,还用于:根据预设的融合规则、对所述第一置信度和所述第三识别结果进行融合处理确定所述第二识别结果。
24、作为本技术的一个示例,所述ap在进行的第二识别时,还用于:根据文本无关声纹识别模块对所述第一音频数据进行识别,得到第四识别结果,所述第四识别结果包括:确定所述第一音频数据中是否包括目标用户的声纹信息;所述第二识别结果融合所述第四识别结果后得到。
25、作为本技术的一个示例,所述ap在进行的第二识别时,还用于:所述第二识别还包括:
26、根据录音回放攻击防御模块对所述第一音频数据进行识别,得到第五识别结果,所述第五识别结果包括:确定所述第一音频数据是否是录音数据,所述第二识别结果融合所述第五识别结果后得到。
27、第三方面,本技术提供了一种电子设备,包括:存储器和一个或多个处理器,所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行第一方面或者第一方面任一可能实现方式所述的交互方法。
28、第四方面,本技术提供了一种计算机可读存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行第一方面或者第一方面任一可能实现方式所述的交互方法。
29、上述第二方面、第三方面、和第四方面所获得的技术效果与上述第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。
1.一种交互方法,其特征在于,应用于电子设备,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述指定状态包括如下状态中的至少一种:所述电子设备的运动状态、所述电子设备的空间姿态、所述电子设备的麦克风与声源的距离、以及接近光的光强。
3.根据权利要求1或2所述的方法,其特征在于,所述第二识别包括:
4.根据权利要求3所述的方法,其特征在于,所述第二识别还包括:
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一置信度和所述第三识别结果确定所述第二识别结果,包括,
6.根据权利要求1至5任一项所述的方法,其特征在于,所述第二识别还包括:
7.根据权利要求1至6任一项所述的方法,其特征在于,所述第二识别还包括:
8.一种交互装置,其特征在于,应用于电子设备,所述交互装置包括:音频数字信号处理器adsp、应用处理器ap和唤醒模块,其中,
9.一种电子设备,其特征在于,包括:存储器和一个或多个处理器,所述存储器与所述处理器耦合;其中,所述存储器中存储有计算机程序代码,所述计算机程序代码包括计算机指令,当所述计算机指令被所述处理器执行时,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1-7中任一项所述的方法。
