本发明实施例涉及语音,具体涉及一种电子设备、语音处理方法、装置及存储介质。
背景技术:
1、随着人工智能技术的发展,语音交互成为人机交互的一种重要方式。例如,在智能手机、智能电视、智能音响等各种智能设备中,用户可以通过录入语音指令来控制智能设备执行一定的操作,如播放电视节目或音乐等。
2、由于语音指令能够触发的功能不断增加,如何准确识别语音指令所指示的用户意图成为智能设备的制造厂商的研究重点。其中,关键环节在于确定语音指令所指示的语义是否完整,即确定语音指令是否输入完成,或者说语音指令代表的语义信息是否完整。
技术实现思路
1、鉴于上述问题,本发明实施例提供了一种电子设备、语音处理方法、装置及存储介质,用于解决现有技术中语音指令完整性检测准确率不高的问题。
2、根据本发明实施例的一个方面,提供了一种电子设备,包括:接收器,被配置为接收语音指令;与所述接收器耦接的控制器,所述控制器被配置为:在接收到所述语音指令时,将所述语音指令转换为语音文本;将所述语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果;所述第一检测结果用于指示所述语音指令的语义信息完整、语义信息不完整或未检测到语义信息;基于所述第一检测结果,采用预先训练的语义完整性检测模型对所述语音文本进行语义完整性检测,确定所述语音指令的第二检测结果,所述第二检测结果用于指示所述语音指令的语义信息完整、语义信息不完整或语义信息模糊;根据所述第一检测结果或所述第二检测结果,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令。
3、在一些实施例中,所述控制器被配置为:在所述第一检测结果或所述第二检测结果指示所述语音指令的语义信息完整的情况下,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令;在所述第一检测结果或所述第二检测结果指示所述语音指令的语义信息不完整或模糊的情况下,通过所述接收器接收所述语音指令的延续指令,得到更新后的语音指令,并基于所述更新后的语音指令,确定所述更新后的语音指令对应的更新后的语义信息,并基于所述更新后的语义信息执行所述更新后的语音指令。
4、在一些实施例中,所述控制器被配置为:在所述语音指令的语义信息不完整,且从第一时刻开始的第一预设时长内未接收到所述语音指令的延续指令时,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令;在所述语音指令的语义信息模糊,且从第二时刻开始的第二预设时长内未接收到所述语音指令的延续指令时,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令;其中,所述第一预设时长大于所述第二预设时长。
5、在一些实施例中,所述语义检测数据库包括完整语义数据库和不完整语义数据库,所述控制器被配置为:将所述语音文本与所述完整语义数据库中的语音特征进行匹配,在所述语音文本与所述完整语义数据库中的任一语音特征匹配时,确定所述语音指令的第一检测结果指示所述语音指令的语义信息完整;将所述语音文本与所述不完整语义数据库中的语音特征进行匹配,在所述语音文本与所述不完整语义数据库中的任一语音特征匹配时,确定所述语音指令的第一检测结果指示所述语音指令的语义信息不完整。
6、在一些实施例中,所述语义完整性检测模型包括bert模型、transformer模型、全连接层和激活函数层,所述控制器被配置为:采用所述bert模型对所述语音文本进行处理,得到所述语音文本的第一特征数据;采用所述transformer模型对所述第一特征数据进行处理,得到所述语音文本的第二特征数据;通过全连接层和激活函数层对所述第二特征数据进行转换处理,得到所述语音指令的第二检测结果。
7、在一些实施例中,所述控制器还被配置为:获取多个输入样本数据和每个输入样本数据对应的语义完整性检测结果;所述语义完整性检测结果包括语义信息完整、语义信息不完整或语义信息模糊;基于初始语义完整性检测模型对所述输入样本数据进行处理,得到语义完整性预测结果;以所述语义完整性预测结果作为所述初始语义完整性检测模型的初始训练输出,所述语义完整性检测结果作为监督信息,迭代训练所述初始语义完整性检测模型得到训练后的语义完整性检测模型。
8、在一些实施例中,所述控制器还被配置为:获取多个文本数据;对各个文本数据进行分词,并根据各所述文本数据的分词结果,确定各所述文本数据的词边界;基于各所述文本数据的词边界,将各个文本数据进行拆解和标注,以得到所述多个输入样本数据和每个输入样本数据对应的语义完整性检测结果。
9、根据本发明实施例的另一方面,提供了一种语音处理方法,所述方法包括:在接收到语音指令时,将所述语音指令转换为语音文本;将所述语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果;所述第一检测结果用于指示所述语音指令的语义信息完整、语义信息不完整或未检测到语义信息;基于所述第一检测结果,采用预先训练的语义完整性检测模型对所述语音文本进行语义完整性检测,确定所述语音指令的第二检测结果,所述第二检测结果用于指示所述语音指令的语义信息完整、语义信息不完整或语义信息模糊;根据所述第一检测结果或所述第二检测结果,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令。
10、在一些实施例中,所述根据所述第一检测结果或所述第二检测结果,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令,包括:在所述第一检测结果或所述第二检测结果指示所述语音指令的语义信息完整的情况下,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令;在所述第一检测结果或所述第二检测结果指示所述语音指令的语义信息不完整或模糊的情况下,通过所述接收器接收所述语音指令的延续指令,得到更新后的语音指令,并基于所述更新后的语音指令,确定所述更新后的语音指令对应的更新后的语义信息,并基于所述更新后的语义信息执行所述更新后的语音指令。
11、在一些实施例中,所述根据所述第一检测结果或所述第二检测结果,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令,包括:在所述语音指令的语义信息不完整,且从第一时刻开始的第一预设时长内未接收到所述语音指令的延续指令时,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令;在所述语音指令的语义信息模糊,且从第二时刻开始的第二预设时长内未接收到所述语音指令的延续指令时,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令;其中,所述第一预设时长大于所述第二预设时长。
12、在一些实施例中,所述语义检测数据库包括完整语义数据库和不完整语义数据库,所述将所述语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果,包括:将所述语音文本与所述完整语义数据库中的语音特征进行匹配,在所述语音文本与所述完整语义数据库中的任一语音特征匹配时,确定所述语音指令的第一检测结果指示所述语音指令的语义信息完整;将所述语音文本与所述不完整语义数据库中的语音特征进行匹配,在所述语音文本与所述不完整语义数据库中的任一语音特征匹配时,确定所述语音指令的第一检测结果指示所述语音指令的语义信息不完整。
13、在一些实施例中,所述语义完整性检测模型包括bert模型、transformer模型、全连接层和激活函数层,所述基于所述第一检测结果,采用预先训练的语义完整性检测模型对所述语音文本进行语义完整性检测,确定所述语音指令的第二检测结果,包括:采用所述bert模型对所述语音文本进行处理,得到所述语音文本的第一特征数据;采用所述transformer模型对所述第一特征数据进行处理,得到所述语音文本的第二特征数据;通过全连接层和激活函数层对所述第二特征数据进行转换处理,得到所述语音指令的第二检测结果。
14、在一些实施例中,所述方法还包括:获取多个输入样本数据和每个输入样本数据对应的语义完整性检测结果;所述语义完整性检测结果包括语义信息完整、语义信息不完整或语义信息模糊;基于初始语义完整性检测模型对所述输入样本数据进行处理,得到语义完整性预测结果;以所述语义完整性预测结果作为所述初始语义完整性检测模型的初始训练输出,所述语义完整性检测结果作为监督信息,迭代训练所述初始语义完整性检测模型得到训练后的语义完整性检测模型。
15、在一些实施例中,所述方法还包括:获取多个文本数据;对各个文本数据进行分词,并根据各所述文本数据的分词结果,确定各所述文本数据的词边界;基于各所述文本数据的词边界,将各个文本数据进行拆解和标注,以得到所述多个输入样本数据和每个输入样本数据对应的语义完整性检测结果。
16、根据本发明实施例的另一方面,提供了一种语音处理装置,所述装置包括:转换模块,用于在接收到语音指令时,将所述语音指令转换为语音文本;匹配模块,用于将所述语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果;所述第一检测结果用于指示所述语音指令的语义信息完整、语义信息不完整或未检测到语义信息;检测模块,用于基于所述第一检测结果,采用预先训练的语义完整性检测模型对所述语音文本进行语义完整性检测,确定所述语音指令的第二检测结果,所述第二检测结果用于指示所述语音指令的语义信息完整、语义信息不完整或语义信息模糊;确定模块,用于根据所述第一检测结果或所述第二检测结果,确定所述语音指令对应的语义信息,并基于所述语义信息执行所述语音指令。
17、根据本发明实施例的又一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如上所述的语音处理方法的操作。
18、综上,根据本发明实施例提供的电子设备、语音处理方法、装置及存储介质,可以在接收到语音指令时,将语音指令转换为语音文本,用于将语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果,基于第一检测结果,采用预先训练的语义完整性检测模型对语音文本进行语义完整性检测,确定语音指令的第二检测结果,根据第一检测结果或第二检测结果,确定语音指令对应的语义信息,并基于语义信息执行语音指令。
19、通过上述方法,可以采用两阶段的语义完整性检测方法对语音指令的语义完整性进行检测,即在第一阶段将语音文本与语义检测数据库中的语音特征进行匹配,确定第一检测结果,在第二阶段采用预先训练的语义完整性检测模型对语音文本进行语义完整性检测,确定语音指令的第二检测结果,能够实现递进式的语义完整性检测,实现语音指令的语义完整性细分,提高语音指令的检测效率和准确率。
20、上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
1.一种电子设备,其特征在于,包括:
2.根据权利要求1所述的电子设备,其特征在于,所述控制器被配置为:
3.根据权利要求2所述的电子设备,其特征在于,所述控制器被配置为:
4.根据权利要求1所述的电子设备,其特征在于,所述语义检测数据库包括完整语义数据库和不完整语义数据库,所述控制器被配置为:
5.根据权利要求1所述的电子设备,其特征在于,所述语义完整性检测模型包括bert模型、transformer模型、全连接层和激活函数层,所述控制器被配置为:
6.根据权利要求5所述的电子设备,其特征在于,所述控制器还被配置为:
7.根据权利要求6所述的电子设备,其特征在于,所述控制器还被配置为:
8.一种语音处理方法,其特征在于,所述方法包括:
9.一种语音处理装置,其特征在于,所述装置包括:
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一可执行指令,所述可执行指令在电子设备上运行时,使得电子设备执行如权利要求8所述的语音处理方法的操作。
