本申请涉及智能辨别领域,且更为具体地,涉及一种声乐歌唱咬字正确辨别装置及系统。
背景技术:
1、在声乐歌唱中,咬字的准确性对于演绎歌曲的情感和意境至关重要。它不仅关系到歌曲歌词的清晰传达,还直接影响到声音的质量和表演的情感表达。咬字准确可以帮助歌唱者更好地控制发声,确保声音的集中和传播,使听众能够清楚地理解歌曲的内容,以便更好地传递歌曲的情感和氛围。
2、然而,传统在辨别歌唱咬字的正确性时通常依赖于人工听觉和经验,这具有一定的主观性,不同的听众或评审可能有不同的标准和偏好,会影响评判结果的一致性,并且人工进行反馈存在延迟,有时导致无法实时指导歌唱者在歌唱过程中改进咬字准确性。此外,目前的技术可能无法全面考虑歌唱咬字准确性的各个方面,如发音清晰度、音高准确性、节奏感等,导致评判结果不够全面和准确。
3、因此,期望一种优化的声乐歌唱咬字正确辨别装置。
技术实现思路
1、为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种声乐歌唱咬字正确辨别装置及系统,其通过由语音采集器采集的歌唱者的发音信号,且从存储模块调取参考发音数据,并采用基于深度学习的信号处理技术对所述发音信号和所述参考发音数据进行信号分析和处理,以此基于所述发音信号和所述参考发音数据之间的波形语义差异系数与预定阈值之间的比较来自动地确定所述发音信号中的对应输入发音单元信号的咬字是否正确。通过这种方法,可以精确识别咬字不准确的发音,同时减少了人为主观判断的偏差,这样有助于歌唱者及时改进,并能够提供即时反馈,加快歌唱者的学习进程。
2、根据本申请的一方面,提供了一种声乐歌唱咬字正确辨别装置,其包括:
3、获取由语音采集器采集的歌唱者的发音信号;
4、从存储模块调取参考发音数据;
5、对所述发音信号和所述参考发音数据进行信号切分以得到输入发音单元信号的序列和参考发音单元信号的序列;
6、对所述输入发音单元信号的序列和所述参考发音单元信号的序列分别进行发音单元信号波形语义特征提取以得到输入发音单元信号波形语义特征向量的序列和参考发音单元信号波形语义特征向量的序列;
7、计算所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列中每组对应的输入发音单元信号波形语义特征向量和参考发音单元信号波形语义特征向量之间的语义差异系数以得到输入发音单元-参考发音单元波形语义差异系数的序列;
8、基于所述输入发音单元-参考发音单元波形语义差异系数的序列,确定所述发音信号中的对应输入发音单元信号的咬字是否正确。
9、在上述声乐歌唱咬字正确辨别装置中,对所述发音信号和所述参考发音数据进行信号切分以得到输入发音单元信号的序列和参考发音单元信号的序列,包括:基于发音单元对所述发音信号和所述参考发音数据进行信号切分以得到所述输入发音单元信号的序列和所述参考发音单元信号的序列。
10、在上述声乐歌唱咬字正确辨别装置中,对所述输入发音单元信号的序列和所述参考发音单元信号的序列分别进行发音单元信号波形语义特征提取以得到输入发音单元信号波形语义特征向量的序列和参考发音单元信号波形语义特征向量的序列,包括:将所述输入发音单元信号的序列和所述参考发音单元信号的序列中的各个输入发音单元信号和参考发音单元信号分别输入基于深度神经网络模型的发音单元信号波形语义特征提取器以得到所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列。
11、在上述声乐歌唱咬字正确辨别装置中,所述基于深度神经网络模型的发音单元信号波形语义特征提取器为基于空洞卷积神经网络模型的发音单元信号波形语义特征提取器。
12、在上述声乐歌唱咬字正确辨别装置中,计算所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列中每组对应的输入发音单元信号波形语义特征向量和参考发音单元信号波形语义特征向量之间的语义差异系数以得到输入发音单元-参考发音单元波形语义差异系数的序列,包括:计算所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列中每组对应的输入发音单元信号波形语义特征向量和参考发音单元信号波形语义特征向量之间的汉明距离以得到所述输入发音单元-参考发音单元波形语义差异系数的序列。
13、在上述声乐歌唱咬字正确辨别装置中,基于所述输入发音单元-参考发音单元波形语义差异系数的序列,确定发音信号的咬字是否正确,包括:响应于所述输入发音单元-参考发音单元波形语义差异系数的序列中的输入发音单元-参考发音单元波形语义差异系数大于预定阈值,确定所述发音信号中的对应输入发音单元信号的咬字不正确。
14、根据本申请的另一方面,提供了一种声乐歌唱咬字正确辨别系统,其包括:
15、语音采集器;
16、如上述任一所述的声乐歌唱咬字正确辨别装置;
17、显示器。
18、与现有技术相比,本申请提供的一种声乐歌唱咬字正确辨别装置及系统,其通过由语音采集器采集的歌唱者的发音信号,且从存储模块调取参考发音数据,并采用基于深度学习的信号处理技术对所述发音信号和所述参考发音数据进行信号分析和处理,以此基于所述发音信号和所述参考发音数据之间的波形语义差异系数与预定阈值之间的比较来自动地确定所述发音信号中的对应输入发音单元信号的咬字是否正确。通过这种方法,可以精确识别咬字不准确的发音,同时减少了人为主观判断的偏差,这样有助于歌唱者及时改进,并能够提供即时反馈,加快歌唱者的学习进程。
1.一种声乐歌唱咬字正确辨别装置,其特征在于,包括:
2.根据权利要求1所述的声乐歌唱咬字正确辨别装置,其特征在于,对所述发音信号和所述参考发音数据进行信号切分以得到输入发音单元信号的序列和参考发音单元信号的序列,包括:基于发音单元对所述发音信号和所述参考发音数据进行信号切分以得到所述输入发音单元信号的序列和所述参考发音单元信号的序列。
3.根据权利要求2所述的声乐歌唱咬字正确辨别装置,其特征在于,对所述输入发音单元信号的序列和所述参考发音单元信号的序列分别进行发音单元信号波形语义特征提取以得到输入发音单元信号波形语义特征向量的序列和参考发音单元信号波形语义特征向量的序列,包括:将所述输入发音单元信号的序列和所述参考发音单元信号的序列中的各个输入发音单元信号和参考发音单元信号分别输入基于深度神经网络模型的发音单元信号波形语义特征提取器以得到所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列。
4.根据权利要求3所述的声乐歌唱咬字正确辨别装置,其特征在于,所述基于深度神经网络模型的发音单元信号波形语义特征提取器为基于空洞卷积神经网络模型的发音单元信号波形语义特征提取器。
5.根据权利要求4所述的声乐歌唱咬字正确辨别装置,其特征在于,计算所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列中每组对应的输入发音单元信号波形语义特征向量和参考发音单元信号波形语义特征向量之间的语义差异系数以得到输入发音单元-参考发音单元波形语义差异系数的序列,包括:计算所述输入发音单元信号波形语义特征向量的序列和所述参考发音单元信号波形语义特征向量的序列中每组对应的输入发音单元信号波形语义特征向量和参考发音单元信号波形语义特征向量之间的汉明距离以得到所述输入发音单元-参考发音单元波形语义差异系数的序列。
6.根据权利要求5所述的声乐歌唱咬字正确辨别装置,其特征在于,基于所述输入发音单元-参考发音单元波形语义差异系数的序列,确定发音信号的咬字是否正确,包括:响应于所述输入发音单元-参考发音单元波形语义差异系数的序列中的输入发音单元-参考发音单元波形语义差异系数大于预定阈值,确定所述发音信号中的对应输入发音单元信号的咬字不正确。
7.一种声乐歌唱咬字正确辨别系统,其特征在于,包括: