本技术涉及音频处理,尤其涉及一种音频处理方法、电子设备、存储介质及程序产品。
背景技术:
1、大语言模型(large language models,llm)是一种基于人工智能技术的自然语言处理模型。这些模型经过大量数据训练,使其能够理解和生成自然语言以执行各种任务。大语言模型通过增加模型的参数量和训练数据,使其能够更好地理解和生成自然语言,表现出更强的语言处理能力。
2、进行大语言模型的预训练时,通常在读取原始音频数据后,首先以特定窗长和特定步幅提取fbank(filter bank)特征,然后再通过两个卷积层进一步提取特征并加入位置编码,再利用transformer算法的自注意力机制得到音频的隐状态(hidden state),并与文本标注信息进行交叉注意力计算,最终得到交叉熵损失函数,进而得到相邻音频段之间的特征相关性。
3、现有预训练时音频的处理方法需要预先设定好文本标注信息,而对于无标注的音频则难以捕捉相邻音频段中的特征相关性,从而导致大语言模型在语言处理时的检索准确性较低。
技术实现思路
1、本技术实施例提供音频处理方法、电子设备、存储介质及程序产品,对无标注的音频进行相邻音频段特征相关性的分析,提高大语言模型语言处理时的检索准确性。
2、第一方面,本技术实施例提供一种音频处理方法,包括:
3、获取音频数据集,针对音频数据集中的每个音频数据,根据设定帧长将所述音频数据划分为多个音频段,其中,所述音频数据集中包括多个无标注的音频数据;
4、将所述音频段从时域特征转化为频域特征,其中,所述频域特征包括多个频率区间以及每个频率区间对应的目标频率强度,其中,每个频率区间包括多个频率,每个频率区间对应一个目标频率强度;
5、获取每个频率区间各自对应的目标频率强度的字节编码,组合获取所述音频段的字节码序列,并根据多个音频段各自对应的字节码序列以及多个音频段各自的划分顺序,组合得到所述音频数据的目标字节码序列;
6、获取所述目标字节码序列中任意相邻两个字节组成的字节对的频次,并根据各个字节对的频次生成字节码表。
7、在一种可能的实施方式中,所述将所述音频段从时域特征转化为频域特征,包括:
8、对所述音频段进行转换,得到频域特征,对所述频域特征进行分组以生成多个频率区间;
9、根据所述频率区间中每个频率的频率强度,获取所述频率区间中最大频率强度,并将所述最大频率强度作为所述目标频率强度;
10、所述获取每个频率区间各自对应的目标频率强度的字节编码,包括:
11、获取每个目标频率强度所属的强度等级,并获取所述强度等级对应的字节编码。
12、在一种可能的实施方式中,所述获取每个目标频率强度所属的强度等级,所述方法包括:
13、获取所述音频段的最大频率强度和最小频率强度;
14、根据所述最大频率强度、所述最小频率强度和预设的强度最大级,获取所述强度级别;
15、根据所述强度等级和字节编码规则,确定所述强度等级对应的字节编码,其中,所述字节编码规则是根据所述预设的强度总级数确定的。
16、在一种可能的实施方式中,所述根据所述最大频率强度、所述最小频率强度和预设的强度最大级,获取所述强度级别,包括通过如下公式获取:
17、
18、其中,x为强度级别,p为频率强度,b为最大频率强度,a为最小频率强度,16为预设的强度最大级。
19、在一种可能的实施方式中,所述对所述音频段进行转换,得到频域特征,对所述频域特征进行分组以生成多个频率区间,包括:
20、对所述音频段进行短时傅里叶变换,得到频域特征;
21、针对频域特征中的频率进行等长分组,得到多个频率区间。
22、在一种可能的实施方式中,所述对所述音频段进行转换,得到频域特征,对所述频域特征进行分组以生成多个频率区间,包括:
23、对所述音频段进行短时傅里叶变换,得到频域特征;
24、针对频域特征中的频率进行转换,得到梅尔频率特征;
25、针对梅尔频率特征中的频率进行等长分组,得到多个频率区间。
26、在一种可能的实施方式中,所述获取所述目标字节码序列中任意相邻两个字节组成的字节对的频次,并根据各个字节对的频次生成字节码表,包括:
27、获取原始字节码表和所述音频数据的目标字节码序列,其中,所述原始字节码表中包括覆盖字节码序列的基础字节码;
28、统计目标字节码序列中任意相邻两个字节组成的字节对的频次;
29、判断最高频字节对的出现频次是否大于1;
30、若大于1,获取最高频的字节对并生成字节对编码,将所述字节对编码替代所述两个相邻字节的编码,得到新的字节码序列,将所述字节对编码添加至原始字节码表中,得到新的字节码表;
31、根据新的字节码序列和新的字节码表继续频次统计,直至字节码表大小达到阈值,或,所述音频数据集中的音频数据中不存在大于1的最高频字节对。
32、第二方面,本技术实施例提供一种音频处理装置,包括:
33、音频处理模块,用于获取音频数据集,针对音频数据集中的每个音频数据,根据设定帧长将所述音频数据划分为多个音频段,其中,所述音频数据集中包括多个无标注的音频数据;
34、转化处理模块,用于将所述音频段从时域特征转化为频域特征,其中,所述频域特征包括多个频率区间以及每个频率区间对应的目标频率强度,其中,每个频率区间包括多个频率,每个频率区间对应一个目标频率强度;
35、字节编码处理模块,用于获取每个频率区间各自对应的目标频率强度的字节编码,组合获取所述音频段的字节码序列,并根据多个音频段各自对应的字节码序列以及多个音频段各自的划分顺序,组合得到所述音频数据的目标字节码序列;
36、字节码表处理模块,用于获取所述目标字节码序列中任意相邻两个字节组成的字节对的频次,并根据各个字节对的频次生成字节码表。
37、第三方面,本技术实施例提供一种音频处理设备,包括:存储器,处理器;
38、所述存储器存储计算机执行指令;
39、所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如上第一方面和/或第一方面各种可能的实施方式。
40、第四方面,本技术实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上第一方面和/或第一方面各种可能的实施方式。
41、第五方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面和/或第一方面各种可能的实施方式。
42、本技术实施例提供的音频处理方法、电子设备、存储介质及程序产品,在大语言模型训练阶段,通过将无标注的音频数据划分为音频段,并将音频段从时域特征转化为频域特征后获取音频段的频率区间所对应的目标频率强度,以及目标频率强度对应的字节编码,组合得到音频数据的目标字节码序列,并根据目标字节码序列中字节对的频次生成字节码表,通过字节码表可以得到音频数据中相邻字节的特征相关性,即根据字节码表可以得到依据音频数据的分词结果,提高大语言模型语言处理时的检索准确性。
1.一种音频处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述音频段从时域特征转化为频域特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述获取每个目标频率强度所属的强度等级,所述方法包括:
4.根据权利要求3所述的方法,其特征在于,所述根据所述最大频率强度、所述最小频率强度和预设的强度最大级,获取所述强度级别,包括通过如下公式获取:
5.根据权利要求2所述的方法,其特征在于,所述对所述音频段进行转换,得到频域特征,对所述频域特征进行分组以生成多个频率区间,包括:
6.根据权利要求2所述的方法,其特征在于,所述对所述音频段进行转换,得到频域特征,对所述频域特征进行分组以生成多个频率区间,包括:
7.根据权利要求1所述的方法,其特征在于,所述获取所述目标字节码序列中任意相邻两个字节组成的字节对的频次,并根据各个字节对的频次生成字节码表,包括:
8.一种音频处理装置,其特征在于,包括:
9.一种音频处理设备,其特征在于,包括:存储器,处理器;
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。