目标说话人语音提取方法和装置与流程

专利查询2026-06-10 4

本公开涉及人工智能领域，并且更具体地，涉及一种目标说话人语音提取方法、目标说话人语音提取装置和设备以及计算机可读存储介质。

背景技术：

1、人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

2、人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等技术。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

3、在现今生活中，语音技术(speech technology)已被广泛应用。语音技术的关键技术有自动语音识别技术(automatic speech recognition，asr)、语音合成技术(text tospeech，tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。在声纹识别中，目标说话人提取(target speaker extraction，tse)是借助目标说话人的注册语音信息，从带有噪声、干扰语音的混合语音信号中提取目标说话人的语音。现有的目标说话人提取方法对于存在较多说话人、目标说话人缺席以及目标说话人重叠率低的混合语音信号的提取效果欠佳，因此，需要一种能够有效处理此类混合语音信号的目标说话人提取方法。

技术实现思路

1、本公开提出了一种目标说话人语音提取方法、目标说话人语音提取装置和设备、计算机可读存储介质以及计算机程序产品。

2、根据本公开实施例的一个方面，提供了一种目标说话人语音提取方法，包括：基于来自目标说话人的参考语音信号生成目标说话人特征向量；至少基于混合语音信号和所述目标说话人特征向量，利用第一语音提取模型生成所述目标说话人的第一语音信号并利用第二语音提取模型生成所述目标说话人的第二语音信号，其中，所述第一语音提取模型包括至少一个变换器块，所述至少一个变换器块具有多头自注意力层和门控循环单元层；以及基于所述第一语音信号和所述第二语音信号中的至少一个生成所述目标说话人的目标语音信号。

3、根据本公开实施例的示例，其中，利用第一语音提取模型生成所述目标说话人的第一语音信号包括：基于所述混合语音信号生成第一混合特征向量；利用所述第一语音提取模型基于所述目标说话人特征向量和所述第一混合特征向量生成目标说话人活动概率，其中，所述目标说话人活动概率表示所述混合语音信号中的每个时间帧是所述目标说话人的语音信号的概率；基于所述目标说话人活动概率和所述混合语音信号生成所述第一语音信号。

4、根据本公开实施例的示例，其中，基于所述目标说话人活动概率和所述混合语音信号生成所述第一语音信号包括：基于预定阈值将所述目标说话人活动概率转换为二值化形式的目标说话人活动标签；利用所述目标说话人活动标签对所述混合语音信号进行过滤，以生成所述第一语音信号。

5、根据本公开实施例的示例，其中，利用第二语音提取模型生成所述目标说话人的第二语音信号包括：利用所述第二语音提取模型基于所述目标说话人特征向量和所述第一语音信号生成所述第二语音信号，其中，基于所述第一语音信号和所述第二语音信号中的至少一个生成所述目标说话人的目标语音信号包括：将所述第二语音信号确定为所述目标语音信号。

6、根据本公开实施例的示例，其中，基于所述第一语音信号和所述第二语音信号中的至少一个生成所述目标说话人的目标语音信号包括：通过将所述第一语音信号和所述第二语音信号进行相乘来生成所述目标说话人的目标语音信号。

7、根据本公开实施例的示例，其中，利用第二语音提取模型生成所述目标说话人的第二语音信号包括：利用第二语音提取模型基于所述目标说话人特征向量和所述混合语音信号生成目标说话人掩膜向量，其中，所述目标说话人掩膜向量指示所述混合语音信号中所述目标说话人语音信号的位置；基于所述目标说话人掩膜向量和所述混合语音信号生成所述第二语音信号。

8、根据本公开实施例的示例，其中，利用第一语音提取模型生成所述目标说话人的第一语音信号包括：基于所述第二语音信号生成第二混合特征向量；基于所述目标说话人特征向量和所述第二混合特征向量生成目标说话人活动概率，其中，所述目标说话人活动概率表示所述混合语音信号中的每个时间帧是所述目标说话人的语音信号的概率；基于所述目标说话人活动概率和所述混合语音信号生成所述第一语音信号，其中，基于所述第一语音信号和所述第二语音信号中的至少一个生成所述目标说话人的目标语音信号包括：将所述第一语音信号确定为所述目标语音信号。

9、根据本公开实施例的示例，其中，所述第一语音提取模型还包括至少一个卷积块，并且所述至少一个变换器块还包括线性层和至少一个残差连接与归一化层。

10、根据本公开实施例的示例，其中，所述第一语音提取模型为用于检测目标说话人活动概率的目标说话人语音活动检测模型，并且所述第二语音提取模型为用于提取目标说话人掩膜向量的目标说话人掩膜提取模型，所述目标说话人活动概率表示所述混合语音信号中的每个时间帧是所述目标说话人的语音信号的概率，所述目标说话人掩膜向量指示所述混合语音信号中所述目标说话人语音信号的位置。

11、根据本公开实施例的示例，其中，所述混合语音信号中包括存在多个说话人的语音信号段和所述目标说话人缺席的语音信号段，并且其中，所述目标说话人的语音时长占所述混合语音信号的总语音时长的比率是变化的。

12、根据本公开实施例的另一方面，提供了一种目标说话人语音提取装置，所述装置包括：特征向量提取单元，被配置为基于来自目标说话人的参考语音信号生成目标说话人特征向量；目标语音信号生成单元，被配置为至少基于混合语音信号和所述目标说话人特征向量，利用第一语音提取模型生成所述目标说话人的第一语音信号和并利用第二语音提取模型生成所述目标说话人的第二语音信号，并基于所述第一语音信号和所述第二语音信号中的至少一个生成所述目标说话人的目标语音信号，其中，所述第一语音提取模型包括至少一个变换器块，所述至少一个变换器块具有多头自注意力层和门控循环单元层。

13、根据本公开实施例的示例，其中，所述第一语音提取模型为用于检测目标说话人活动概率的目标说话人语音活动检测模型，并且所述第二语音提取模型为用于提取目标说话人掩膜向量的目标说话人掩膜提取模型，所述目标说话人活动概率表示所述混合语音信号中的每个时间帧是所述目标说话人的语音信号的概率，所述目标说话人掩膜向量指示所述混合语音信号中所述目标说话人语音信号的位置。

14、根据本公开实施例的另一方面，提供了一种目标说话人语音提取设备，包括：一个或多个处理器；以及一个或多个存储器，其中所述存储器中存储有计算机可读指令，所述计算机可读指令在由所述一个或多个处理器运行时，使得所述一个或多个处理器执行上述各个方面中所述的方法。

15、根据本公开实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如本公开上述各个方面中任一项所述的方法。

16、根据本公开实施例的另一方面，提供了一种计算机程序产品，其中包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如本公开上述各个方面中任一项所述的方法。

17、利用本公开上述各个方面的目标说话人语音提取方法、目标说话人语音提取装置和设备、计算机可读存储介质以及计算机程序产品，通过在诸如tsvad模型的第一语音提取模型中引入包括多头自注意子层和门控循环子层的至少一个变换器块，与传统目标说话人语音提取方法相比，可以提高目标说话人语音提取的质量；此外，通过以不同方式对第一语音提取模型和第二语音提取模型进行融合来进行目标说话人语音提取，能够有效地利用不同语音提取模型的特点，进一步提高目标说话人语音提取的性能。根据本公开实施例的目标说话人语音提取方法尤其适用于处理存在多个说话人、目标说话人缺席以及目标说话人重叠率低或具有可变重叠率的混合语音信号，实现了精确、高效的目标说话人语音提取。

技术特征：

1.一种目标说话人语音提取方法，包括：

2.根据权利要求1所述的方法，其中，利用第一语音提取模型生成所述目标说话人的第一语音信号包括：

3.根据权利要求2所述的方法，其中，基于所述目标说话人活动概率和所述混合语音信号生成所述第一语音信号包括：

4.根据权利要求2所述的方法，其中，利用第二语音提取模型生成所述目标说话人的第二语音信号包括：

5.根据权利要求2所述的方法，其中，基于所述第一语音信号和所述第二语音信号中的至少一个生成所述目标说话人的目标语音信号包括：

6.根据权利要求1所述的方法，其中，利用第二语音提取模型生成所述目标说话人的第二语音信号包括：

7.根据权利要求6所述的方法，其中，利用第一语音提取模型生成所述目标说话人的第一语音信号包括：

8.根据权利要求1所述的方法，其中，所述第一语音提取模型还包括至少一个卷积块，并且所述至少一个变换器块还包括线性层和至少一个残差连接与归一化层。

9.根据权利要求1所述的方法，其中，

10.根据权利要求1所述的方法，其中，所述混合语音信号中包括存在多个说话人的语音信号段和所述目标说话人缺席的语音信号段，并且其中，所述目标说话人的语音时长占所述混合语音信号的总语音时长的比率是变化的。

11.一种目标说话人语音提取装置，所述装置包括：

12.根据权利要求11所述的装置，其中，

13.一种目标说话人语音提取设备，包括：

14.一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如权利要求1-10中任一项所述的方法。

15.一种计算机程序产品，其包括计算机可读指令，所述计算机可读指令在被处理器执行时，使得所述处理器执行如权利要求1-10中任一项所述的方法。

技术总结
本公开提供了利用人工智能技术的目标说话人语音提取方法、目标说话人语音提取装置和设备以及计算机可读存储介质。目标说话人语音提取方法可以包括：基于来自目标说话人的参考语音信号生成目标说话人特征向量；至少基于混合语音信号和目标说话人特征向量，利用第一语音提取模型生成目标说话人的第一语音信号并利用第二语音提取模型生成目标说话人的第二语音信号，其中，第一语音提取模型包括至少一个变换器块，至少一个变换器块具有多头自注意力层和门控循环单元层；以及基于第一语音信号和第二语音信号中的至少一个生成目标说话人的目标语音信号。

技术研发人员：赵赫,陈航艇,余剑威,翁超
受保护的技术使用者：腾讯科技（深圳）有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-36028.html

专利

最新回复(0)