用于目标声源分离的方法和系统与流程

    专利查询2025-07-10  24


    本公开总体上涉及目标声源分离,更具体地,涉及一种用于从声音信号的混合提取目标声音的声音处理系统。


    背景技术:

    1、用于提取目标声音信号的传统声源分离系统通常旨在仅隔离特定类型的声音(例如用于语音增强或乐器解混),其中目标由训练方案确定并且在测试时不会改变。传统声源分离方法通常仅将音频混合分离成固定类型的声源(例如,将人声与背景音乐隔离开来),或者它们在没有任何区分因素的情况下分离混合中的所有声源(例如,隔离会议室中的各个说话者),然后使用后处理来寻找目标信号。最近,基于条件的方法已成为有前景的替代方案,其中可使用诸如类标签的辅助输入来指示期望的声源,但可用条件集通常是互斥的,缺乏灵活性。

    2、例如,在鸡尾酒会问题中,人类有一种不可思议的能力能在复杂的声学场景内聚焦于感兴趣的声源并且可根据情况改变其焦点目标,取决于调控对听觉刺激的皮质反应的注意力机制。尽管声源分离领域已在机器中再现这些能力方面取得长足进步,特别是随着深度学习方法的出现,但在可确定目标声源的灵活性方面仍有差距。如已经讨论的,早期工作开发了旨在仅隔离特定类型的声音的“专家”模型。后期诸如深度聚类和排列不变量训练(pit)的工作聚焦于在没有任何区分因素的情况下分离混合中的所有声源。然而,这仍未解决确定所提取的哪个声源是感兴趣声源的问题。

    3、因此,需要一种克服上述缺点的高级系统。为此,需要克服上述挑战的技术解决方案。更具体地,需要一种对于目标声音信号的提取超过传统声音处理系统的系统。


    技术实现思路

    1、本公开提供一种用于从声音的混合识别和提取目标声音信号的增强声音处理系统。更具体地,本公开提供一种声音处理和训练系统,其被配置为基于诸如响度、性别、语言、空间位置等的互容概念来从声音的混合识别目标声音信号。

    2、为此,一些实施方式提供了一种条件模型,其被配置为通过聚焦于基于不同性质(即,异构)的语义概念和标准提取声音来模仿人类在选择目标声音信号时的灵活性,例如说话者是在麦克风附近还是远离麦克风、轻声说话还是大声说话、或者以某种语言说话等。一些实施方式基于这样的认识:从多个声源收集声音信号的混合。另外,收集识别要从声音信号的混合提取的目标声音信号的查询。该查询与指示目标声音信号的互容特性的一个或更多个标识符关联。

    3、为此,利用一个或更多个麦克风从多个声源收集声音信号的混合,其中,多个声源对应于一个或更多个说话者、人或个体、工业设备和车辆中的至少一个。

    4、此外,存在于具有一个或更多个标识符的查询中的各个标识符属于一个或更多个标识符的预定集合,并且从查询提取。各个提取的标识符定义目标声音信号的互容特性和互斥特性中的至少一个。另外,使用一个或更多个逻辑运算符来连接所提取的一个或更多个标识符。

    5、一些实施方式基于这样的认识:所提取的一个或更多个标识符和一个或更多个逻辑运算符被变换为数字表示。一个或更多个标识符的数字表示选自一个或更多个标识符的多个组合的预定数字表示的集合。

    6、为此,数字表示对应于条件输入,其可以任何方式表示,例如通过单热条件向量或多热条件向量、通过文本输入、音频输入等,其中,条件输入包括目标声音信号的一个或更多个互容特性。

    7、一些实施方式基于这样的认识:执行神经网络,该神经网络被训练为通过将数字表示与神经网络的中间层的中间输出混合来从声音信号的混合提取目标声音信号。针对一个或更多个标识符的多个组合的预定数字表示集合中的每一个训练神经网络从声音信号的混合提取目标声音信号。为此,在训练时,提取模型被配置为从一个或更多个标识符的预定集合生成与一个或更多个标识符关联的一个或更多个查询。

    8、为此,在一些实施方式中,神经网络基于包括一个或更多个交织的块的架构,其中各个块至少包括:特征编码器、条件网络、分离网络和特征解码器。条件网络包括特征不变线性调制(film)层,其以声音信号的混合作为输入并将该输入调制为条件输入,其中,film层处理条件输入并将处理的条件输入发送到分离网络。

    9、因此,一个实施方式公开了一种由计算机实现的用于提取目标声音信号的方法。该方法包括从多个声源收集声音信号的混合。该方法还包括选择识别要从声音信号的混合提取的目标声音信号的查询。该方法包括从查询提取存在于一个或更多个标识符的预定集合中的各个标识符。该方法包括确定连接所提取的一个或更多个标识符的一个或更多个逻辑运算符。该方法还包括将所提取的一个或更多个标识符和一个或更多个逻辑运算符变换为预定用于查询声音信号的混合的数字表示。该方法包括执行神经网络,该神经网络被训练为通过将数字表示与处理声音信号的混合的神经网络的中间层的中间输出组合来从声音信号的混合提取由数字表示识别的目标声音信号。利用机器学习训练神经网络以提取预定数字表示集合中识别的不同声音信号。此外,该方法包括输出所提取的目标声音信号。

    10、一些实施方式提供了被配置为从声音信号的混合提取目标声音信号的声音处理系统。该声音处理系统包括至少一个处理器和存储有形成声音处理系统的可执行模块的指令的存储器。至少一个处理器被配置为收集声音信号的混合。另外,至少一个处理器被配置为收集识别要从声音信号的混合提取的目标声音信号的查询。该查询包括一个或更多个标识符。至少一个处理器还被配置为从查询提取一个或更多个标识符中的各个标识符,所述各个标识符存在于一个或更多个标识符的预定集合中。各个标识符定义声音信号的混合的互容特性和互斥特性中的至少一个。至少一个处理器被配置为确定连接所提取的一个或更多个标识符的一个或更多个逻辑运算符。此外,至少一个处理器被配置为将所提取的一个或更多个标识符和一个或更多个逻辑运算符变换为预定用于查询声音信号的混合的数字表示。至少一个处理器还被配置为执行神经网络,该神经网络被训练为通过将数字表示与神经网络的中间层的中间输出组合来从声音信号的混合提取由数字表示识别的目标声音信号。至少一个处理器还被配置为输出所提取的目标声音信号。

    11、本文公开的各种实施方式提供了可更准确、高效且在缩短的时间内从声音信号的混合提取目标声音信号的声音处理系统。此外,各种实施方式提供了基于神经网络的声音处理系统,该神经网络可被训练为基于目标声音信号的互容和/或互斥特性提取目标声音信号。神经网络可以按照优于现有神经网络的方式以一个或更多个标识符的预定集合的形式使用互容和/或互斥特性数据集的组合来训练。

    12、另外的特征和优点将从结合附图进行的详细描述变得更易于显而易见。



    技术特征:

    1.一种提取目标声音信号的声音处理系统,该声音处理系统包括:

    2.根据权利要求1所述的声音处理系统,其中,利用一个或更多个麦克风从多个声源收集所述声音信号混合中的声音信号,其中,所述多个声源中的各个声源对应于说话者、人或个体、工业设备、车辆或自然声音中的至少一个。(图1)

    3.根据权利要求1所述的声音处理系统,其中,一个或更多个标识符的所述预定集合与多个声源关联,其中,一个或更多个标识符的所述预定集合中的所述一个或更多个标识符中的每一个包括以下各项中的至少一个:最大声声源标识符、最小声声源标识符、最远声源标识符、最近声源标识符、女性说话者标识符、男性说话者标识符和特定语言声源标识符。(图1)

    4.根据权利要求1所述的声音处理系统,其中,使用所述一个或更多个逻辑运算符来组合所述一个或更多个标识符以提取具有互容特性和互斥特性的所述目标声音信号,其中,所述一个或更多个逻辑运算符包括以下各项中的至少一个:not运算符、and运算符和or运算符,其中,not运算符与所述一个或更多个标识符中的任何单个标识符一起使用。

    5.根据权利要求1所述的声音处理系统,其中,使用一个或更多个标识符的所述预定集合中的标识符的多个组合的数字表示的所述预定集合来训练所述神经网络。(图5a、图5b)

    6.根据权利要求1所述的声音处理系统,其中,使用正例选择器和反例选择器来训练所述神经网络以提取所述目标声音信号。(示出于图7中)

    7.根据权利要求1所述的声音处理系统,其中,所述数字表示由以下各项中的至少一个表示:单热条件向量、多热条件向量和文本描述。(图3c)

    8.根据权利要求1所述的声音处理系统,其中,所述神经网络的所述中间层包括一个或更多个交织块,其中,所述一个或更多个交织块中的每一个包括以下各项中的至少一个:特征编码器、条件网络、分离网络和特征解码器,其中,所述条件网络包括以所述声音信号混合和所述数字表示作为输入并将所述输入调制为条件输入的特征不变线性调制(film)层,其中,所述film层处理所述条件输入并将所处理的条件输入发送到所述分离网络。(图6)

    9.根据权利要求8所述的声音处理系统,其中,所述分离网络包括利用所述条件输入来从所述声音信号混合分离所述目标声音信号的卷积块层,其中,所述分离网络被配置为生成所述目标声音信号的潜在表示。(图4、图6)

    10.根据权利要求8所述的声音处理系统,其中,所述特征解码器将所述分离网络所生成的所述目标声音信号的潜在表示转换为音频波形。(图6)

    11.一种用于提取目标声音信号的计算机实现的方法,该方法包括以下步骤:

    12.根据权利要求11所述的计算机实现的方法,其中,利用一个或更多个麦克风从多个声源收集所述声音信号混合,其中,所述多个声源对应于说话者、人或个体、工业设备和车辆中的至少一个。

    13.根据权利要求11所述的计算机实现的方法,其中,一个或更多个标识符的所述预定集合与多个声源关联,其中,一个或更多个标识符的所述预定集合中的所述一个或更多个标识符中的每一个包括最大声声源标识符、最小声声源标识符、最远声源标识符、最近声源标识符、女性说话者标识符、男性说话者标识符和特定语言声源标识符中的至少一个。

    14.根据权利要求11所述的计算机实现的方法,其中,使用所述一个或更多个逻辑运算符来组合所述一个或更多个标识符以提取具有互容特性和互斥特性的所述目标声音信号。

    15.根据权利要求14所述的计算机实现的方法,其中,使用一个或更多个标识符的所述预定集合中的标识符的多个组合的数字表示的所述预定集合来训练所述神经网络。

    16.根据权利要求11所述的计算机实现的方法,该方法还包括以下步骤:在所述神经网络的训练期间,生成与所述目标声音信号的所述互容特性和所述互斥特性关联的一个或更多个查询。

    17.根据权利要求11所述的计算机实现的方法,其中,所述神经网络的所述中间层包括一个或更多个交织块,其中,所述一个或更多个交织块中的每一个包括以下各项中的至少一个:特征编码器、条件网络、分离网络和特征解码器,其中,所述条件网络包括以所述声音信号混合作为输入并将所述输入调制为条件输入的特征不变线性调制(film)层,其中,所述film层处理所述条件输入并将所处理的条件输入发送到所述分离网络。


    技术总结
    本公开的实施方式公开了一种用于提取目标声音信号的系统和方法。该系统收集声音信号的混合。该系统选择识别要从声音信号的混合提取的目标声音信号的查询,该查询包括一个或更多个标识符。各个标识符存在于一个或更多个标识符的预定集合中并且定义声音信号的混合的互容特性和互斥特性中的至少一个。该系统确定连接所提取的一个或更多个标识符的一个或更多个逻辑运算符。该系统将一个或更多个标识符和所提取的逻辑运算符变换为数字表示。该系统执行神经网络,该神经网络被训练为通过将数字表示与神经网络的中间层的中间输出混合来提取目标声音信号。

    技术研发人员:G·维切恩,E·泰兹尼斯,A·S·苏布拉马尼亚,J·勒鲁克斯
    受保护的技术使用者:三菱电机株式会社
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-30129.html

    最新回复(0)