具有人工智能失真矫正的闭环式动声音频播放系统与装置的制作方法

    专利查询2023-03-16  131



    1.本发明涉及多声道声场播放、人工智能领域,特别是涉及一种具有人工智能失真矫正的闭环式动声音频播放系统与装置。


    背景技术:

    2.多通道动声技术是最近几年发展的新型音频播放技术与系统,“参考资料:《一种动声声场系统》中国专利号:cn200910031119.4,2011.03.23”。 动声技术实现了动态音源处理与合成,动态播放环境的调整与自适应,比杜比全景声,巴可多声道系统更加完善,功能更加丰富,适用范围更加广泛,有更广泛的商业前景。网络音乐会,人工智能作曲,电子音乐会已经成为重要的新型艺术形式。这类新型音乐形式的观众日益增长,受众人群不断扩大,而且不受场地限制,不受地域限制,不会受到疫情等突发事件的干扰。在此背景下, dms动声音乐技术将更广泛用于网络音乐会,人工智能作曲,电子音乐会等领域。同时,元宇宙对音频系统也提出了更高的技术要求,在方向分辨率,动态范围,音色细节,内容的动态组合,实时“渲染”,实时互动等技术方面提出了更灵活,更智能的需求。传统的杜比,巴可,nhk等系统,仍然采用固定的声道与内容形式,不能满足未来的产业发展。
    3.现有的dms动声播放系统存在着声场,频谱与音色失真的问题。目前采用的补偿方法,包括频域滤波方法,时域矫正方法,以及人工智能预测方法,都不能实现全链路的动态补偿与矫正,不能实现在听众的位置补偿与矫正和听众听到的声音的补偿与矫正。频率滤波器有着相位与幅值补偿和修正的矛盾,目前的方法与装置都无法解决这类矛盾。时域矫正方法或者采用固定的预失真补偿,或者采用人工智能预测补偿,一方面由于预测与反馈的局限性都会带来信号的失真,另一方面对于音色的失真和声场的相位失真现有技术与装置都无法矫正与消除。此外,目前大部分监控系统所采集到的信号都受到了信号带宽,动态范围和时域响应的影响,不能精准刻画听众听到的声场,音色,与音质。由于没有精准的监测手段与监测方法,失真控制电路和音色调整与补偿电路很难精准正确地修正输出信号,达到理想的效果。目前的多声道系统,包括dms动声,杜比,巴可等,在检测端没有智能检测手段。而复杂的声场信号,其模式是随时间变化的,随环境变化的时变信号。没有智能化的检测管理,很难实现理想的信号矫正与播放控制。


    技术实现要素:

    4.本发明的目的是针对现有技术存在的上述不足,提供具有人工智能失真矫正的闭环式动声音频播放系统与装置。
    5.本发明所述系统与装置包括:超动态时变非线性失真人工智能处理器、动声播放器、音频放大器、音频换能器、音频麦克风阵列、超频模拟数字转换器:所述超动态时变非线性失真人工智能处理器,用于通过人工智能完成超动态时变非线性失真处理与补偿;所述动声播放器,用于多声道音频文件和其他音频源的编辑、混合、放大、分配与
    输出;所述音频放大器,用于接收动声播放器的音频信号和控制信号,进行处理加工放大,输出给音频换能器产生音频声波;所述音频换能器,用于把从音频放大器接收到的音频信号转换成音频声波;所述音频麦克风阵列,用于接收音频换能器产生的音频声波,将所述音频声波信号转换成模拟电信号,再将模拟电信号传送到模拟数字转换器;所述超频模拟数字转换器,用于将接到的麦克风阵列信号,进行超频模拟数字转换,再把转换的信号无失真地传送到工智能处理器。
    6.一方面,本发明通过闭环反馈,在播放器的输出端,放大器端, 喇叭输出端,听众的位置等全流程监控播放信号和声场。
    7.优选地,通过超频超分辨采集各个阶段的信号,真实监控听众听到的声音与声场。
    8.进一步,通过超频模拟转数字化系统把模拟信号转换成高精度数字信号,再把数字化的信号通过人工智能模块提取失真模型和补偿模型,通过所述智能控制系统反馈给播放器控制模块,放大器控制模块,音箱阵列控制模块,实现最佳的失真补偿,音色修正和声场还原。
    9.另一方面,本发明所述超动态时变非线性失真人工智能处理器,用于完成音频系统的频谱特征分析,瞬态特征分析,放大器实时失真检测,音频换能器实时检测,麦克风特征实时检测,以及对音频信号失真的人工智能化的实时补偿,通过对补偿后的输出效果的检测,完成对动声音频播放器闭环系统的人工智能化的动态调整。
    10.优选地,本发明的人工智能处理器包括:智能控制系统、检测信号输入接口、 控制信号输出接口:所述智能控制系统,由人工智能神经网络组成,用于通过人工智能方式提取控制信号;所述检测信号输入接口,用于采集分别来源于播放器, 放大器,音箱控制器,听众端检测器的各检测信号;所述控制信号输出接口,用于将所述控制信号输出给播放器,放大器,音箱控制器,听众端检测器控制子系统,对其进行控制。
    11.优选地,智能控制系统所述的人工智能神经网络包括:卷积神经网络、强化学习网络、有监督学习网络、无监督学习网络、半监督学习网络和基于知识的控制网络的融合系统。
    12.进一步,所述人工智能神经网络,用于完成音频系统的频谱特征分析,瞬态特征分析,放大器实时失真检测,音频换能器实时检测,麦克风特征实时检测,以及对音频信号失真的实时补偿,对补偿后的输出效果的检测,完成对动声音频播放器闭环系统的动态调整。
    13.优选地,所述人工智能神经网络由所述处理器单元运行所述人工智能网络算法构成:所述处理器硬件系统,用于处理数字和模拟信号,运行人工智能神经网络算法,包括模拟数字转换器接口和信号处理器:所述模拟数字转换器接口,用于完成信号的模数转换或数模转换;所述信号处理器,用于运行所述人工智能网络算法;所述人工智能网络算法:在所述人工智能网络上,通过数据训练后,用于实时调整
    补偿系统的参数与补偿方案,完成对音色,频谱,声场的修正与补偿。
    14.进一步,本发明通过检测信号输入接口,检测所述播放器、放大器、音箱控制器、听众端检测器端的信号,通过所述人工智能神经网络分析检测参数和听众端效果,控制每个环路智能化,实现智能化播放。
    15.再一方面,本发明的动声播放器,用于多声道音频文件和其他音频源的编辑, 混合,放大、分配与输出,包括处理器硬件系统和处理器软件系统。
    16.进一步,所述处理器系统,用于运行所述处理器软件,包括:主控电脑系统、存储系统、互联网接口、音频放大器接口、人工智能处理器接口:所述主控电脑系统用于运行所述处理器软件系统;所述存储系统,用于存储数据;所述互联网接口,用于通过互联网传输数据;所述音频放大器接口,用于将音频信号输出给音频放大器;所述人工智能处理接口,用于连接所述人工智能网络。
    17.进一步,所述处理器软件系统包括:文件管理单元、网络协议单元、远程同步单元、系统时钟管理单元、音频信号处理单元、系统运营状态参数采集与监控单元、人机交互管理单元:所述文件管理单元,用于文件管理;所述网络协议单元,用于不同网络间连接;所述远程同步单元,用于远程多个动声系统的时钟同步控制, 多任务协同与音频播放的同步;所述系统时钟管理单元,用于多系统时钟管理;所述音频信号处理单元,用于音频信号处理;所述系统运营状态参数采集与监控单元,用于运营状态参数采集及所述单元运营监控;所述人机交互管理单元,用于人机交互管理。
    18.优选地,本发明所述动声播放器与专利“一种动声声场系统”中的播放器区别在于,本发明所述动声播放器馈送给所述音频放大器的输出信号是经过人工智能系统补偿过的信号,这个信号对于放大器和音频输出换能器的相位失真,幅度失真和非线性进行了最佳补偿。
    19.进一步,所述音频放大器,用于接收动声播放器输出的所述音频信号和人工智能处理器的控制信号,并对所述音频信号进行处理与放大,输出给音频换能器产生音频声波。所述音频放大器包括:音频放大器、动声播放器接口、人工智能处理器接口、音频换能器接口、工作状态参数采集与监控单元。
    20.进一步,所述音频放大器,根据人工智能处理器给出的补偿方案和自身检测到的工作状态,对要放大的信号进行补偿处理,经过补偿和放大后的信号输出到音频换能系统,即所述音箱系统。
    21.进一步,所述音频放大器如果检测到异常工作状态,包括:负载过载、供电异常、温度超标、电源不稳定、电源波纹与噪声指标超标等问题,将即时采取相应措施,并通知人工智能控制系统。
    22.再一方面,本发明的音频采集系统为一音频麦克风阵列,用于接收音频换能器(音箱)产生的音频声场信号,并将音频声场信号转换成模拟电信号,再将模拟电信号传送给模拟数字转换器(adc)。
    23.优选地,所述麦克风阵列由n个单元组成,n取值范围可以包含1,2,
    …ꢀ
    到256的自然整数。
    24.进一步,所述麦克风阵列包括:麦克风供电电源、麦克风阵列与模数转换器接口:所述麦克风供电电源,用于给对应的麦克风供电;所述麦克风阵列,用于采集不同点的声场
    信号,即声音信号;所述模数转换器接口,用于连接不同麦克风模拟输出端口。
    25.进一步,所述麦克风阵列通过所述数据检测单元检测元数据,所述元数据包括:麦克风的编号、供电情况、工作情况、地理位置信息、精准定位信息、麦克风的指向。
    26.进一步,所述麦克风检测的元数据通过麦克风阵列的控制单元,传送给人工智能处理器进行统一协调控制。元数据的使用克服了传统录音系统现场信息缺失的问题(特别是在大型场馆:体育场馆,机场大厅,音乐厅,影剧院等复杂的音响环境),确保了人工智能控制器能够完成音频信号检测补偿与控制的任务。
    27.再一方面,本发明采用所述超频模拟数字转换器(adc),用于接收麦克风阵列信号,进行超频模拟数字转换,再把转换的信号无失真地传送到人工智能处理器。
    28.优选地,所述超频模拟数字转换器将统一的超精准(误差小于5ppm)工作时钟信号传送到每一路麦克风/adc接口,确保各路信息的同步和声场采集数据的完整性。
    29.优选地,本发明所采用的更高超频和高分辨采样技术可以更精细地分辨信号的时域瞬变和频域的瞬变特征,是实现实时精准音色分析的基础,克服了由于传统监控采样用的模数转换系统,采用奈奎斯特采样率,或者4倍的奈奎斯特采样率,或者等价的sigma-delta模拟数字转换器,无法实现精准的实时音色分析与修正的问题。
    30.进一步,本发明采用的超分辨是一个从量变到质变的过程,本发明采用8-32倍以上的频率超分辨和32比特的精度超分辨,从而确保可以精准分析音色模型,失真模型,进而完成对音色和失真的补偿。
    31.再一方面,本发明的音频换能器(音箱)采用阵列方式把从音频放大器接收到的音频信号转换成声音信号。所述音箱阵列采用元数据描述,所述元数据包括:音箱的地理位置、音箱的精准定位和阵列的相对关系、音箱的工作状况、音箱的控制开关(可选)。
    32.进一步,所述音箱阵列元数据由所述音箱阵列控制器采集后发送给动声播放器和人工智能处理器,用于对音箱的控制和调整。
    33.进一步,对于有智能导轨的音箱阵列系统,控制器可以根据元数据信息,对智能音箱阵列进行位置调整,方向调整等必要的调整。
    34.本发明的有益效果是:通过人工智能失真矫正的闭环式动声音频播放系统与装置,满足了动声播放系统、网络播放系统、元宇宙对音频系统在方向分辨率、动态范围、音色细节、内容的动态组合、实时“渲染”、实时互动等技术方面对更灵活,更智能的更高需求;通过人工智能补偿方式解决了dms动声播放系统存在着声场,频谱与音色失真的问题;提供了精准的人工智能声场监测方法,并提供人工智能精确控制失真和音色调整,使得多声道系统,包括dms动声,杜比,巴可等实现理想信号矫正与音频播放控制。
    附图说明
    35.为了使本发明的内容更容易被清楚的理解,下面结合附图,对本发明作进一步详细的说明,其中:图1是本发明的人工智能失真矫正的闭环式动声音频播放系统与装置结构图;图2是本发明的人工智能失真矫正的闭环式动声音频播放系统与装置工作流程图;
    图3是本发明的人工智能处理器结构原理图;图4是本发明的音频麦克风阵列结构图;图5是本发明的音箱阵列结构图;图6是本发明的动声播放器硬件结构图;图7是本发明的动声播放器软件系统图;图8是本发明的音频放大器结构图。
    具体实施方式
    36.现在结合附图和优选实施例对本发明作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
    37.图1是本发明的人工智能失真矫正的闭环式动声音频播放系统与装置结构图。如图1所示,本发明实施例所述系统与装置包括:动声播放器1、音频放大器2、音频换能器3、超动态时变非线性失真人工智能处理器4、音频麦克风阵列5、超频模拟数字转换器6:所述1,用于多声道音频文件和其他音频源的编辑、混合、播放、分配与输出;所述2,用于接收动声播放器的音频信号和控制信号,进行处理加工放大,输出给音频换能器;所述3,用于把从音频放大器接收到的音频信号转换成音频声波;所述4,用于通过人工智能完成超动态时变非线性失真处理与补偿;所述5,用于接收音频换能器产生的音频声波,将所述音频声波信号转换成模拟电信号;所述6,用于将接到的麦克风阵列信号,进行超频模拟数字转换,再把转换的信号无失真地传送到工智能处理器。
    38.图2是本发明的人工智能失真矫正的闭环式动声音频播放系统与装置工作流程图。如图2所示的工作流程包括如下步骤:s11,音频信号被送入所述动声放大器完成多声道音频文件和其他音频源的编辑、混合、放大、分配与输出;s22,所述动声放大器输出信号送给所述音频放大器处理与放大;s23,所述音频放大器输出信号送给音频换能器处理,并产生音频声场;s24,所述麦克风阵列采集音频声场信号送给所述超频模数转换器进行模数转换;s25,模数转换器处理后的数字声场信号送给所述超动态时变非线性失真人工智能处理器;s26,所述超动态时变非线性失真人工智能处理器,通过人工智能算法,实时检测动声播放器、音频放大器和音频换能器的音频失真,获得所需的音频信号失真实时补偿信号,并完成所述动声播放器、音频放大器、音频换能器的补偿控制,返回s21形成闭环控制系统。
    39.图3是本发明的人工智能处理器结构原理图。如图3所示的人工智能处理器包括:智能控制系统31、检测信号输入接口32、 控制信号输出接口33:所述31,由人工智能神经网络组成,用于通过人工智能方式提取控制信号;所述32,用于采集分别来源于动声播放器,音频放大器,音频阵列控制器,听众端检测器的检测信号;所述33,用于将所述控制信号输出给所述动声播放器,音频放大器,音箱阵列控制器,听众端检测器控制子系统,对其进行补偿控制;31可以优选卷积神经网络、强化学习网络、有监督学习网络、无监督学习网络、半监督学习网络和基于知识的控制网络的融合系统,用大数据完成训练后用于构建31,完成
    音频系统的频谱特征分析,瞬态特征分析,放大器实时失真检测,音频换能器实时检测,麦克风特征实时检测,以及对音频信号失真的实时补偿,对补偿后的输出效果的检测,进而通过33完成对动声音频播放器闭环系统的动态调整。
    40.图4是本发明的音频麦克风阵列结构图。如图4所示,所述音频麦克风阵列由部署在声场任意位置的多个麦克风micn(n=1,2,
    ꢀ…
    ,n)组成,n取值范围可以包含1,2,
    …ꢀ
    到256的自然整数,本发明实施例中, 411表示第一个麦克风mic1,412表示第二个麦克风mic2,41n表示第n个麦克风micn;任意第n个麦克风可以用一组元数据{}描述,如本实施例,所述元数据包括:麦克风的编号、供电情况、工作情况、地理位置信息、精准定位信息、麦克风的指向等,元数据的使用克服了传统录音系统现场信息缺失的问题(特别是在大型场馆:体育场馆,机场大厅,音乐厅,影剧院等复杂的音响环境),确保了人工智能控制器能够完成音频信号检测补偿与控制的任务;麦克风阵列由n个麦克风组成,可以部署在声场的任意位置,用于采集音频换能器(音箱)产生的音频声场信号,并将音频声场信号用对应的超频模数转换器adcn转换成模拟电信号;本发明实施例中,每个麦克风micn对应一个超频模数转换器adcn,411采集的声场信号送给421完成模数转换,412采集的声场信号送给422完成模数转换,

    ,41n采集的声场信号送给42n完成模数转换等等,最后将所有麦克风采集的声场信号全部通过相应的模数转换器转换成数字信号后,通过超频模数字转换器接口43送给所述的人工智能处理器进行处理。
    41.在本发明实施例,所述超频模拟数字转换器将统一的超精准(误差小于5ppm)工作时钟信号传送到每一路麦克风/adc接口,确保各路信息的同步和声场采集数据的完整性;采用更高超频和高分辨采样技术可以更精细地分辨信号的时域瞬变和频域的瞬变特征,克服了由于传统监控采样用的模数转换系统,采用奈奎斯特采样率,或者4倍的奈奎斯特采样率,或者等价的sigma-delta模拟数字转换器,无法实现精准的实时音色分析与修正的问题,从而确保可以精准分析音色模型,失真模型,进而完成对音色和失真的补偿。
    42.图5是本发明的音箱阵列结构图。如图5所示,所述音箱阵列由一组音箱spkn(n=1,2,
    ꢀ…
    ,n)组成,n取值范围可以包含1,2,
    …ꢀ
    到256的自然整数,本实施例中, 511表示第一个音箱spk1,512表示第一个音箱spk2,51n表示第一个音箱spkn;任意第n个音箱可以用一组元数据{}描述,如本实施例,所述元数据包括:音箱编号、供电情况、工作情况、地理位置信息、精准定位信息、音箱的指向等;在本发明实施例,521表示第1个音箱放大器,用于推动511;522表示第2个音箱放大器,用于推动512;52n表示第2个音箱放大器,用于推动51n;53是音箱阵列驱动与信号采集接口,将音箱阵列控制器信息送给动声播放器和人工智能处理器,对音箱控制和调整。
    43.图6是本发明的动声播放器硬件结构图。所述的动声播放器包括硬件系统和软件系统两部分,所述硬件系统用于运行所述处理器软件;如图6所示,所述动声播放器硬件系统包括:主控电脑系统61、存储系统62、互联网接口63、音频放大器接口64、人工智能处理器接口65:所述61用于运行所述处理器软件;所述62用于存储数据;所述63用于通过互联网传输数据;所述64用于将信号输出给音频放大器;所述65用于连接所述人工智能网络。
    44.图7是本发明的动声播放器软件系统图。如图7所示的所述动声播放器软件系统包括:主控单元70、文件管理单元71、网络协议单元72、远程同步单元73、系统时钟管理单元
    74、音频信号处理单元75、系统运营状态参数采集与监控单元76、人机交互管理单元77:所述70用于调用和控制软件模块运行;所述71用于文件管理;所述72用于不同网络间连接;所述73用于多任务协同与同步;所述74用于多系统时钟管理;所述75用于音频信号处理;所述76用于运营状态参数采集及所述单元运营监控;所述77用于人机交互管理。
    45.图8是本发明的音频放大器结构图。如图8所示,所述音频放大器包括:音动声播放器接口81、音频放大器82、人工智能处理器接口83、音频换能器接口84、工作状态参数采集与监控单元85:所述81用于连接动声播放器;所述82用于将音频信号放大;所述83用于与所述人工智能处理器连接,获取控制信号;所述84用于将音频信号输出给所述音频换能器;所述85用于采集放大器参数信号和完成监控。
    46.以上述依据本发明的实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

    技术特征:
    1.具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述系统与装置包括:超动态时变非线性失真人工智能处理器、动声播放器、音频放大器、音频换能器、音频麦克风阵列、超频模拟数字转换器:所述超动态时变非线性失真人工智能处理器,用于通过人工智能完成超动态时变非线性失真处理与补偿;所述动声播放器,用于多声道音频文件和其他音频源的编辑、混合、分配与输出;所述音频放大器,用于接收动声播放器的音频信号和控制信号,进行音频处理加工与放大,输出给音频换能器产生音频声波;所述音频换能器,用于把从音频放大器接收到的音频信号转换成音频声波;所述音频麦克风阵列,用于接收音频换能器产生的音频声波,将所述音频声波信号转换成模拟电信号,再将模拟电信号传送到模拟数字转换器;所述超频模拟数字转换器,用于将接到的麦克风阵列信号,进行超频模拟数字转换,再把转换的信号无失真地传送到人工智能处理器。2.如权利要求1所述的具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述超动态时变非线性失真人工智能处理器,用于完成音频系统监测点的频谱特征分析,瞬态特征分析,放大器实时失真检测,音频换能器实时检测,麦克风特征实时检测,以及对音频信号失真的人工智能化的实时补偿,对补偿后的输出效果的检测,完成对动声音频播放器闭环系统的人工智能化的动态调整。3.如权利要求1所述的具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述动声播放器包括处理器硬件系统和软件系统两部分;所述处理器硬件系统用于运行所述软件,完成动声音频播放;所述处理器硬件系统包括:互联网接口、音频放大器接口、人工智能处理器接口;所述软件系统包括:文件管理单元、网络协议单元、远程同步单元、系统时钟管理单元、音频信号处理单元、系统运营状态参数采集与监控单元、人机交互管理单元。4.如权利要求1所述的具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述音频放大器包括:动声播放器接口、音频放大单元、人工智能处理器接口、音频换能器接口、工作状态参数采集与监控单元。5.如权利要求1所述的具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述音频换能器由音箱阵列组成,用于把从音频放大器接收到的音频信号转换成音频声波,所述音箱阵列的每个音箱由元数据表示,所述元数据包括音箱的地理位置、音箱的精准定位和阵列的相对关系、音箱的工作状况、音箱的控制开关(可选),音箱阵列控制器采集并将元数据发送给动声播放器和人工智能处理器,用于对音箱的控制和调整。6.如权利要求1所述的具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述音频麦克风阵列,用于接收音频换能器产生的音频声波信号,将音频声波信号转换成模拟电信号,再将模拟电信号传送到模拟数字转换器,麦克风阵列由多个麦克风组成,阵列的数目为n,取值范围可以包含1,2,
    …ꢀ
    到256的自然整数,麦克风阵列也用元数据描述,所述元数据包括麦克风供电电源、麦克风位置、指向、工作状态等。7.如权利要求1所述的具有人工智能失真矫正的闭环式动声音频播放系统与装置,其特征在于,所述超频模拟数字转换器,采用8-32倍以上的频率超分辨和32比特的精度超分
    辨,用于更多地保存了模拟音频信号的动态细节部分。

    技术总结
    本发明公开一种具有人工智能失真矫正的闭环式动声音频播放系统与装置,通过闭环反馈,在播放器的输出端,放大器端,喇叭输出端,听众的位置等全流程监控播放信号和声场;用超频超分辨采集各个阶段的信号的方式,真实监控听众听到的声音与声场;通过超频模拟转数字化系统把模拟信号转换成高精度数字信号,再把数字化的信号通过人工智能模块提取失真模型和补偿模型,通过所述智能控制系统反馈给播放器控制模块,放大器控制模块,音箱阵列控制模块,实现最佳的失真补偿,音色修正和声场还原。解决了现有音频播放系统存在的声场,频谱与音色失真的问题。提供了实现精准的人工智能声场监测、人工智能精确控制失真和音色调整的方法与装置。装置。装置。


    技术研发人员:张勤 秦绮玲
    受保护的技术使用者:苏州思萃集传媒科技有限公司
    技术研发日:2022.03.15
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-15693.html

    最新回复(0)