一种音频信号处理方法及装置与流程

    专利查询2022-07-07  111



    1.本技术实施例涉及信号处理领域,尤其涉及一种音频信号处理方法及装置。


    背景技术:

    2.随着高性能计算机和信号处理技术的飞速发展,人们对语音、音频体验提出了越来越 高的要求,浸入式音频能够满足人们在这方面的需求。例如,4g/5g通信语音,音频服务 和虚拟现实(virtual reality,vr)的应用受到了越来越多的关注。一个具有沉浸感的虚拟现 实系统,不仅需要震撼的视觉效果,还需要逼真的听觉效果,视听的融合能大大提高虚拟 现实的体验感。虚拟现实音频的核心是三维音频。目前,通常采用重放方法实现三维音频 效果。例如基于耳机的双耳重放方法。在现有技术中,当收听者移动位置时,可以对输出 信号(双耳的输入信号)的能量进行调整后得到新的输出信号。当收听者只是转动头部而 位置不动时,收听者只能够感受到声源发出的声音的方位变化,而对于来自于前方和后方 的声音音量大小则区别不明显。这种现象与现实世界中面朝声源时感受到的声音音量最 大,背向声源时感受到的声音音量最小的实际感受不同,长时间地收听后会使收听者有很 强的不适感。因此,如何根据收听者头部转动的变化或/和收听者位置移动的变化调整输出 信号,提升收听者的听觉效果是一个亟待解决的问题。


    技术实现要素:

    3.本技术实施例提供一种音频信号处理方法及装置,解决了如何根据收听者头部转动的 变化或/和收听者位置移动的变化调整输出信号,提供收听者的听觉效果的问题。
    4.为达到上述目的,本技术实施例采用如下技术方案:
    5.第一方面,本技术实施例提供了一种音频信号处理方法,该方法可应用于终端设备, 或者该方法可应用于可以支持终端设备实现该方法的通信装置,例如该通信装置包括芯片 系统,终端设备可以是vr设备、增强现实(augmented reality,ar)设备或具体三维音频 服务的设备。所述方法包括:在获取到当前时刻的声源与收听者间的当前位置关系之后, 根据当前位置关系确定当前音频渲染函数,如果当前位置关系与存储的在先位置关系不 同,根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益,以得到当前音 频渲染函数的调整后增益,然后根据当前音频渲染函数和调整后增益,确定调整后音频渲 染函数,再根据当前输入信号和调整后音频渲染函数确定当前输出信号。其中,在先位置 关系是在先时刻的所述声源与所述收听者间的位置关系,当前输入信号为声源发出的音频 信号,当前输出信号用于输出给收听者。本技术实施例提供的音频信号处理方法,根据实 时地跟踪收听者与声源的相对位置变化,以及收听者与声源朝向变化,对当前音频渲染函 数的增益进行调整,从而,能够有效地提升双耳输入信号的自然感,提升收听者的听觉效 果。
    6.结合第一方面,在第一种可能的实现方式中,当前位置关系包括声源与收听者间的当 前距离或声源相对于收听者的当前方位角;或者,在先位置关系包括声源与收听者间
    的在 先距离或声源相对于收听者的在先方位角。
    7.结合第一种可能的实现方式,在第二种可能的实现方式中,若收听者只是移动位置而 未转动头部,即在当前方位角与在先方位角相同,并且当前距离与在先距离不相同时,根 据所述当前位置关系和在先位置关系调整当前音频渲染函数的初始增益,以得到当前音频 渲染函数的调整后增益,包括:根据当前距离和在先距离调整初始增益,得到调整后增益。
    8.可选的,根据当前距离和在先距离调整初始增益,得到调整后增益,包括:根据当前 距离和在先距离的差值调整初始增益,得到调整后增益,或者,根据当前距离和在先距离 的差值的绝对值调整初始增益,得到调整后增益。
    9.示例的,若在先距离大于当前距离,采用如下公式确定调整后增益: g2(θ)=g1(θ)
    ×
    (1 δr),其中,g2(θ)表示调整后增益,g1(θ)表示初始增益,θ等于θ1, θ1表示在先方位角,δr表示当前距离和在先距离的差值的绝对值,或者,δr表示在先距离 减当前距离的差值;或者,若在先距离小于当前距离,采用如下公式确定调整后增益: g2(θ)=g1(θ)/(1 δr),其中,θ等于θ1,θ1表示在先方位角,δr表示在先距离和当前距 离的差值的绝对值,或者,δr表示当前距离减在先距离的差值。
    10.结合第一种可能的实现方式,在第三种可能的实现方式中,若收听者只是转动头部而 位置不动,即在当前距离与在先距离相同,并且当前方位角与在先方位角不相同时,根据 当前位置关系和在先位置关系调整当前音频渲染函数的初始增益,以得到当前音频渲染函 数的调整后增益,包括:根据当前方位角调整初始增益,得到调整后增益。
    11.示例的,采用如下公式确定调整增益:g2(θ)=g1(θ)
    ×
    cos(θ/3),其中,g2(θ)表示调 整后增益,g1(θ)表示初始增益,θ等于θ2,θ2表示当前方位角。
    12.结合第一种可能的实现方式,在第四种可能的实现方式中,若收听者既转动了头部又 移动了位置,即在当前距离与在先距离不相同,并且当前方位角与在先方位角不相同时, 根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益,以得到当前音频渲 染函数的调整后增益,包括:根据在先距离和当前距离调整初始增益,得到第一临时增益; 再根据当前方位角调整第一临时增益,得到调整后增益;或者,根据当前方位角调整初始 增益,得到第二临时增益;再根据在先距离和当前距离调整第二临时增益,得到调整后增 益。
    13.结合上述可能的实现方式,在第五种可能的实现方式中,初始增益是根据当前方位角 确定的,当前方位角的取值范围为0度到360度。
    14.示例的,初始增益采用如下公式确定:g1(θ)=a
    ×
    cos(π
    ×
    θ/180)-b,其中,θ等于 θ2,θ2表示当前方位角,g1(θ)表示初始增益,a和b为预设参数,a的取值范围为 5~20,b的取值范围为1~15。
    15.结合上述可能的实现方式,在第六种可能的实现方式中,根据当前输入信号和调整后 音频渲染函数确定当前输出信号,包括:将当前输入信号和调整后音频渲染函数进行卷积 处理的结果确定为当前输出信号。
    16.需要说明的是,上述当前输入信号为单声道信号或立体声道信号。另外,音频渲染函 数为头部相关传输函数(head related transfer function,hrtf)或者双耳房间冲激响应 (binaural room impulse response,brir),音频渲染函数为当前音频渲染函数或调
    整后 音频渲染函数。
    17.第二方面,本技术实施例还提供了一种音频信号处理装置,用于实现上述第一方面描 述的方法。音频信号处理装置为终端设备或支持终端设备实现该第一方面描述的方法的通 信装置,例如该通信装置包括芯片系统。终端设备可以是vr设备、ar设备或具体三维音 频服务的设备。例如,该音频信号处理装置包括:获取单元和处理单元。所述获取单元, 用于获取当前时刻的声源与收听者间的当前位置关系;所述处理单元,用于根据获取单元 获取到的当前位置关系确定当前音频渲染函数;处理单元,还用于如果当前位置关系与存 储的在先位置关系不同,根据获取单元获取到的当前位置关系和在先位置关系调整当前音 频渲染函数的初始增益,以得到当前音频渲染函数的调整后增益;处理单元,还用于根据 当前音频渲染函数和调整后增益,确定调整后音频渲染函数;处理单元,还用于根据当前 输入信号和调整后音频渲染函数确定当前输出信号。其中,在先位置关系是在先时刻的所 述声源与所述收听者间的位置关系,当前输入信号为声源发出的音频信号,当前输出信号 用于输出给收听者。
    18.可选地,关于音频信号处理方法的具体实现方式同第一方面中相应的描述,这里不再 赘述。
    19.需要说明的是,上述第二方面的功能模块可以通过硬件实现,也可以通过硬件执行相 应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块。例如,传感器,用 于完成获取单元的功能,处理器,用于完成处理单元的功能,存储器,用于处理器处理本 申请实施例的方法的程序指令。处理器、传感器和存储器通过总线连接并完成相互间的通 信。具体的,可以参考第一方面所述的方法所述的方法中的终端设备的行为的功能。
    20.第三方面,本技术实施例还提供了一种音频信号处理装置,用于实现上述第一方面描 述的方法。所述音频信号处理装置为终端设备或支持终端设备实现该第一方面描述的方法 的通信装置,例如该通信装置包括芯片系统。例如所述音频信号处理装置包括处理器,用 于实现上述第一方面描述的方法的功能。所述音频信号处理装置还可以包括存储器,用于 存储程序指令和数据。所述存储器与所述处理器耦合,所述处理器可以调用并执行所述存 储器中存储的程序指令,用于实现上述第一方面描述的方法中的功能。所述音频信号处理 装置还可以包括通信接口,所述通信接口用于该音频信号处理装置与其它设备进行通信。 示例性地,若所述音频信号处理装置为终端设备,该其它设备为提供音频信号的声源设 备。
    21.可选地,关于音频信号处理方法的具体实现方式同第一方面中相应的描述,这里不再 赘述。
    22.第四方面,本技术实施例还提供了一种计算机可读存储介质,包括:计算机软件指 令;当计算机软件指令在音频信号处理装置中运行时,使得音频信号处理装置执行上述第 一方面所述的方法。
    23.第五方面,本技术实施例还提供了一种包含指令的计算机程序产品,当计算机程序产 品在音频信号处理装置中运行时,使得音频信号处理装置执行上述第一方面所述的方法。
    24.第六方面,本技术实施例提供了一种芯片系统,该芯片系统包括处理器,还可以包括 存储器,用于实现上述方法中终端设备或终端设备的功能。该芯片系统可以由芯片构
    成, 也可以包含芯片和其他分立器件。
    25.另外,上述任意方面的设计方式所带来的技术效果可参见第一方面中不同设计方式所 带来的技术效果,此处不再赘述。
    26.本技术实施例中,音频信号处理装置的名字对设备本身不构成限定,在实际实现中, 这些设备可以以其他名称出现。只要各个设备的功能和本技术实施例类似,属于本技术权 利要求及其等同技术的范围之内。
    附图说明
    27.图1为现有技术提供的一种hrtf库示例图;
    28.图2为本技术实施例提供的一种方位角和俯仰角的示例图;
    29.图3为本技术实施例提供的一种vr设备的组成示例图;
    30.图4为本技术实施例提供的一种音频信号处理方法流程图;
    31.图5为本技术实施例提供的一种收听者转动头部和移动位置的示例图;
    32.图6为本技术实施例提供的一种收听者转动头部的示例图;
    33.图7为本技术实施例提供的一种收听者移动位置的示例图;
    34.图8为本技术实施例提供的一种增益随方位角变化的示例图;
    35.图9为本技术实施例提供的一种音频信号处理装置的组成示例图;
    36.图10为本技术实施例提供的另一种音频信号处理装置的组成示例图。
    具体实施方式
    37.本技术说明书和权利要求书中的术语“第一”、“第二”和“第三”等是用于区别不同 对象,而不是用于限定特定顺序。
    38.在本技术实施例中,“示例性的”或者“例如”等词用于表示作例子、例证或说明。 本技术实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释 为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例 如”等词旨在以具体方式呈现相关概念。
    39.为了下述各实施例的描述清楚简洁,首先给出相关技术的简要介绍:
    40.基于耳机的双耳重放方法是指先选择从声源位置到收听者头中心位置对应的hrtf或 者brir,然后利用输入信号与选择得到的hrtf或brir进行卷积处理,得到输出信号。 其中,hrtf表征了声源所产生的声波传播到耳道时,受到头部、躯干、耳廓等器官散 射、反射及折射的影响。brir表征了环境反射声对声源的影响,brir可以看作声源、室 内环境、双耳(包括头部、躯干、耳廓)所组成的系统的脉冲响应,brir由直达声(directsound)、早期反射声、后期混响组成。直达声是指从声源不经过任何的反射而以直线的形 式直接传播到接受者的声音。直达声决定着声音的清晰度。早期反射声是在直达声以后到 达的对房间的音质起到有利作用的所有反射声。输入信号可以是指声源发出的音频信号, 音频信号可以是单声道音频信号或立体声音频信号。所谓单声道可以是指一个声音通道, 用一个传声器拾取声音,用一个扬声器进行放音的过程。所谓立体声道可以是指多个声音 通道。利用输入信号与选择得到的hrtf或brir进行卷积处理也可以理解为对输入信号进 行渲染处理,因此,输出信号也可以称为渲染输出信号或渲染声音。可理解的,输出信号 也就是收听
    者收听到的音频信号,输出信号也可称为双耳输入信号,双耳输入信号即收听 者收听到的声音。
    41.所谓选择从声源位置到收听者头中心位置对应的hrtf可以是指根据声源与收听者间 的位置关系从hrtf库中选择对应的hrtf。声源与收听者间的位置关系包括声源与收听者 间的距离、声源相对于收听者的方位角和声源相对于收听者的俯仰角。hrtf库包括了距 离、方位角和俯仰角对应的hrtf。图1为现有技术提供的一种hrtf库示例图,如图1所 示,hrtf库在方位角和俯仰角两个维度上的分布密度,图1中的(a)表示从收听者的前 面外部视角看到的hrtf分布,上下方向代表俯仰角维度,左右方向代表方位角维度;图1 中的(b)表示从收听者的内部视角看到的hrtf分布,环绕一圈表示了俯仰角维度,圆环 的半径表示声源与收听者间的距离。
    42.方位角是指从某点的指北方向线起依顺时针方向至目标方向线间的水平夹角。在本申 请实施例中,方位角指收听者的正前方位置与声源间的夹角。如图2所示,假设收听者所 处的位置是原点0,x轴指示的方向可以表示收听者面向的正前方向,y轴指示的方向可以 表示收听者逆时针旋转的方向。在下文中,假设收听者逆时针旋转的方向为正向,即收听 者越往左转表示方位角越大。
    43.假设x轴和y轴组成的平面为水平面,声源与所述水平面间的夹角可以称为俯仰角。
    44.同理,选择从声源位置到收听者头中心位置对应的brir可以参考上述关于hrtf的阐 述,本技术实施例在此不再赘述。
    45.利用输入信号与选择得到的hrtf或brir进行卷积处理,得到输出信号。可以采用如 下公式确定输出信号:其中,y(t)表示输出信号,x(t)表示 输入信号,表示选择得到的hrtf,r表示声源与收听者间的距离,θ表示声 源相对于收听者的方位角,方位角的取值范围为0度到360度,表示声源相对于收听者的 俯仰角。
    46.若收听者只是移动位置而未转动头部,可以对输出信号的能量进行调整,得到调整后 输出信号,这里的输出信号的能量可以是指双耳输入信号(声音)的音量。采用如下公式 确定调整后输出信号:y

    (t)=y(t)*α,其中,y

    (t)表示调整后输出信号,α表示衰减系 数,x表示收听者的移动前位置相对于声源的距离与收听者的移动后位置相对于 声源的距离之间的差值,或者收听者的移动前位置相对于声源的距离与收听者的移动后位 置相对于声源的距离之间的差值的绝对值。若收听者保持不动,则 y

    (t)=y()t*1,表示输出信号的能量不需要衰减。若收听者的移动前位置相对于声源的距 离与收听者的移动后位置相对于声源的距离之差为5,则表 示输出信号的能量需要乘以1/6。
    47.若收听者只是转动头部而位置不动,收听者只能够感受到声源发出的声音的方位变 化,而对于来自于前方和后方的声音音量大小则区别不明显。这种现象与现实世界中收
    听 者面朝声源时感受到的声音音量最大,收听者背向声源时感受到的声音音量最小的实际感 受不同,长时间地收听后会使收听者有很强的不适感。
    48.若收听者转动头部和移动位置,收听者收听到的声音音量大小只能够跟踪收听者的位 置移动变化,但是不能很好的跟踪收听者的头部转动变化,这样收听者的听觉感受与真实 世界的听觉感受不同,长时间收听后会有很强的不适感。
    49.综上所述,在收听者收到双耳输入信号之后,若收听者移动位置或转动头部时,收听 者收听到的声音的音量无法很好的跟踪收听者的头部转动变化,同时对位置的跟踪处理的 实时性也不精确,从而,会使得收听者听到的声音音量、位置和朝向与声源的实际位置和 朝向不匹配,导致收听者的听觉感受的违和感,收听者长时间收听会感到不适。而一个效 果较好的三维音频系统需要的是全空间的音效。因此,如何根据收听者的头部转动实时变 化或收听者的位置移动实时变化调整输出信号,提升收听者的听觉效果是一个亟待解决的 问题。
    50.在本技术实施例中,收听者所处的位置可以是指收听者在虚拟现实中所处的位置。收 听者的位置移动变化和收听者的头部转动变化可以是指相对于虚拟现实中声源的变化。另 外,为方便起见,在下文中,可以将hrtf和brir统称为音频渲染函数。
    51.为了解决上述问题,本技术实施例提供一种音频信号处理方法,其基本原理是:在获 取到当前时刻的声源与收听者间的当前位置关系之后,根据当前位置关系确定当前音频渲 染函数,如果当前位置关系与存储的在先位置关系不同,根据当前位置关系和在先位置关 系调整当前音频渲染函数的初始增益,以得到当前音频渲染函数的调整后增益,然后,根 据当前音频渲染函数和调整后增益,确定调整后音频渲染函数,再根据当前输入信号和调 整后音频渲染函数确定当前输出信号。其中,在先位置关系是在先时刻的声源与收听者间 的位置关系,当前输入信号为声源发出的音频信号,当前输出信号用于输出给收听者。本 申请实施例提供的音频信号处理方法,根据实时地跟踪收听者与声源的相对位置变化,以 及收听者与声源朝向变化,对当前音频渲染函数的增益进行调整,从而,能够有效地提升 双耳输入信号的自然感,提升收听者的听觉效果。
    52.下面将结合附图对本技术实施例的实施方式进行详细描述。
    53.图3为本技术实施例提供的一种vr设备的组成示例图,如图3所示,vr设备包括采 集模块(acquisition)301、音频预处理模块(audio preprocessing)302、音频编码模块(audioencoding)303、封装模块(file/segment encapsulation)304、传输模块(delivery)305、解 封装模块(file/segment decapsulation)306、音频解码模块(audio decoding)307、音频渲染 模块(audio rendering)308和扬声器/耳机(loudspeakers/headphones)309。另外,vr设备 还包括一些处理视频信号的模块。例如,视频组合模块(visual stitching)310、预测绘图模 块(projection and mapping)311、视频编码模块(video encoding)312、图像编码模块(imageencoding)313、视频解码模块(video decoding)314、图像解码模块(image decoding)315、 视频渲染模块(visual rendering)316和播放器(display)317。
    54.其中,采集模块用于采集声源的音频信号,将音频信号传输至音频预处理模块。音频 预处理模块用于对音频信号进行预处理,例如,滤波处理等,并将预处理后的音频信号传 输至音频编码模块。音频编码模块用于对预处理后的音频信号进行编码,将编码后的音
    频 信号传输至封装模块。采集模块还用于采集视频信号。视频信号经过视频组合模块、预测 绘图模块、视频编码模块和图像编码模块的处理后,将编码后的视频信号传输至封装模 块。
    55.封装模块用于将编码后的音频信号和编码后的视频信号进行封装以得到码流,码流通 过传输模块传输至解封装模块。传输模块可以是有线通信模块或无线通信模块。
    56.解封装模块用于对码流进行解封装,获得编码后的音频信号和编码后的视频信号,并 将编码后的音频信号传输至音频解码模块,将编码后的视频信号传输至视频解码模块和图 像解码模块。音频解码模块用于对编码后的音频信号进行解码,并将解码后的音频信号传 输至音频渲染模块。音频渲染模块用于对解码后的音频信号进行渲染处理,即根据本技术 实施例提供音频信号处理方法对解码后的音频信号进行处理,并将渲染输出信号传输至扬 声器/耳机。视频解码模块、图像解码模块和视频渲染模块对编码后的视频信号进行处理, 并将处理后的视频信号传输至播放器播放。具体的处理方法可以参考现有技术,本技术实 施例对此不作限定。
    57.需要说明的是,解封装模块、音频解码模块、音频渲染模块和扬声器/耳机可以是vr 设备内的部件。采集模块、音频预处理模块、音频编码模块和封装模块可以位于vr设备 内,也可以位于vr设备外,本技术实施例对此不作限定。
    58.图3中示出的结构并不构成对vr设备的限定,可以包括比图示更多或更少的部件,或 者组合某些部件,或者不同的部件布置。尽管未示出,vr设备还可以包括传感器等,传 感器用于获取声源与收听者间的位置关系,在此不再赘述。
    59.下面以vr设备为例对本技术实施例提供的音频信号处理方法进行详细说明。图4为本 申请实施例提供的一种音频信号处理方法流程图,如图4所示,该方法可以包括:
    60.s401、获取当前声源与收听者间的当前位置关系。
    61.收听者打开vr设备并选择需要收看的视频之后,收听者可以置身于虚拟现实中,从 而,收听者便可以看到虚拟场景中的图像以及听到虚拟场景中的声音。虚拟现实是一种可 以创建和体验虚拟世界的计算机仿真系统,是利用计算机生成的一种模拟环境,是一种多 源信息融合的、交互式的三维动态视景和实体行为的系统仿真使用户沉浸到该环境中。
    62.在收听者置身于虚拟现实中时,vr设备可以周期性的获取声源与收听者间的位置关 系。周期性地检测声源与收听者间的位置关系的周期可以是50毫秒或100毫秒,本技术是 实施例对此不作限定。当前时刻可以是指vr设备周期性地检测声源与收听者间的位置关 系的周期中的任意一个时刻。在当前时刻可以获取当前声源与收听者间的当前位置关系。
    63.当前位置关系包括声源与收听者间的当前距离或声源相对于收听者的当前方位角。
    ꢀ“
    当前位置关系包括声源与收听者间的当前距离或声源相对于收听者的当前方位角”可以 理解为,当前位置关系包括声源与收听者间的当前距离,或者,当前位置关系包括声源与 收听者间的当前方位角,或者,当前位置关系包括声源与收听者间的当前距离和声源相对 于收听者的当前方位角。当然,在一些实施方式中,当前位置关系还可以包括声源相对于 收听者的当前俯仰角。对于方位角和俯仰角的解释可以参考上述阐述,本技术实施例在此 不再赘述。
    64.s402、根据当前位置关系确定当前音频渲染函数。
    65.假设音频渲染函数为hrtf,根据当前位置关系确定的当前音频渲染函数可以是当前 hrtf。示例的,可以根据声源与收听者间的当前距离、声源相对于收听者的当前方位角 和声源相对于收听者的当前俯仰角,从hrtf库中选择与当前距离、当前方位角和当前俯 仰角对应的hrtf,得到当前hrtf。
    66.需要说明的是,当前位置关系可以是收听者打开vr设备,vr设备在起始时刻初次获 取到的声源与收听者间的位置关系。在这种情况下,vr设备未存储在先位置关系,vr设 备可以根据当前输入信号和当前音频渲染函数确定当前输出信号,即可以将当前输入信号 和当前音频渲染函数进行卷积处理的结果确定为当前输出信号。其中,当前输入信号为声 源发出的音频信号,当前输出信号用于输出给收听者。同时,vr设备可以存储当前位置 关系。
    67.在先位置关系可以是vr设备于在先时刻获取到的声源与收听者间的位置关系。在先 时刻也可以是指vr设备周期性地检测声源与收听者间的位置关系的周期中在当前时刻之 前的任意一个时刻。特别的,在先时刻可以是指收听者打开vr设备,初次获取声源与收 听者间的位置关系的起始时刻。在本技术实施例中,在先时刻与当前时刻是不同的两个时 刻,在先时刻在当前时刻之前。假设周期性地检测声源与收听者间的位置关系的周期是50 毫秒。在先时刻可以是指从收听者置身于虚拟现实中的起始时刻开始到第一个周期的时 刻,即第50毫秒,当前时刻可以是指从收听者置身于虚拟现实中的起始时刻开始到第二个 周期的时刻,即第100毫秒。或者,在先时刻可以是指vr设备开启后随机性地检测声源与 收听者间的位置关系的在当前时刻之前的任意一个时刻。当前时刻可以是指vr设备开启 后随机性地检测声源与收听者间的位置关系的于在先时刻之后的任意一个时刻。或者,在 先时刻是vr设备检测到声源与收听者间的位置关系变化后主动触发检测的时刻,同理,当 前时刻是vr设备检测到声源与收听者间的位置关系变化后主动触发检测的时刻等等。
    68.在先位置关系包括声源与收听者间的在先距离或声源相对于收听者的在先方位角。
    ꢀ“
    在先位置关系包括声源与收听者间的在先距离或声源相对于收听者的在先方位角”可以 理解为,在先位置关系包括声源与收听者间的在先距离,或者,在先位置关系包括声源与 收听者间的在先方位角,或者,在先位置关系包括声源与收听者间的在先距离和声源相对 于收听者的在先方位角。当然,在一些实施方式中,在先位置关系还可以包括声源相对于 收听者的在先俯仰角。vr设备可以根据在先位置关系确定的在先音频渲染函数,并根据在 先输入信号和在先音频渲染函数确定在先输出信号。示例的,可以采用如下公式确定在先 输出信号:其中,y1(t)表示在先输出信号,x1(t)在先输入 信号,表示在先音频渲染函数,t可以等于t1,t1表示在先时刻,r可以等于 r1,r1表示在先距离,θ可以等于θ1,θ1表示在先方位角,可以等于表示在先俯 仰角,*表示卷积运算。
    69.在收听者既转动了头部又移动了位置的情况下,不仅声源与收听者间的距离发生了变 化,而且声源相对于收听者的方位角也发生了变化,即,当前距离与在先距离不同,当前 方位角与在先方位角不同,且当前俯仰角与在先俯仰角不同。例如,在先hrtf可以为 当前hrtf可以为其中,r2表示当前距离,θ2表示当 前方位角,表示当前俯仰角。图5为本技术实施例提供的一种收听者转动头部和移动位 置的
    示例图。
    70.在收听者只是转动头部而位置不动的情况下,声源与收听者间的距离未发生变化,但 声源相对于收听者的方位角发生了变化,即,当前距离与在先距离相同,但当前方位角与 在先方位角不同,和/或当前俯仰角与在先俯仰角不同。例如,在先hrtf可以为 当前hrtf可以为或者或者当前距离 与在先距离相同,且当前方位角与在先方位角不同,且当前俯仰角与在先俯仰角不同。例 如,在先hrtf可以为当前hrtf可以为图6为本申 请实施例提供的一种收听者转动头部的示例图。
    71.在收听者只是移动位置而未转动头部的情况下,声源与收听者间的距离发生了变化, 但是声源相对于收听者的方位角未发生变化,即,当前距离与在先距离不同,但当前方位 角与在先方位角相同,当前俯仰角与在先俯仰角相同。例如,在先hrtf可以为 当前hrtf可以为图7为本技术实施例提供的一种收听 者移动位置的示例图。
    72.需要说明的是,如果当前位置关系与存储的在先位置关系不同,可以将存储的在先位 置关系替换为当前位置关系,以备后续调整音频渲染函数使用,具体的调整音频渲染函数 的方法可以参考下述阐述。如果当前位置关系与存储的在先位置关系不同,执行 s403~s405。
    73.s403、根据当前位置关系和在先位置关系调整当前音频渲染函数的初始增益,以得到 当前音频渲染函数的调整后增益。
    74.初始增益是根据当前方位角确定的,当前方位角的取值范围为0度到360度。初始增 益可以采用如下公式确定:g1(θ)=a
    ×
    cos(π
    ×
    θ/180)-b,其中,g1(θ)表示初始增益,a 和b为预设参数,a的取值范围可以为5~20,b的取值范围可以为1~15,π可以取3.1415926。
    75.需要说明的是,若收听者只是移动位置而未转动头部,当前方位角等于在先方位角, 即θ可以等于θ1,θ1表示在先方位角。若收听者只是转动头部而位置不动或若收听者既转动 了头部又移动了位置,当前方位角不等于在先方位角,θ可以等于θ2,θ2表示当前方位角。
    76.图8为本技术实施例提供的一种增益随方位角变化的示例图。图8中所示的三条曲线 从上至下表示三种增益调整函数,从上到下表示增益调整强度越来越大。从上到下将三条 曲线的函数称为第一函数、第二函数和第三函数。第一函数的表达式可以为 g1(θ)=6.5
    ×
    cos(π
    ×
    θ/180)-1.5,第二函数的表达式可以为 g1(θ)=11
    ×
    cos(π
    ×
    θ/180)-6,第三函数的表达式可以为 g1(θ)=15.5
    ×
    cos(π
    ×
    θ/180)-10.5。
    77.以调整第三函数的曲线为例说明:当方位角为0时,增益调整约为5db左右,表示将 增益提升5db,当方位角为45度或者-45度时,增益调整约为0,表示增益保持不变,当方 位角为135度或者-135度时,增益调整约为-22db,表示将增益衰减22db,当方位角为180 度或者-180度时,增益调整约为-26db,表示将增益衰减26db。
    78.若收听者只是移动位置而未转动头部,可以根据当前距离和在先距离调整初始增益, 得到调整后增益。例如,根据当前距离和在先距离的差值调整初始增益,得到调整后增 益。或者,根据当前距离和在先距离的差值的绝对值调整初始增益,得到调整后增益。
    若收听者既转动了头部又移动了位置, 可以表示为:
    91.s405、根据当前输入信号和调整后音频渲染函数确定当前输出信号。
    92.示例的,可以将当前输入信号和调整后音频渲染函数进行卷积处理的结果确定为当前 输出信号。
    93.示例的,可以采用如下公式确定当前输出信号:其中, y2(t)表示当前输出信号,x2(t)当前输入信号。关于的取值可以参考s404的阐述, 本技术实施例在此不再赘述。
    94.本技术实施例提供的音频信号处理方法,根据实时地跟踪收听者与声源的相对位置变 化,以及收听者与声源朝向变化,对所选择的音频渲染函数的增益进行调整,从而,能够 有效地提升双耳输入信号的自然感,提升收听者的听觉效果。
    95.需要说明的是,本技术实施例提供的音频信号处理方法不仅可以应用于vr设备中, 还可以应用于ar设备、4g或5g浸入式语音中等场景,只要是能提高收听者的听觉效果 即可,本技术实施例对此不作限定。
    96.上述本技术提供的实施例中,从终端设备的角度对本技术实施例提供的方法进行了介 绍。可以理解的是,各个网元,例如终端设备为了实现上述本技术实施例提供的方法中的 各功能,终端设备包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应 该很容易意识到,结合本文中所公开的实施例描述的各示例的算法步骤,本技术能够以硬 件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件 的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特 定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范 围。
    97.本技术实施例可以根据上述方法示例对终端设备进行功能模块的划分,例如,可以对 应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。 上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要 说明的是,本技术实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实 现时可以有另外的划分方式。
    98.在采用对应各个功能划分各个功能模块的情况下,图9示出了上述和实施例中涉及的 音频信号处理装置的一种可能的组成示意图,该音频信号处理装置能执行本技术各方法实 施例中任一方法实施例中vr设备所执行的步骤。如图9所示,所述音频信号处理装置为 vr设备或支持vr设备实现实施例中提供的方法的通信装置,例如该通信装置可以是芯片 系统。该音频信号处理装置可以包括:获取单元901和处理单元902。
    99.其中,获取单元901,用于支持音频信号处理装置执行本技术实施例中描述的方法。 例如,获取单元901,用于执行或用于支持音频信号处理装置执行图4所示的音频信号处理 方法中的s401。
    100.处理单元902,用于执行或用于支持音频信号处理装置执行图4所示的音频信号处理方 法中的s402~s405。
    101.需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应
    功能 模块的功能描述,在此不再赘述。
    102.本技术实施例提供的音频信号处理装置,用于执行上述任意实施例的方法,因此可以 达到与上述实施例的方法相同的效果。
    103.如图10所示为本技术实施例提供的音频信号处理装置1000,用于实现上述方法中音频 信号处理装置的功能。该音频信号处理装置1000可以是终端设备,也可以是终端设备中的 装置。终端设备可以是vr设备、ar设备或具体三维音频服务的设备。其中,该音频信号 处理装置1000可以为芯片系统。本技术实施例中,芯片系统可以由芯片构成,也可以包含 芯片和其他分立器件。
    104.音频信号处理装置1000包括至少一个处理器1001,用于实现本技术实施例提供的方法 中音频信号处理装置的功能。示例性地,处理器1001可以用于在获取到当前时刻的声源与 收听者间的当前位置关系之后,根据当前位置关系确定当前音频渲染函数,如果当前位置 关系与存储的在先位置关系不同,根据当前位置关系和在先位置关系调整当前音频渲染函 数的初始增益,以得到当前音频渲染函数的调整后增益,然后根据当前音频渲染函数和调 整后增益,确定调整后音频渲染函数,再根据当前输入信号和调整后音频渲染函数确定当 前输出信号,当前输入信号为声源发出的音频信号,当前输出信号用于输出给收听者等 等,具体参见方法示例中的详细描述,此处不做赘述。
    105.音频信号处理装置1000还可以包括至少一个存储器1002,用于存储程序指令和/或数 据。存储器1002和处理器1001耦合。本技术实施例中的耦合是装置、单元或模块之间的 间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信 息交互。处理器1001可能和存储器1002协同操作。处理器1001可能执行存储器1002中 存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。
    106.音频信号处理装置1000还可以包括通信接口1003,用于通过传输介质和其它设备进行 通信,从而用于音频信号处理装置1000中的装置可以和其它设备进行通信。示例性地,示 例性地,若音频信号处理装置为终端设备,该其它设备为提供音频信号的声源设备。处理 器1001利用通信接口1003接收音频信号,并用于实现图4对应的实施例中所述的vr设备 所执行的方法。
    107.音频信号处理装置1000还可以包括传感器1005,用于获取在先时刻的声源与收听者间 的在先位置关系和当前时刻的声源与收听者间的当前位置关系。示例的,传感器具可以是 陀螺仪、外置摄像头、运动检测装置或图像检测装置等,本技术实施例对此不作限定。
    108.本技术实施例中不限定上述通信接口1003、处理器1001以及存储器1002之间的具体 连接介质。本技术实施例在图10中以通信接口1003、处理器1001以及存储器1002之间通 过总线1004连接,总线在图10中以粗线表示,其它部件之间的连接方式,仅是进行示意 性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表 示,图10中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
    109.在本技术实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现 场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件, 可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是 微处理器或者任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现 为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
    110.在本技术实施例中,存储器可以是非易失性存储器,比如硬盘(hard disk drive,hdd) 或固态硬盘(solid-state drive,ssd)等,还可以是易失性存储器(volatile memory),例如 随机存取存储器(random-access memory,ram)。存储器是能够用于携带或存储具有指令 或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。本 申请实施例中的存储器还可以是电路或者其它任意能够实现存储功能的装置,用于存储程 序指令和/或数据。
    111.通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便 和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述 功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以 上描述的全部或者部分功能。
    112.在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它 的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的 划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组 件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显 示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间 接耦合或通信连接,可以是电性,机械或其它的形式。
    113.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的 部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个 不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
    114.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各 个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既 可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
    115.本技术实施例提供的方法中,可以全部或部分地通过软件、硬件、固件或者其任意组 合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计 算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令 时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算 机、专用计算机、计算机网络、网络设备、终端或者其他可编程装置。所述计算机指令可 以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存 储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通 过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如 红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所 述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用 介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软 盘、硬盘、磁带)、光介质(例如,数字视频光盘(digital video disc,dvd))、或者半导 体介质(例如,ssd)等。
    116.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何在 本技术揭露的技术范围内的变化或替换,都应涵盖在本技术的保护范围之内。因此,本申 请的保护范围应以所述权利要求的保护范围为准。
    转载请注明原文地址:https://tc.8miu.com/read-1392.html

    最新回复(0)