本发明涉及声音定位及显示方法领域,更具体地说,涉及一种基于360度全景视频的声音定位及显示方法和系统。
背景技术:
1、随着多媒体技术的发展,360度全景视频凭借其广阔的视野和身临其境的体验,在虚拟现实、远程监控、直播等领域得到了广泛应用。传统的360度全景视频拼接方法通常采用多个摄像头环形阵列同步采集图像,然后通过图像匹配和融合算法将这些图像拼接成360度全景图。
2、在声音采集方面,传统方法大多采用单一麦克风录制全景声,或使用若干个麦克风分别录制不同方向的声音,再将它们混合到一起。这种做法忽略了声音的空间分布特性,无法精确定位声源方位,导致声画不同步,影响用户体验。
3、为了解决这一问题,一些研究者提出了基于麦克风阵列的声源定位方法。该方法利用多个麦克风录制声音信号,通过分析各麦克风信号之间的时延和幅度差异,估计声源的空间位置。然而,麦克风阵列声源定位受限于麦克风的数量和分布,定位精度和分辨率难以满足要求。此外,单纯的声源定位结果与360度全景视频缺乏关联,无法直观地反映声源在视频中的位置。
4、还有一些方法尝试将声源定位与视频分析相结合,通过检测视频中的运动物体、人脸等视觉线索,辅助判断声源位置。但这些方法大多基于单一视觉特征,缺乏多特征融合,对复杂场景的适应性不足。而且,现有的视听融合方法大多采用简单的加权平均,融合策略单一,权重分配缺乏灵活性,难以应对动态变化的场景。
5、在全景视频的展示方面,传统方法受限于显示设备的分辨率和长宽比,往往难以兼顾360度全景和局部细节。一些方法采用鱼眼镜头展示360度全景,但图像畸变严重,细节丢失,用户体验差。另一些方法采用多个平铺的普通镜头拼接展示,但拼接缝隙明显,连贯性差。如何在有限的屏幕尺寸内,既展示360度全景,又突出感兴趣区域的细节,是一个亟待解决的问题。
6、针对上述问题,本发明提出了一种基于360度全景视频的声音定位及显示方法。该方法首先通过环形麦克风阵列采集多路音频信号,利用插值拓展的方法将360度空间划分为更细粒度的扇区,显著提高了声源定位的角度分辨率。在此基础上,提取多帧视频图像的活动区域、纹理特征、人脸等多种视觉线索,通过加权融合的策略将它们与声音信息结合,得到更加稳健可靠的声源定位结果。
7、在视频显示方面,本发明采用"全景+特写"的方式,将360度全景图压缩到上方区域,下方区域动态显示根据声源定位结果抠取的特写图像,两者无缝拼接,既保证了全景视野,又突出了局部细节,同时将视听信息紧密关联,使声源与视频目标实现同步,大大提升用户的沉浸感和代入感。
技术实现思路
1、有鉴于此,针对上述问题,本发明提出了一种基于360度全景视频的声音定位及显示方法。该方法首先通过环形麦克风阵列采集多路音频信号,利用插值拓展的方法将360度空间划分为更细粒度的扇区,显著提高了声源定位的角度分辨率。在此基础上,提取多帧视频图像的活动区域、纹理特征、人脸等多种视觉线索,通过加权融合的策略将它们与声音信息结合,得到更加稳健可靠的声源定位结果。在视频显示方面,本发明采用"全景+特写"的方式,将360度全景图压缩到上方区域,下方区域动态显示根据声源定位结果抠取的特写图像,两者无缝拼接,既保证了全景视野,又突出了局部细节,同时将视听信息紧密关联,使声源与视频目标实现同步,大大提升用户的沉浸感和代入感。
2、为解决上述技术问题,本发明采用如下的技术方案:
3、一种基于360度全景视频的声音定位及显示方法,包括:
4、对麦克风阵列和全景视频镜头进行同步标定的步骤;
5、对全景视频进行裁剪、缩放与融合的步骤;
6、采集音频数据并拓展麦克风方位角的步骤;
7、进行声音来源定位并生成声音直方图的步骤;
8、检测视频中的活动像素与纹理区域并生成视觉活跃度直方图的步骤;
9、融合声音直方图和视觉活跃度直方图并建立方位角到像素坐标的映射的步骤;
10、根据声源方位角抠取特写图像的步骤;
11、将全景图像与特写图像进行拼接并显示的步骤。
12、具体地,所述对麦克风阵列和全景视频镜头进行同步标定的步骤包括:
13、以麦克风阵列中的一个麦克风物理通道作为0度基准,按同一方向顺次标记其余麦克风物理通道;
14、以全景视频中的一个镜头作为0度基准,按与麦克风阵列相同的方向顺次标记其余镜头。
15、具体地,所述对全景视频进行裁剪、缩放与融合的步骤包括:
16、将四路1920*1080分辨率的全景视频拼接为7680*1080的图像;
17、裁剪拼接图像的重叠区域,得到分辨率为6000*840的全景图像;
18、将6000*840的全景图像缩放到1920*1080,其中1920*270的区域作为有效全景区,1920*810的区域用于放置特写图像。
19、具体地,所述采集音频数据并拓展麦克风方位角的步骤包括:通过8个麦克风组成的环形阵列采集音频数据,麦克风在圆周上均匀分布,相邻麦克风之间夹角为45°;将360°平均分为32个扇区,每个扇区对应一个方位角θi(i=1,2,...,32),相邻方位角之间夹角约为11.25°。
20、具体地,所述进行声音来源定位并生成声音直方图的步骤包括:对32个方位角采集到的音频数据进行能量计算,得到对应的能量值ei(i=1,2,...,32);根据能量值ei生成声音来源直方图h1(θ)=(θ1,e1),(θ2,e2),...,(θ32,e32),揭示声音在各个方位的分布情况。
21、具体地,所述检测视频中的活动像素与纹理区域并生成视觉活跃度直方图的步骤包括计算当前帧图像i(x,y)与背景帧图像b(x,y)的差异δ(x,y)=i(x,y)-b(x,y)|,若δ(x,y)大于阈值t则判定为活动像素根据像素的ycbcr值判断是否属于特定的纹理区间,形成纹理掩模图m(x,y);将活动像素图与纹理掩模图加权融合,得到视觉活跃度图v(x,y)=wm·m(x,y)+wa·a(x,y);计算各方位角θ对应扇区内视觉活跃度的累加值vi,生成视觉活跃度直方图h2(θ)=(θ1,v1),(θ2,v2),...,(θ32,v32)。
22、具体地,所述融合声音直方图和视觉活跃度直方图并建立方位角到像素坐标的映射的步骤包括用加权融合的方法合成声音直方图h1(θ)和视觉活跃度直方图h2(θ),得到联合声源方位直方图h(θ):h(θ)=w1·h1(θ)+w2·h2(θ)
23、其中,w1和w2分别为声音和视觉活跃度的权重系数,且w1+w2=1;
24、根据360°方位角θ与全景视频宽度像素w建立映射关系
25、x=f(θ)=[(θ+180°)]/360°·w
26、其中x为方位角θ对应的像素横坐标,||表示取整运算。
27、具体地,所述根据声源方位角抠取特写图像的步骤包括检测联合声源方位直方图h(θ)的全局峰值,获得声源所在的方位角θs;根据方位角到像素坐标的映射关系,计算θs对应的横坐标xs=f(θs);以xs为中心,在其邻域[xs-δx,xs+δx]内抠取特写图像,并放大到1920×810的分辨率。
28、具体地,所述将全景图像与特写图像进行拼接并显示的步骤包括将1920×270分辨率的全景图像与1920×810分辨率的特写图像在垂直方向上拼接,形成最终1920×1080的显示图像将拼接后的显示图像输出到16:9的显示屏上。
29、一种基于360°全景视频的声音定位及显示系统,包括:四个1920×1080分辨率的全景视频采集模组,用于采集360°视频由8个麦克风组成的环形声音采集阵列,用于采集多方位音频:一个中央处理器,用于所述的声音定位及显示方法一个图像拼接及输出模组,用于全景图像与特写图像的拼接与显示;所述全景视频采集模组、声音采集阵列、中央处理器、图像拼接及输出模组通过数据总线连接,构成完整的声音定位与显示系统。
30、与现有技术相比,本发明的有益效果在于:
31、1.采用环形麦克风阵列和方位角细分策略,显著提高了声源定位的精度和角度分辨率,实现声源方位的精细刻画。
32、2.充分挖掘多帧视频的活动区域、纹理特征、人脸等视觉线索,结合声音信息进行多特征融合定位,提高了复杂场景下声源定位的稳健性和可靠性。
33、3.融合策略灵活,可根据场景特点动态调整各视听特征的权重,适应多变的应用环境。
34、4."全景+特写"的拼接显示方式在有限的屏幕尺寸下实现全景预览和细节观察的无缝切换,且特写图像能够紧跟声源位置动态变化,突出了视听信息的关联性,带来身临其境的沉浸体验。
35、5.能够充分利用现有的硬件设备,如普通的摄像头、麦克风、显示屏等,无需昂贵的专用设备,易于推广应用。
36、6.软件算法高效实用,适于嵌入式系统实时运行,且具有较强的可定制性和可扩展性,为后续改进升级提供了便利。
37、总之,本发明从多路音频拾取、多视觉特征分析、声音视频融合、全景特写拼接等多个层面对360度全景视频进行了全面的优化和创新,形成了一套完整的、低成本的、易部署的360度全景声源定位与显示解决方案,有望在虚拟现实、远程监控、视频会议、直播等多个领域得到广泛应用,具有良好的应用前景和推广价值。
1.一种基于360度全景视频的声音定位及显示方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对麦克风阵列和全景视频镜头进行同步标定的步骤包括:
3.根据权利要求1所述的方法,其特征在于,所述对全景视频进行裁剪、缩放与融合的步骤包括:
4.根据权利要求1所述的方法,其特征在于,所述采集音频数据并拓展麦克风方位角的步骤包括:通过8个麦克风组成的环形阵列采集音频数据,麦克风在圆周上均匀分布,相邻麦克风之间夹角为45°;将360°平均分为32个扇区,每个扇区对应一个方位角θi(i=1,2,...,32),相邻方位角之间夹角约为11.25°。
5.根据权利要求1所述的方法,其特征在于,所述进行声音来源定位并生成声音直方图的步骤包括:对32个方位角采集到的音频数据进行能量计算,得到对应的能量值ei(i=1,2,...,32);根据能量值ei生成声音来源直方图h1(θ)=(θ1,e1),(θ2,e2),...,(θ32,e32),揭示声音在各个方位的分布情况。
6.根据权利要求1所述的方法,其特征在于,所述检测视频中的活动像素与纹理区域并生成视觉活跃度直方图的步骤包括计算当前帧图像i(x,y)与背景帧图像b(x,y)的差异δ(x,y)=|i(x,y)-b(x,y)|,若δ(x,y)大于阈值t则判定为活动像素根据像素的ycbcr值判断是否属于特定的纹理区间,形成纹理掩模图m(x,y);将活动像素图与纹理掩模图加权融合,得到视觉活跃度图v(x,y)=wm·m(x,y)+wa·a(x,y);计算各方位角θ对应扇区内视觉活跃度的累加值vi,生成视觉活跃度直方图h2(θ)=(θ1,v1),(θ2,v2),...,(θ32,v32)。
7.根据权利要求1所述的方法,其特征在于,所述融合声音直方图和视觉活跃度直方图并建立方位角到像素坐标的映射的步骤包括用加权融合的方法合成声音直方图h1(θ)和视觉活跃度直方图h2(θ),得到联合声源方位直方图h(θ):h(θ)=w1·h1(θ)+w2·h2(θ)
8.根据权利要求7所述的方法,其特征在于,所述根据声源方位角抠取特写图像的步骤包括检测联合声源方位直方图h(θ)的全局峰值,获得声源所在的方位角θs;根据方位角到像素坐标的映射关系,计算θs对应的横坐标xs=f(θs);以xs为中心,在其邻域[xs-δx,xs+δx]内抠取特写图像,并放大到1920×810的分辨率。
9.根据权利要求1所述的方法,其特征在于,所述将全景图像与特写图像进行拼接并显示的步骤包括将1920×270分辨率的全景图像与1920×810分辨率的特写图像在垂直方向上拼接,形成最终1920×1080的显示图像将拼接后的显示图像输出到16:9的显示屏上。
10.一种基于360°全景视频的声音定位及显示系统,其特征在于,包括:四个1920×1080分辨率的全景视频采集模组,用于采集360°视频由8个麦克风组成的环形声音采集阵列,用于采集多方位音频:一个中央处理器,用于执行权利要求1至9任一所述的声音定位及显示方法一个图像拼接及输出模组,用于全景图像与特写图像的拼接与显示;所述全景视频采集模组、声音采集阵列、中央处理器、图像拼接及输出模组通过数据总线连接,构成完整的声音定位与显示系统。
