音频处理方法、装置、电子设备、介质及计算机程序产品与流程

专利查询2025-05-24 105

本发明涉及音频处理，尤其涉及一种音频处理方法、装置、电子设备、介质及计算机程序产品。

背景技术：

1、在通过生成式人工智能(artificial intelligence generated content，aigc)自动生成视频的场景中，视频中的音频都是简单合成的，使得视频中的每个发声源发出的声音强弱层次感不强，影响用户的沉浸式观看体验。

技术实现思路

1、本发明实施例提供一种音频处理方法、装置、电子设备、介质及计算机程序产品，以解决现有视频中声源发出的声音强弱层次感不强，影响用户的沉浸式观看体验的问题。

2、第一方面，本发明实施例提供了一种音频处理方法，应用于电子设备，包括：

3、确定视频中的声源物体在二维图像平面上的第一位置信息和大小信息；

4、确定用户在第一坐标系下的第二位置信息，所述第一坐标系是以所述电子设备的屏幕为中心建立的三维空间坐标系；

5、根据所述第一位置信息、所述大小信息和所述第二位置信息，调整所述声源物体对应的音频强度。

6、可选地，所述根据所述第一位置信息、所述大小信息和所述第二位置信息，调整所述声源物体对应的音频强度，包括：

7、根据所述第一位置信息和所述大小信息，确定所述声源物体在所述第一坐标系下的第三位置信息；

8、将所述第二位置信息和所述第三位置信息转换到第二坐标系下，确定所述用户相对于所述声源物体的第四位置信息；其中，所述第二坐标系是以所述声源物体为坐标原点建立的三维空间坐标系；

9、根据所述第四位置信息，调整所述声源物体对应的音频强度。

10、可选地，所述根据所述第一位置信息和所述大小信息，确定所述声源物体在所述第一坐标系下的第三位置信息，包括：

11、利用所述大小信息对所述第一位置信息进行归一化处理，得到所述声源物体的中心坐标；

12、根据所述声源物体的中心坐标和所述大小信息，利用相似三角形的原理确定所述声源物体与所述视频的拍摄装置之间的距离；

13、利用所述距离将所述声源物体的中心坐标转化至所述第一坐标系下，得到所述第三位置信息。

14、可选地，所述根据所述第四位置信息，调整所述声源物体对应的音频强度，包括：

15、根据所述第三位置信息和所述第四位置信息，调整所述声源物体对应的音频默认响度值，得到第一响度值；

16、确定所述用户与所述声源物体在所述第二坐标系下的x轴方向上的位置偏移；

17、根据所述位置偏移和所述第一响度值，得到所述声源物体对应的音频强度，所述音频强度包括左声道的第一音频响度和右声道的第二音频响度。

18、可选地，所述确定视频中的声源物体在二维图像平面上的第一位置信息和大小信息，包括：

19、按照预设时间间隔提取所述视频中的视频图像帧；

20、对所述视频图像帧中的每个声源物体在二维图像平面上进行位置识别和大小识别，得到每个所述声源物体对应的四元数组，所述四元数组包括：所述声源物体在所述二维图像平面上的横坐标、所述声源物体在所述二维图像平面上的纵坐标、所述声源物体在所述视频图像帧中的宽度和所述声源物体在所述视频图像帧中的高度；

21、其中，所述声源物体的横坐标和所述声源物体的纵坐标用于表征所述第一位置信息，所述声源物体在所述视频图像帧中的宽度和所述声源物体在所述视频图像帧中的高度用于表征所述大小信息。

22、可选地，上述音频处理方法还包括：

23、若连续提取的n个所述视频图像帧中有至少一个视频图像帧未获取到所述声源物体对应的四元数组，则对未获取到所述四元数组的所述视频图像帧对应的数据进行修正，使n个所述视频图像帧对应的所述四元数组中的数据呈线性变化关系。

24、第二方面，本发明实施例还提供一种音频处理装置，应用于电子设备，包括：

25、第一确定模块，用于确定视频中的声源物体在二维图像平面上的第一位置信息和大小信息；

26、第二确定模块，用于确定用户在第一坐标系下的第二位置信息，所述第一坐标系是以所述电子设备的屏幕为中心建立的三维空间坐标系；

27、音频调整模块，用于根据所述第一位置信息、所述大小信息和所述第二位置信息，调整所述声源物体对应的音频强度。

28、第三方面，本发明实施例还提供一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述处理器，用于读取存储器中的程序实现如上所述的音频处理方法中的步骤。

29、第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的音频处理方法中的步骤。

30、第五方面，本发明实施例还提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现如上所述的音频处理方法中的步骤。

31、上述方案中，电子设备通过确定视频中的声源物体在二维图像平面上的第一位置信息和大小信息；以及确定用户在第一坐标系下的第二位置信息，所述第一坐标系是以所述电子设备的屏幕为中心建立的三维空间坐标系；进一步地，根据所述第一位置信息、所述大小信息和所述第二位置信息，调整所述声源物体对应的音频强度。如此，在用户的位置发生改变和/或声源物体在视频中的位置发生改变时，均会带来音频强度的变化，实现视频中不同声源对应的音频强度具有层次感，使用户获得沉浸式的观看体验。

技术特征：

1.一种音频处理方法，其特征在于，应用于电子设备，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一位置信息、所述大小信息和所述第二位置信息，调整所述声源物体对应的音频强度，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一位置信息和所述大小信息，确定所述声源物体在相机坐标系下的第三位置信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述根据所述第四位置信息，调整所述声源物体对应的音频强度，包括：

5.根据权利要求1所述的方法，其特征在于，所述确定视频中的声源物体在二维图像平面上的第一位置信息和大小信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

7.一种音频处理装置，其特征在于，应用于电子设备，包括：

8.一种电子设备，包括：收发机、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至6中任一项所述的音频处理方法中的步骤。

9.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的音频处理方法中的步骤。

10.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令被处理器执行时实现如权利要求1至6中任一项所述的音频处理方法的步骤。

技术总结
本申请公开了一种音频处理方法、装置、电子设备、介质及计算机程序产品，涉及音频处理技术领域。该方法应用于电子设备，包括：确定视频中的声源物体在二维图像平面上的第一位置信息和大小信息；确定用户在第一坐标系下的第二位置信息，所述第一坐标系是以所述电子设备的屏幕为中心建立的三维空间坐标系；根据所述第一位置信息、所述大小信息和所述第二位置信息，调整所述声源物体对应的音频强度。本申请的方案能够使视频中不同声源对应的音频强度具有层次感，使用户获得沉浸式的观看体验。

技术研发人员：陶杰,李伯龙,于芹,米庆安,刘超
受保护的技术使用者：咪咕文化科技有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-28675.html

专利

最新回复(0)