一种针对无位姿输入的三维高斯溅射优化方法

专利查询2026-05-08 5

本发明涉及计算机视觉，更具体地，涉及一种针对无位姿输入的三维高斯溅射优化方法。

背景技术：

1、新视图合成是指给定源图像及源姿态以及目标姿态，渲染生成目标姿态对应的图片，通常涉及对场景的三维理解。新视角合成在3d重建、ar/vr等领域有广泛的应用。近年来，深度学习尤其是卷积神经网络、神经辐射场和三维高斯溅射等模型在新视图合成中发挥了关键作用，它们能够学习复杂的场景表示和光照模型，生成更逼真的图像。例如，三维高斯溅射(3dgaussian splatting)使用一系列高斯函数(通常是3d高斯分布)来表示场景中的物体。场景被分解为许多高斯椭球体，每个椭球体都有自己的中心位置、颜色、方向和大小。在渲染时，这些椭球体被光栅化为像素，通过积分或采样过程确定每个像素的颜色值，从而产生最终图像。相比传统的体积渲染或基于网格的渲染，三维高斯溅射能够实现实时的渲染速度。

2、随着三维高斯溅射技术的迅猛发展，新视图合成技术在渲染质量、效率及交互性方面取得了显著突破，有力推动了视觉行业应用的广泛扩展。这些应用覆盖了数字人、自动驾驶场景仿真、三维内容生成、无人机快速测绘、大范围场景重建以及三维语言场等领域。通常情况下，此类商业应用要求输入多视角的场景图片，然后在高性能的服务器端执行场景重建工作。尽管新视图合成应用的训练效率已得到显著提升，但由于其构建基础依赖于运动恢复结构(structure-from-motion)技术在相机校准阶段估计的稀疏点云，这限制了重建成果的质量。运动恢复结构是从多张图像或视频序列中自动恢复出场景的三维结构和相机的内外参数的方法，通常基于几何约束和运动模型来估计场景的深度和相机的轨迹。运动恢复结构的工作流程包括特征检测、特征匹配、相对位姿估计、三角化、全局优化和稠密重建等步骤。目前运动恢复结构所面临的主要挑战包括处理遮挡、光照变化、低纹理区域和图像噪声等，这些问题可能导致特征匹配错误和重建不准。这种对运动恢复结构匹配效率和精确度的依赖，对于服务导向的应用而言，往往意味着用户需要承受长时间的等待。

3、此外，支持任意设备以任意方式捕捉的多视角图片，对于新视图合成应用而言至关重要，特别是对于将服务普及到常见的移动设备上的应用场景。面对未经充分标注姿态数据的稀疏照片输入，基于运动恢复结构的相机姿态估计方法面临着严峻考验。在视角稀少的环境下，可能缺乏足够的匹配纹理，这直接影响到相机姿态估计的准确性。

4、为了克服运动恢复结构方法在三维高斯溅射初始化阶段效率低下及相机位姿估计不准确的问题，目前主要有两种主流的改进策略：

5、1)采用更精确和鲁棒的相机位姿估计方法。这一方向的核心在于采用基于视觉transformer架构的深度神经网络来提升相机位姿估计的精度与鲁棒性。transformer模型以其强大的序列建模能力和并行计算优势，在处理复杂空间关系和长距离依赖方面展现出卓越性能。具体而言，通过引入自注意力机制，transformer能够有效捕捉输入序列中各元素间的关系，从而在无需明确几何约束的情况下，实现对相机位姿的精准估计。此外，深度神经网络的训练过程可自动学习到丰富的特征表示，进一步增强了对遮挡、光照变化以及动态场景的适应能力，提高了估计结果的可靠性。

6、2)将相机位姿作为迭代训练参数的一部分。这种策略是将相机位姿参数纳入迭代训练过程中，将其视为可学习的变量，而非固定不变的先验知识。这种方法的核心思想是利用梯度下降算法，通过最小化重投影误差或光度误差等损失函数，来优化相机位姿参数。在训练过程中，模型会不断调整相机位姿，直至收敛至最佳估计值。

7、经分析，现有技术主要存在以下缺陷：

8、1)运动恢复结构技术能够从一系列图像中恢复出相机的运动轨迹和场景的三维结构。在这一过程中，不仅能够推断出相机的位姿，而且其产生的场景点云是三维高斯溅射训练中场景初始化的关键依据，对最终的场景训练效果具有重要影响。尽管采用深度神经网络的方法可以提升稀疏视图下相机位姿预测的准确性，但是，如果直接替代三维高斯溅射的运动恢复结构方法，将不可避免地导致场景初始化的精确性受损，进而使重建结果呈现出模糊不清的现象。

9、2)将相机位姿参数与三维高斯溅射场景的迭代训练相结合，虽然在理论上能够提供更精确的模型优化途径，但由于两者的深度融合，实际操作中往往导致模型优化过程变得异常复杂。这种过度耦合不仅使得模型难以达到全局最优解，还可能引发训练不稳定等问题，限制了模型性能的进一步提升。更关键的是，将相机位姿参数纳入训练环节，意味着每一次迭代都需要重新计算和调整，会显著增加迭代训练的次数，延长总体训练时间，对计算资源的消耗和时间效率提出了严峻挑战。

10、综上，在新视图合成技术领域中，相机姿态信息是场景训练不可或缺的一环。现有技术或者预设了相机姿态信息已知，或者借助于从密集视图中应用运动恢复结构算法来推测相机的位置。这一过程伴随着较高的时间成本，尤其是由于全面匹配计算的耗时。此外，面对稀疏场景下的观察视角遮挡或高度重复的纹理结构，运动恢复结构算法往往难以精确恢复相机姿态，导致定位不准确。此外，由运动恢复结构初步生成的点云数据，虽作为神经场训练的起点以构建场景模型，但其质量受限于上述姿态估计的不确定性。

技术实现思路

1、本发明的目的是克服上述现有技术的缺陷，提供一种针对无位姿输入的三维高斯溅射优化方法。该方法包括以下步骤：

2、对于输入图像，利用光线预测模型预测光线束分布，获得光线束形式的分布特征，包括光线的动量、光线的方向和光线的体密度；

3、基于所述光线束形式的分布特征，计算相机位姿；

4、对于所述光线束分布，基于所述光线的体密度进行采样，获得聚焦在视觉中心区域的三维高斯点云的初始空间分布；

5、对于所述输入图像，通过视锥体投影和物体遮罩计算，获得可视壳，所述可视壳反映场景物体的结构信息；

6、基于所述三维高斯点云的初始空间分布和所述可视壳进行三维高斯溅射场景训练，获得满足设定损失函数标准的三维场景重建模型，其中所述损失函数中包含相机位姿参数的训练正则项。

7、与现有技术相比，本发明的优点在于，提出基于相机光线预测的三维高斯溅射场景初始化方案。该方案将相机位姿估计方法与场景重建流程进行深度整合，构建一种端到端的优化框架，这种一体化设计，通过联合优化相机位姿和场景结构，实现更精准和高效的模型训练。本发明在保证相机位姿估计精度的基础上，加速训练场景的初始化过程，并提升了稀疏无位姿视图下，采用三维高斯溅射方法合成新视图的精度。

8、通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

技术特征：

1.一种针对无位姿输入的三维高斯溅射优化方法，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述利用光线预测模型预测光线束分布包括：

3.根据权利要求1所述的方法，其特征在于，所述相机位姿利用最小二乘法计算，对于同视角多张图片，基于光线束形式的分布表征，将光线组合并成一个光线束，进而通过最小二乘法求解相机的内外参数，包括位姿参数。

4.根据权利要求1所述的方法，其特征在于，根据以下步骤获得聚焦在视觉中心区域的三维高斯点云的初始空间分布：

5.根据权利要求2所述的方法，其特征在于，根据以下步骤获得聚焦在视觉中心区域的三维高斯点云的初始空间分布

6.根据权利要求5所述的方法，其特征在于，在所述三维高斯溅射场景训练过程中，根据以下步骤构建三维网格：

7.根据权利要求6所述的方法，其特征在于，所述损失函数设置为：

8.根据权利要求1所述的方法，其特征在于，还包括：针对实际采集的图像，利用经训练的所述三维场景重建模型，获得对应的多视角目标图像。

9.一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

技术总结
本发明公开一种针对无位姿输入的三维高斯溅射优化方法。该方法包括：对于输入图像，利用光线预测模型预测光线束分布，获得光线束形式的分布特征；基于光线束形式的分布特征，计算相机位姿；对于光线束分布，基于光线的体密度进行采样，获得聚焦在视觉中心区域的三维高斯点云的初始空间分布；对于输入图像，通过视锥体投影和物体遮罩计算，获得可视壳；基于所述三维高斯点云的初始空间分布和所述可视壳进行三维高斯溅射场景训练，获得满足设定损失函数标准的三维场景重建模型，其中所述损失函数中包含相机位姿参数的训练正则项。本发明为三维高斯溅射训练提供了重要的初始化场景信息，显著提升了最终三维结构的质量与细节丰富度。

技术研发人员：曲强,王余希
受保护的技术使用者：中国科学院深圳先进技术研究院
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-35453.html

专利

最新回复(0)