本发明涉及人工智能、计算机图形学和三维建模。
背景技术:
1、三维生成模型。近年来,生成对抗网络gan的进步使得二维图像合成领域取得了重大进展。最近,人们越来越关注利用基于三维感知的生成对抗网络gan技术,仅从二维图像中获取有关三维形状的知识,而无需显式的三维数据。然而,值得一提的是,基于gan的方法在训练稳定性和对多样化物体的处理能力方面仍然面临挑战。扩散模型之前已经在二维新视图合成中得到了研究,其为三维生成研究中的应用开辟了新的探索途径。这是通过它们与神经辐射场nerf、特征网格和三平面的集成来实现的。
2、基于二维扩散模型的三维生成:近期二维升维(2d-lifting)方法的进展展示了预训练二维生成模型在从二维图像生成三维数据的潜力。基于这些二维先验,即分数蒸馏采样(sds)或变分得分蒸馏(vsd)技术在各种研究中被普遍用于基于文本或视觉输入构建三维模型。zero123被提出用于根据参考图像和位置作为调节因素来生成来自不同视角的图像。该先验的利用可以通过得分蒸馏采样技术用于神经辐射场的优化。magic123结合了二维和三维扩散先验来提高重建过程的质量。wonder3d和syncdreamer利用多视图扩散模型来生成一致的多视图图像。然而,这些模型主要以符号距离函数(sdf)或密度场的形式表示曲面,因此限制了它们在开放结构上的性能。
3、三维开曲面的神经重建:在当今计算机图形研究中,人们投入了大量精力来建立一种通用的表示方法,使其不仅能够建模闭合曲面,还能建模开放曲面。近期基于多视图图像的神经隐式表示领域的发展为无需3d数据先验的3d建模和重建树立了新标准,这在该领域取得的突破性进展也证明了这一点。然而,由于上述算法依赖于符号距离函数(sdf),因此只能重建水密形状。
4、综上所述目前三维生成模型具有如下局限性:三维生成模型面临的一大限制是训练数据的数量与种类的稀缺性。已有数据通常包含简单的结构,限制了它们生成各种现实世界物体的能力。此外,与有明确内部空间的封闭曲面不同,难以区分内部空间的开放曲面(例如叶子、花朵和服装)由于其复杂的细节而构成巨大挑战。缺乏复杂的训练数据会阻碍模型捕捉这些细微差别,最终限制其应用和现实世界的可行性。
5、基于二维扩散模型的三维生成的局限性:dreamfusion等方法试图通过nerf和sds损失函数来用2d数据弥合3d数据差距,但是他们往往更关注渲染质量而非精确几何,尤其是对于具有开放曲面的物体。因此,这种方法无法实现真正的开放曲面生成,这使其在现实世界的应用中存在局限性。
6、三维开曲面的神经重建的局限性:现存的用于处理开放曲面的3d重建方法通常依赖于密集且准确的输入,例如来自不同视角的多个图像。相比之下,旨在从头开始创建对象的3d生成模型通常仅使用有限的输入,例如单个图像。这种限制在捕获开放曲面的细节方面构成了巨大挑战,因为开放曲面本质上更难以使用有限信息进行重建。
技术实现思路
1、本发明的目的是解决上述现有技术的只能处理闭合曲面的问题,提出了一种基于无向距离函数的单目重建和三维模型生成方法及系统。具体来说,如图11所示,本发明提出的基于无向距离函数的单目三维模型生成方法,包括:
2、初始步骤s1,获取单目训练图像,其中该单目图像中具有待三维化的目标物;将该单目训练图像输入图像大模型得到该目标物的目标多视角图像作为数据先验;
3、生成步骤s2,构建由二维扩散模型和神经辐射场模型组成的生成模块,将该单目训练图像输入该生成模块,得到生成多视角图像,根据该生成多视角图像和该目标多视角图像构建第一损失函数,以训练更新该生成模块;
4、重建步骤s3,构建由无符号距离场模型和渲染器组成的重建模块,将该生成多视角图像输入该重建模块,得到重建多视角图像和该目标物的三角网格模型,根据该重建多视角图像和该生成多视角图像构建第二损失函数,以训练更新该重建模块;
5、迭代步骤s4,循环迭代执行该生成步骤和该重建步骤直到该第一损失函数和该第二损失函数收敛或达到预设循环迭代次数,保存当前生成模块和重建模块分别作为训练完成后的生成模块和重建模块;
6、应用步骤s5,将包含目标物的单目图像输入训练完成后的生成模块,并将得到的生成多视角图像输入训练完成后的重建模块,得到该单目图像中目标物的三角网格模型作为三维模型生成结果。
7、所述的基于无向距离函数的单目三维模型生成方法,其中该生成步骤包括:
8、对空间位置进行哈希编码,将编码结果输入该神经辐射场模型,得到代表空间内各点密度的第一编码特征,该神经辐射场模型将该第一编码特征渲染为指定视角的图像,得到该生成多视角图像。
9、所述的基于无向距离函数的单目三维模型生成方法,其中该第一编码特征还包括该无符号距离场模型输出的无向距离值,具体来说通过下式将该无向距离值与该神经辐射场模型输出的密度进行融合:
10、
11、其中σ(p)表示该空间内三维点p的神经辐射场最终渲染密度,σg(εhash(p))为该神经辐射场模型输出的密度,σu是空间密度偏移量;
12、
13、其中(1-|p|)为初始密度偏差,|p|表示到该空间中心的距离,sb,sd和su表示密度偏差的缩放因子;
14、为逻辑分布函数:其中k是标准差参数。
15、所述的基于无向距离函数的单目三维模型生成方法,其中该重建步骤还包括:根据该重建多视角图像和该目标多视角图像构建第三损失函数,该第二损失函数和该第三损失函数一起训练更新该重建模块。
16、本发明还提出了一种如图12所示的基于无向距离函数的单目三维模型生成装置,其中包括:
17、初始模块m1,获取单目训练图像,其中该单目图像中具有待三维化的目标物;将该单目训练图像输入图像大模型得到该目标物的目标多视角图像作为数据先验;
18、生成模块m2,构建由二维扩散模型和神经辐射场模型组成的生成模块,将该单目训练图像输入该生成模块,得到生成多视角图像,根据该生成多视角图像和该目标多视角图像构建第一损失函数,以训练更新该生成模块;
19、重建模块m3,构建由无符号距离场模型和渲染器组成的重建模块,将该生成多视角图像输入该重建模块,得到重建多视角图像和该目标物的三角网格模型,根据该重建多视角图像和该生成多视角图像构建第二损失函数,以训练更新该重建模块;
20、迭代模块m4,循环迭代执行该生成模块和该重建模块直到该第一损失函数和该第二损失函数收敛或达到预设循环迭代次数,保存当前生成模块和重建模块分别作为训练完成后的生成模块和重建模块;
21、应用模块m5,将包含目标物的单目图像输入训练完成后的生成模块,并将得到的生成多视角图像输入训练完成后的重建模块,得到该单目图像中目标物的三角网格模型作为三维模型生成结果。
22、所述的基于无向距离函数的单目三维模型生成装置,其中该生成模块包括:
23、对空间位置进行哈希编码,将编码结果输入该神经辐射场模型,得到代表空间内各点密度的第一编码特征,该神经辐射场模型将该第一编码特征渲染为指定视角的图像,得到该生成多视角图像。
24、所述的基于无向距离函数的单目三维模型生成装置,其中该第一编码特征还包括该无符号距离场模型输出的无向距离值,具体来说通过下式将该无向距离值与该神经辐射场模型输出的密度进行融合:
25、
26、其中σ(p)表示该空间内三维点p的神经辐射场最终渲染密度,σg(εhash(p))为该神经辐射场模型输出的密度,σu是空间密度偏移量;
27、
28、其中(1-|p|)为初始密度偏差,|p|表示到该空间中心的距离,sb,sd和su表示密度偏差的缩放因子;
29、为逻辑分布函数:其中k是标准差参数。
30、所述的基于无向距离函数的单目三维模型生成装置,其中该重建模块还包括:根据该重建多视角图像和该目标多视角图像构建第三损失函数,该第二损失函数和该第三损失函数一起训练更新该重建模块。
31、本发明还提出了一种电子设备,其中包括所述的一种单目三维模型生成装置,该电子设备或连接有信息显示设备,该信息显示设备用于以用户设置的显示参数、属性或通过人工智能模型,显示该三维模型生成结果。
32、本发明还提出了一种存储介质,用于存储一种执行所述单目三维模型生成方法的计算机程序。
33、由以上方案可知,本发明的优点在于:
34、本发明的方法能够生成高保真的开放曲面,而之前的方法无法扩展到开放曲面。下表1显示了开放曲面数据集df3d上生成质量的定量比较。本发明方法取得了最小的倒角误差,达到了更好的生成结果(33.36)。图9和图10显示本发明的方法可以生成具有开放边界的形状,而其他方法只能生成闭合的形状。
35、
36、表1:生成质量的定量对比表
1.一种基于无向距离函数的单目三维模型生成方法,其特征在于,包括:
2.如权利要求1所述的基于无向距离函数的单目三维模型生成方法,其特征在于,该生成步骤包括:
3.如权利要求2所述的基于无向距离函数的单目三维模型生成方法,其特征在于,该第一编码特征还包括该无符号距离场模型输出的无向距离值,具体来说通过下式将该无向距离值与该神经辐射场模型输出的密度进行融合:
4.如权利要求2所述的基于无向距离函数的单目三维模型生成方法,其特征在于,该重建步骤还包括:根据该重建多视角图像和该目标多视角图像构建第三损失函数,该第二损失函数和该第三损失函数一起训练更新该重建模块。
5.一种基于无向距离函数的单目三维模型生成装置,其特征在于,包括:
6.如权利要求1所述的基于无向距离函数的单目三维模型生成装置,其特征在于,该生成模块包括:
7.如权利要求2所述的基于无向距离函数的单目三维模型生成装置,其特征在于,该第一编码特征还包括该无符号距离场模型输出的无向距离值,具体来说通过下式将该无向距离值与该神经辐射场模型输出的密度进行融合:
8.如权利要求2所述的基于无向距离函数的单目三维模型生成装置,其特征在于,该重建模块还包括:根据该重建多视角图像和该目标多视角图像构建第三损失函数,该第二损失函数和该第三损失函数一起训练更新该重建模块。
9.一种电子设备,其特征在于,包括权利要求5--8所述的一种单目三维模型生成装置,该电子设备或连接有信息显示设备,该信息显示设备用于以用户设置的显示参数、属性或通过人工智能模型,显示该三维模型生成结果。
10.一种存储介质,用于存储一种执行权利要求1-4所述单目三维模型生成方法的计算机程序。
