基于神经网络的数字人处理方法、装置、设备及介质与流程

    专利查询2025-10-08  3


    本公开涉及视频传输的,具体而言,涉及一种基于神经网络的数字人处理方法、装置、设备及介质。


    背景技术:

    1、数字人,是指利用计算机技术和人工智能技术制作的人类外观或行为的虚拟人物。这些虚拟人物的应用场景非常广泛,例如企业宣传、教育培训、虚拟演员和主持人、智能客服、虚拟展览和旅游导播、ip形象定制、虚拟会议等。近期,3d数字人成为研究热点,其具有逼真度高、灵活性强、成本效益高等优势,有望在娱乐、教育、商业和科学等领域得到广泛应用。

    2、相较于2d数据,3d数据量更为海量,传输或存储3d数字人的数据所需要的带宽急剧增长,为实时性的应用场景带来极大的挑战,实现数字人高效编码及低带宽传输至关重要,如何实现3d数字人的高效编码和传输是亟待解决的技术问题。


    技术实现思路

    1、本公开实施例至少提供一种基于神经网络的数字人处理方法、装置、设备及介质。

    2、第一方面,本公开实施例提供了一种基于神经网络的数字人处理方法,其特征在于,应用于编码端,包括:

    3、对输入的基于神经辐射场的3d数据进行语义分析,得到3d数字人和背景;其中,所述语义分析包括:2d和/或3d物体检测,或,2d和/或3d语义分割;

    4、对所述3d数字人进行表征生成,得到3d数字人所述神经辐射场的三维特征网格;对所述三维特征网格进行特征变换,得到所述3d数字人的紧凑化表征;所述紧凑化表征至少包括:所述神经辐射场的三维特征网格或所述三维特征网格的分解特征;

    5、通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果。

    6、一种可选的实施方式中,所述基于神经网络的编码器包括:表征子编码器及两路编码模块;其中,所述两路编码模块中第一路编码模块至少包含超先验编码器、第一量化、第一熵编码器,所述两路编码模块中第二路编码模块至少包含第二量化、第二熵编码器,所述两路编码模块的输出结果为所述第一编码结果。

    7、一种可选的实施方式中,所述通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果,包括:

    8、通过所述表征子编码器对所述紧凑化表征进行处理,得到隐层特征;

    9、基于所述超先验编码器确定所述隐层特征的先验概率分布,并通过所述第一量化和所述第一熵编码器对所述先验概率分布进行处理;

    10、基于所述第二路编码模块,对所述隐层特征进行第二量化和熵编码,并基于所述第一路编码模块和所述第二路编码模块的输出结果确定所述第一编码结果。

    11、一种可选的实施方式中,所述对所述三维特征网格进行特征变换,得到所述3d数字人的紧凑化表征,包括:

    12、对所述三维特征网格进行分解,得到所述三维特征网格的分解特征;其中,所述分解特征包括:张量分解结果和/或平面表征;

    13、基于所述三维特征网格或者所述分解特征,确定所述紧凑化表征。

    14、一种可选的实施方式中,所述方法还包括:

    15、获取网络条件;

    16、根据所述网络条件调整编码参数和/或编码模式。

    17、一种可选的实施方式中,所述方法还包括:

    18、获取终端侧提供的下游任务的需求;

    19、基于所述需求确定相匹配的编码参数和/或调整码率控制策略。

    20、一种可选的实施方式中,在通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果之后,所述方法还包括:

    21、向解码端传输所述第一编码结果;其中,所述第一编码结果用于所述解码端渲染所述3d数字人的重建渲染结果;其中,所述重建渲染结果包括渲染视点和/或3d模型。

    22、一种可选的实施方式中,所述方法还包括:

    23、根据终端侧的质量反馈,确定是否开启质量增强模块,其中,所述质量增强模块用于增强渲染视点或3d模型的渲染质量。

    24、一种可选的实施方式中,所述方法还包括:

    25、获取外部参数,以及获取对所述3d数字人进行表征生成后得到的网络模型参数;其中,所述外部参数至少包括:相机参数和所述3d数字人的3d模型的驱动参数;

    26、通过metadata编码器对所述外部参数和所述网络模型参数进行压缩编码处理,得到第二编码结果,并向解码端传输所述第二编码结果。

    27、一种可选的实施方式中,所述方法还包括:

    28、通过视频编码器对所述背景进行压缩编码,得到第三编码结果;

    29、向解码端传输所述第三编码结果。

    30、一种可选的实施方式中,通过以下方式训练所述神经辐射场和编解码器:

    31、通过训练样本训练初始神经辐射场,得到中间神经辐射场;

    32、基于所述训练样本的样本标签和所述中间神经辐射场对所述训练样本的预测结果,确定重建损失函数值;

    33、基于所述重建损失函数值设置所述编解码器的初始状态,并从所述初始状态开始训练所述编解码器和所述中间神经辐射场,得到训练后神经辐射场和训练后编解码器;其中,所述编解码器包括:待训练编码端中基于神经网络的编码器和待训练解码端中基于神经网络的解码器。

    34、一种可选的实施方式中,所述从所述初始状态开始训练所述编解码器和所述中间神经辐射场,得到训练后神经辐射场和训练后编解码器,包括:

    35、确定目标损失函数;其中,所述目标损失函数基于重建损失函数值和熵损失函数确定,所述重建损失函数为所述待训练解码端输出的渲染结果和地面真值之间的l2范数,所述熵损失函数为所述待训练编码端中第二熵编码器的输入和第一熵编码器的输入计算得到;

    36、从所述初始状态开始,通过所述目标损失函数对所述编解码器和所述中间神经辐射场进行反复迭代训练,得到训练后神经辐射场和训练后编解码器。

    37、第二方面,本公开实施例提供了一种基于神经网络的数字人处理方法,应用于解码端,包括:

    38、获取编码端发送的第一编码结果和第二编码结果;其中,所述第一编码结果为所述编码端对所述3d数字人的紧凑化表征进行压缩编码得到,所述紧凑化表征为对所述3d数字人所述神经辐射场的三维特征网格进行特征变换得到,所述三维特征网格为对所述3d数字人进行表征生成得到,所述紧凑化表征至少包括:所述神经辐射场的三维特征网格或所述三维特征网格的分解特征,所述第二编码结果为所述编码端通过对外部参数和对所述三维特征网格进行特征变换后得到的网络模型参数进行压缩编码得到,所述外部参数至少包括:相机参数和所述3d数字人的3d模型的驱动参数;

    39、对所述第一编码结果通过基于神经网络的解码器进行解码处理,以及对第二编码结果进行解码处理,分别得到第一解码结果和第二解码结果;

    40、根据所述第一解码结果和所述第二解码结果进行重建渲染,得到所述3d数字人的渲染视点和/或3d模型,并通过终端侧展示所述渲染视点和/或3d模型。

    41、一种可选的实施方式中,所述对所述第一编码结果通过基于神经网络的解码器进行解码处理,得到第一解码结果,包括:

    42、通过第一熵解码器对所述第一编码结果中第一路编码模块的输出结果进行解码处理,得到第一熵解码结果,并通过超先验解码器对所述第一熵解码结果进行解码处理,得到超先验解码结果;

    43、基于所述超先验解码结果,构建第二熵解码器的熵模型,并通过第二熵解码器基于所述熵模型对所述第一编码结果中第二路编码模块的输出结果进行解码处理,得到第二熵解码结果;

    44、通过表征子解码器对所述第二熵解码结果进行解码处理,得到所述第一解码结果。

    45、一种可选的实施方式中,所述方法还包括:

    46、在获取到编码端传输的第三编码结果之后,通过视频解码器对所述第三编码结果进行解码处理,得到第三解码结果;其中,所述第三编码结果为所述编码端对基于神经辐射场的3d数据语义分析后得到的背景进行编码得到。

    47、一种可选的实施方式中,所述根据所述第一解码结果和所述第二解码结果进行重建渲染,得到所述3d数字人的渲染视点和/或3d模型,包括:

    48、根据所述第一解码结果、所述第二解码结果和所述第三解码结果进行重建渲染,得到所述3d数字人的渲染视点和/或3d模型。

    49、一种可选的实施方式中,所述对所述第二编码结果进行解码处理,得到第二解码结果,包括:

    50、通过metadata解码器对所述第二编码结果进行解码处理,得到第二解码结果。

    51、第三方面,本公开实施例提供了一种基于神经网络的数字人处理装置,设置于编码端,包括:

    52、语义分析模块,用于对输入的基于神经辐射场的3d数据进行语义分析,得到3d数字人和背景;其中,语义分析可采用2d和/或3d物体检测,或2d和/或3d语义分割;

    53、表征生成模块,用于对所述3d数字人进行表征生成,得到3d数字人所述神经辐射场的三维特征网格;

    54、特征变换模块,用于对所述三维特征网格进行特征变换,得到所述3d数字人的紧凑化表征;其中,所述紧凑化表征至少包括:所述神经辐射场的三维特征网格或所述三维特征网格的分解特征;

    55、压缩编码模块,用于通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果。

    56、第四方面,本公开实施例提供了一种基于神经网络的数字人处理装置,设置于解码端,包括:

    57、获取模块,用于获取编码端发送的第一编码结果和第二编码结果;其中,所述第一编码结果为所述编码端对所述3d数字人的紧凑化表征进行压缩编码得到,所述紧凑化表征为对所述3d数字人所述神经辐射场的三维特征网格进行特征变换得到,所述三维特征网格为对所述3d数字人进行表征生成得到,所述紧凑化表征至少包括:所述神经辐射场的三维特征网格或所述三维特征网格的分解特征,所述第二编码结果为所述编码端通过对外部参数和对所述三维特征网格进行特征变换后得到的网络模型参数进行压缩编码得到,所述外部参数至少包括:相机参数和所述3d数字人的3d模型的驱动参数;

    58、解码模块,用于对所述第一编码结果通过基于神经网络的解码器进行解码处理,以及对第二编码结果进行解码处理,分别得到第一解码结果和第二解码结果;

    59、重建渲染模块,用于根据所述第一解码结果和所述第二解码结果进行重建渲染,得到所述3d数字人的渲染视点和/或3d模型,并通过终端侧展示所述渲染视点和/或3d模型。

    60、第五方面,本公开实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第二方面中任一种可能的实施方式中的步骤。

    61、第六方面,本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第二方面中任一种可能的实施方式中的步骤。

    62、第七方面,本公开实施例还提供一种计算机程序产品,其特征在于,所述计算机程序产品被存储在存储介质中,所述程序产品被至少一个处理器执行上述第一方面,或第二方面中任一种可能的实施方式中的步骤。

    63、基于上述研究,本公开实施例提供了一种基于神经网络的数字人处理方法、装置、设备及介质。在本公开实施例中,首先,对输入的基于神经辐射场的3d数据进行语义分析,得到3d数字人和背景;其中,语义分析包括:2d和/或3d物体检测,或2d和/或3d语义分割;然后,对3d数字人进行表征生成,得到3d数字人神经辐射场的三维特征网格;对三维特征网格进行特征变换,得到3d数字人的紧凑化表征;其中,紧凑化表征至少包括:神经辐射场的三维特征网格或者三维特征网格的分解特征;最后,通过基于神经网络的编码器对紧凑化表征进行压缩编码,得到第一编码结果。

    64、上述实施方式中,通过对基于神经辐射场的3d数据进行语义分析之后得到的3d数字人进行表征生成和特征变换,并对变换后的紧凑化表征进行压缩编码处理的方式,可以在保证渲染视图质量的同时,实现3d数字人的高效编码,降低传输3d数字人所需要的数据量,从而提高3d数字人的高效传输。

    65、为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。


    技术特征:

    1.一种基于神经网络的数字人处理方法,其特征在于,应用于编码端,包括:

    2.根据权利要求1所述的方法,其特征在于,所述基于神经网络的编码器包括:表征子编码器及两路编码模块;其中,所述两路编码模块中第一路编码模块至少包含超先验编码器、第一量化、第一熵编码器,所述两路编码模块中第二路编码模块至少包含第二量化、第二熵编码器,所述两路编码模块的输出结果为所述第一编码结果。

    3.根据权利要求2所述的方法,其特征在于,所述通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果,包括:

    4.根据权利要求1所述的方法,其特征在于,所述对所述三维特征网格进行特征变换,得到所述3d数字人的紧凑化表征,包括:

    5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

    6.根据权利要求1所述的方法,其特征在于,所述方法还包括:

    7.根据权利要求1所述的方法,其特征在于,在通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果之后,所述方法还包括:

    8.根据权利要求1所述的方法,其特征在于,所述方法还包括:

    9.根据权利要求1所述的方法,其特征在于,所述方法还包括:

    10.根据权利要求1所述的方法,其特征在于,所述方法还包括:

    11.根据权利要求1所述的方法,其特征在于,通过以下方式训练所述神经辐射场和编解码器:

    12.根据权利要求11所述的方法,其特征在于,所述从所述初始状态开始训练所述编解码器和所述中间神经辐射场,得到训练后神经辐射场和训练后编解码器,包括:

    13.一种基于神经网络的数字人处理方法,其特征在于,应用于解码端,包括:

    14.根据权利要求13所述的方法,其特征在于,所述对所述第一编码结果通过基于神经网络的解码器进行解码处理,得到第一解码结果,包括:

    15.根据权利要求13所述的方法,其特征在于,所述方法还包括:

    16.根据权利要求15所述的方法,其特征在于,所述根据所述第一解码结果和所述第二解码结果进行重建渲染,得到所述3d数字人的渲染视点和/或3d模型,包括:

    17.根据权利要求13所述的方法,其特征在于,所述对所述第二编码结果进行解码处理,得到第二解码结果,包括:

    18.一种基于神经网络的数字人处理装置,其特征在于,设置于编码端,包括:

    19.一种基于神经网络的数字人处理装置,其特征在于,设置于解码端,包括:

    20.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至17任一所述的基于神经网络的数字人处理的步骤。

    21.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至17任一所述的基于神经网络的数字人处理的步骤。

    22.一种计算机程序产品,其特征在于,所述计算机程序产品被存储在存储介质中,所述程序产品被至少一个处理器执行以实现如权利要求1至18任一所述的基于神经网络的数字人处理的步骤。


    技术总结
    本公开提供了一种基于神经网络的数字人处理方法、装置、设备及介质,其中,该方法包括:对输入的基于神经辐射场的3D数据进行语义分析,得到3D数字人和背景;其中,所述语义分析包括:2D和/或3D物体检测,或,2D和/或3D语义分割;对所述3D数字人进行表征生成,得到3D数字人所述神经辐射场的三维特征网格;对所述三维特征网格进行特征变换,得到所述3D数字人的紧凑化表征;其中,所述紧凑化表征至少包括:所述神经辐射场的三维特征网格或所述三维特征网格的分解特征;通过基于神经网络的编码器对所述紧凑化表征进行压缩编码,得到第一编码结果。

    技术研发人员:赵丽丽,史宛鑫
    受保护的技术使用者:中国移动通信有限公司研究院
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-31365.html

    最新回复(0)