基于实时音频驱动的数字人头像生成方法

    专利查询2026-01-02  33


    本发明涉及虚拟数字,特别涉及一种基于实时音频驱动的数字人头像生成方法。


    背景技术:

    1、说话人头像生成是虚拟数字人合成过程中的一大关键技术,一般由音频、视频或者文本来驱动人物嘴部、头部以及身体等部分进行运动。随着数字孪生、元宇宙等概念的提出,大量研究团队投入精力到了说话头的研究工作中,产出了许多高质量、高效率的说话头像生成研究成果。

    2、音频驱动的高自然度说话头像视频生成技术近年来受到越来越多的关注,在虚拟仿真形象、影视配音、虚拟现实等方面有着广阔的应用前景。音频驱动的说话头像合成任务旨在基于输入的参考形象和一段任意的音频合成与音频相关的人像动作视频。目前主流的研究可以分为基于gan,pix2pix等技术为基础为基础的方法,和基于神经辐射场 nerf为代表的神经渲染等技术为基础的方法。

    3、stylegan是目前基于gan的方法效果最好的方法之一,它基于大规模音视频数据集进行训练,使用预训练的唇形鉴别器生成个体无关的唇部动作,从而获得了较好的唇同步效果。然而,此类方法不仅在渲染大幅度动作时表现不佳,还会因为生成不同分辨率的图像需要重复训练而产生高昂的训练代价。

    4、基于nerf的方法充分利用了nerf生成真实新视角图像等能力来大幅提升生成的说话头的保真度。ad-nerf是具有代表性的工作之一,首次在该任务中引入神经辐射场(nerf)作为中间表示隐式学习人物特征,使用deepspeech提取的特征回归人物相关动作,在人物还原度方面取得了让人印象深刻的结果。er-nerf拓展了此类方法,大幅提升了计算效率。尽管以nerf为基础的方法实现了高保真的视频渲染,但对于特定个体的训练开销也十分巨大,这限制了它在实时渲染等场景的应用。同时,nerf在渲染效率上的劣势导致了上述方法无法很好的满足直播推流等场景下实时说话头像渲染的需求基于nerf的方法中。

    5、通过使用一组封闭的函数作为表示基元来建模场景的方法。其中,3dgs(三维高斯溅射)是改方向具有代表性的方法,它通过一组随机或有结构的sfm点云来初始化高斯函数,通过自适应优化的高斯函数密度控制,自适应学习图像特征。得益于基于排序的快速光栅化机制,该方法可以获得远高于nerf的训练和推理效率。虽然该方法的训练过程是自适应的,但是其是静态的场景重建方案,如需建模动态场景需要逐帧建模单目相机下的静态场景,静态的高斯函数不能被其他数据驱动,这无法应用在本发明任务当中。

    6、因此,如何提供一种能够使用音频驱动高斯函数进行动态场景渲染的数字人头像生成方法是本领域技术人员亟待解决的技术问题。


    技术实现思路

    1、本发明针对上述研究现状,提供了一种基于实时音频驱动的数字人头像生成方法,引入了一个可训练的嵌入标签fs作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。

    2、本发明提供的一种基于实时音频驱动的数字人头像生成方法,包括如下步骤:

    3、头像渲染模型训练阶段:

    4、s100:根据人头动态动作视频帧提取获得连续帧的n张头像图片,n>1;

    5、s101:将所述n张头像图片输入至3ddfa模型,提取头像的3dmm点云数据,以及与n张头像图片对应的n组人脸关键特征作为驱动信号;

    6、s102:所述3dmm点云数据经过3dgs初始化,获得描述所述3dmm点云数据的静态高斯分布,计算所述高斯分布的空间位置语义信息,并作为静态高斯分布的嵌入标签,生成头像动态高斯分布;

    7、s103:当前头像图片对应的所述驱动信号和所述空间位置语义信息输入至动作控制器,预测输出头像动作偏移量;

    8、s104:所述头像动作偏移量叠加更新至所述头像动态高斯函数后,将更新后的所述头像动态高斯函数对应3d空间中的高斯分布投影到二维图像平面上获得渲染头像图片;

    9、s105:根据所述渲染头像图片与所述当前头像图片进行损失函数计算,根据损失函数计算结果反向优化更新所述空间位置语义信息后,重复执行s103-s105,直至所述n张头像图片训练完毕,获得训练好的头像渲染模型;

    10、音频特征提取模型训练阶段:

    11、s200:将给定时长的音频输入至音频特征提取模型,用于提取音频编码特征;

    12、s201:根据所述人脸关键特征和所述音频编码特征进行损失函数计算,根据损失函数计算结果反向优化更新所述音频特征提取模型,获得训练好的音频特征提取模型;

    13、实时音频驱动的数字人头像生成阶段:

    14、将所述n张头像图片输入至所述训练好的头像渲染模型,获得n组人脸关键特征作,即n组驱动信号;

    15、将实时音频输入至所述训练好的音频特征提取模型提取实时音频编码特征,将所述实时音频编码特征与所述驱动信号对齐并替换,实现音频对人脸语义先验的驱动;利用所述训练好的头像渲染模型输出实时数字人头像的渲染图。

    16、优选的,所述头像渲染模型训练阶段中,提取头像的3dmm点云数据的步骤包括:

    17、所述3ddfa模型对所述n张头像图片进行筛选,获取一张标准人头图像,对所述标准人头图像进行3dmm点云数据提取。

    18、优选的,所述头像渲染模型训练阶段中,提取获得人脸关键特征作为驱动信号的步骤包括:

    19、所述3ddfa模型对每张所述头像图片分别提取面部表情特征fexp作为驱动信号。

    20、优选的,所述头像渲染模型训练阶段中,所述3ddfa模型还用于对每张所述头像图片分别提取头部姿态特征fpos。

    21、优选的,所述头像渲染模型训练阶段中,计算所述高斯分布的空间位置语义信息的步骤包括:

    22、计算所述静态高斯分布中所有高斯椭球域的空间中心点的点坐标;

    23、对所述点坐标进行傅里叶编码得到语义信息fs。

    24、优选的,所述头像渲染模型训练阶段中,s103的步骤包括:

    25、所述3ddfa模型对所述面部表情特征fexp和所述头部姿态特征fpos进行复合,生成fw:

    26、;

    27、所述动作控制器采用两层的mlp构成注意力机制,将所述fw输入到一个mlp中以获得编码向量fa,结合所述语义信息fs,使用一个沿着维度的注意力机制获得控制向量fv:

    28、;

    29、;

    30、通过所述动作控制器获取注意力权重fa,并得到空间位置偏移p、旋转偏移r,高斯分布的椭球域尺寸变化s:

    31、。

    32、优选的,所述s105中,损失函数还用于反向优化更新3dgs参数和动作控制器参数。

    33、优选的,所述s105中,根据所述渲染头像图片与所述当前头像图片进行损失函数计算的步骤包括:

    34、损失函数表示如下:

    35、;

    36、其中,λ1和λ2分别代表和权重;

    37、;

    38、其中,为渲染头像图片,为对应的头像图片;

    39、;

    40、其中,使用vgg19网络提取渲染头像图片和对应的头像图片的特征,表示vgg19网络的第i层的输出。

    41、优选的,所述s200中,提取音频编码特征的步骤包括:

    42、所述音频特征提取模型根据所述人头动态动作视频帧的帧率对所述音频进行分割,获得包含n个音频段的音频序列;

    43、使用deepspeech提取所述音频序列的特征并结合一个端到端的音频编解码器,进行特征编解码;所述损失函数计算结果用于反向优化更新所述音频编解码器。

    44、优选的,所述s201中,根据所述人脸关键特征和所述音频编码特征进行损失函数计算的步骤包括:

    45、所述损失函数分别计算每个音频段的音频编码特征与其对应帧的头像图片的人脸关键特征之间的损失值。

    46、本发明提出的基于实时音频驱动的数字人头像生成方法相较现有技术具有以下有益效果:

    47、本发明提出了一种fasttalker方法,首次将高效率3d场景渲染方法3d guassionsplatting (3dgs)引入到了说话头生成任务中来,大幅提升了说话头生成的效率。

    48、本发明提出了一种分阶段处理的策略,第一阶段引入了一个可学习的空间位置语义信息作为嵌入标签来实现对3d guassion的间接表征,第二阶段通过音频和驱动信号对齐来实现音频对建模动态场景的控制,最终通过splatting完成说话头的渲染,进而实现语音驱动的说话头生成。

    49、本发明在开源的说话头生成数据集上进行了对比实验,结果表明fasttalker在推理效率方面达到了目前最优的效果,与最先进的nerf方法相比,在保证同等的渲染质量的条件下实现了近50倍的渲染效率。


    技术特征:

    1.一种基于实时音频驱动的数字人头像生成方法,其特征在于,包括如下步骤:

    2.根据权利要求1所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述头像渲染模型训练阶段中,提取头像的3dmm点云数据的步骤包括:

    3.根据权利要求1所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述头像渲染模型训练阶段中,提取获得人脸关键特征作为驱动信号的步骤包括:

    4.根据权利要求3所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述头像渲染模型训练阶段中,所述3ddfa模型还用于对每张所述头像图片分别提取头部姿态特征fpos。

    5.根据权利要求1所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述头像渲染模型训练阶段中,计算所述高斯分布的空间位置语义信息的步骤包括:

    6.根据权利要求4所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述头像渲染模型训练阶段中,s103的步骤包括:

    7.根据权利要求1所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述s105中,损失函数还用于反向优化更新3dgs参数和动作控制器参数。

    8.根据权利要求2所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述s105中,根据所述渲染头像图片与所述当前头像图片进行损失函数计算的步骤包括:

    9.根据权利要求1所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述s200中,提取音频编码特征的步骤包括:

    10.根据权利要求1所述的一种基于实时音频驱动的数字人头像生成方法,其特征在于,所述s201中,根据所述人脸关键特征和所述音频编码特征进行损失函数计算的步骤包括:


    技术总结
    本发明公开了一种基于实时音频驱动的数字人头像生成方法,包括:引入了一个可学习的嵌入代码来实现对3DGS的间接表征完成头像渲染模型训练,根据人脸关键特征和音频编码特征进行损失函数计算完成音频特征提取模型训练,通过实时音频编码特征和人脸关键特征对齐来实现音频对建模动态场景的控制,最终通过Splatting完成说话头的渲染,进而实现语音驱动的说话头生成。本发明引入了一个可训练的嵌入标签作为位置条件,使用动态高斯函数和音频输入驱动说话头进行建模,实现了数字人头像的动态场景渲染,且渲染效率高。

    技术研发人员:陈科良,李宗泽,黄云霞,黄奕天,谭力屯,黎佳泓
    受保护的技术使用者:北京邮电大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-33390.html

    最新回复(0)