确定表情系数及模型训练的方法、装置及设备及直播系统与流程

    专利查询2022-08-08  138



    1.本说明书涉及计算机视觉领域,尤其涉及一种确定表情系数及模型训练的方法、装置及设备及直播系统。


    背景技术:

    2.在计算机视觉领域中,经常需要基于目标对象的表情系数驱动虚拟形象。在一些场景中,需要基于目标对象的图像确定目标对象的表情系数,再通过表情系数驱动虚拟形象。获取表情系数的过程可以通过预测模型实现,然而,表情系数预测模型需要基于大量的样本图像来训练,训练成本非常高。


    技术实现要素:

    3.为克服相关技术中存在的问题,本说明书提供了一种确定表情系数及模型训练的方法、装置及设备及直播系统。
    4.根据本说明书实施例的第一方面,提供一种确定表情系数的方法,包括:
    5.获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    6.将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    7.基于所述第二表情系数确定所述第一表情系数。
    8.根据本说明书实施例的第二方面,提供一种虚拟形象直播的系统,包括主播客户端、观众客户端和服务器:
    9.所述主播客户端用于:获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    10.将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    11.基于所述第二表情系数确定所述第一表情系数;
    12.基于所述第一表情系数驱动虚拟形象的表情;
    13.将所述虚拟形象发送至所述服务器;
    14.所述服务器用于:接收主播客户端发送的所述虚拟形象,将所述虚拟形象发送至所述观众客户端;
    15.所述观众客户端用于:接收并显示服务器发送的所述虚拟形象。
    16.根据本说明书实施例的第三方面,提供另一种虚拟形象直播的系统,包括主播客
    户端、观众客户端和服务器:
    17.所述主播客户端用于:获取真实目标对象的图像,并将所述真实目标对象的图像发送至所述服务器;
    18.所述服务器用于:接收主播客户端发送的所述真实目标对象的图像,获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    19.将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    20.基于所述第二表情系数确定所述第一表情系数;
    21.基于所述第一表情系数驱动虚拟形象的表情;
    22.将所述虚拟形象发送至所述主播客户端和所述观众客户端;
    23.所述主播客户端还用于:接收并显示服务器发送的所述虚拟形象;
    24.所述观众客户端用于:接收并显示服务器发送的所述虚拟形象。
    25.根据本说明书实施例的第四方面,提供一种模型训练的方法,包括:
    26.基于预先生成的样本表情系数对虚拟对象的表情进行驱动,生成包括所述虚拟对象的样本图像;
    27.基于所述样本图像与所述样本表情系数对所述表情系数预测模型进行训练;
    28.表情系数预测模型用于基于虚拟目标对象的图像获取虚拟目标对象的第二表情系数,所述虚拟目标对象的图像通过真实目标对象的图像转换得到,且所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    29.所述第二表情系数用于确定所述第一表情系数;所述第一表情系数用于驱动虚拟形象的表情。
    30.根据本说明书实施例的第五方面,提供一种确定表情系数的装置,包括:
    31.获取模块:用于获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    32.预测模块:用于将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    33.确定模块:用于基于所述第二表情系数确定所述第一表情系数。
    34.根据本说明书实施例的第六方面,提供一种确定表情系数的设备,包括摄像头;处理器;用于存储处理器可执行指令的存储器,该处理器被配置为实现上述任一实施例所述的方法。
    35.本说明书实施例通过获取与真实目标对象的图像对应的虚拟目标对象的图像,基于真实目标对象与虚拟目标对象的表情系数相对应的性质,通过利用表情系数预测模型确定虚拟目标对象的图像中虚拟目标对象的表情系数,从而确定真实目标对象的表情系数;由于虚拟对象表情预测模型只需利用预先生成的样本表情系数以及基于所述样本表情系
    数对虚拟对象的表情进行驱动以生成的包括所述虚拟对象的样本图像训练得到,因此可以看出,通过本技术的方法,不需要高成本的采集大量的真实样本图像,也不需要高算力的算法,即可确定真实目标对象的表情系数。
    36.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。
    附图说明
    37.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。
    38.图1是一示例性实施例提供的现有技术中利用模型x确定目标图像的表情系数的流程图。
    39.图2是一示例性实施例提供的现有技术中训练模型x的流程图。
    40.图3是一示例性实施例提供的一种确定表情系数的方法流程图。
    41.图4是一示例性实施例提供的虚拟目标对象的示意性图像。
    42.图5是一示例性实施例提供的通过转换模型将真实对象的图像转换成虚拟对象的图像的流程图。
    43.图6是一示例性实施例提供的转换模型进行风格转换前后的的效果示意图。
    44.图7是一示例性实施例提供的训练转换模型的流程图。
    45.图8是一示例性实施例提供的一种确定240维表情系数的方法流程图。
    46.图9是一示例性实施例提供的一种虚拟形象直播的系统交互图。
    47.图10是一示例性实施例提供的另一种虚拟形象直播的系统交互图。
    48.图11是一示例性实施例提供的一种训练表情系数预测模型的方法流程图。
    49.图12是一示例性实施例提供的一种确定表情系数的装置的结构示意图。
    50.图13是一示例性实施例提供的一种确定表情系数的设备的结构示意图。
    具体实施方式
    51.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。
    52.在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
    53.应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
    ……
    时”或“当
    ……
    时”或“响应于确定”。
    54.在计算机视觉领域中,表情系数(表情blendshape系数)可以用于表征面部表情,例如用一组表情系数表征一张脸某种程度的微笑表情、生气表情、哭泣表情、惊讶表情等等,其中,该脸可以是真实人脸、真实动物脸,也可以是虚拟模型的脸等等。表情系数的维度决定表情的精度和丰富度。例如,利用52维表情系数驱动的虚拟人脸,与利用240维表情系数驱动的虚拟人脸相比,后者表情精度更高,表情丰富度更高。当然,不局限于52维表情系数或240维表情系数,具体表情系数的维度值可以根据实际需要而定。
    55.目前普通的消费级虚拟形象表情驱动一般用到52维表情系数,能表达的表情精度有限。想要驱动高精度虚拟形象,一般用到上百维表情系数,例如目前常用的利用240维表情系数驱动高精度虚拟形象,能够捕捉到人脸的微表情,使得虚拟形象更加生动逼真。
    56.为了驱动虚拟形象,例如虚拟人脸、虚拟动物脸等等,通常先利用预先训练的确定图像中面部表情系数的模型确定表情系数,再根据所确定的表情系数驱动虚拟形象。确定表情系数的方式如图1所示,将包括目标对象的目标图像输入预先训练好的表情系数预测模型(以下记为模型x)中,模型x即可输出目标图像中目标对象的表情系数。
    57.目前模型x的训练过程参见图2,先采集一定数量的真实的样本图像,利用表情解算算法计算出各样本图像的表情系数,再将样本图像和样本图像的表情系数作为样本训练模型x。在此过程中,往往需要采集大量的样本图像,例如不少于3万张样本图像,采集样本图像的时间长、成本高;而且表情解算算法的计算量也非常大。
    58.特别是针对于利用高维表情系数驱动高精度虚拟形象时,例如利用240维表情系数驱动高精度虚拟形象时,采集大量高精度的样本图像的采集成本以及采集时长更高,表情解算算法的计算量也更大。
    59.因此,为了降低确定目标图像的表情系数的成本,本技术提供一种确定目标图像表情系数的方法,利用预先生成的样本表情系数生成虚拟对象的图像,以样本表情系数和虚拟对象的图像作为样本来训练表情系数预测模型,降低了训练过程中的样本采集成本,同时,降低了表情解算复杂度,提高了表情解算效率,从而提高了训练和预测效率。
    60.接下来对本说明书实施例进行详细说明。
    61.如图3所示,图3是本说明书实施例提供的一种特效渲染的流程图,包括以下步骤:
    62.s302,获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    63.s304,将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    64.s306,基于所述第二表情系数确定所述第一表情系数。
    65.在本说明书实施例中,真实对象可以是真实拍摄到的对象(例如人脸、动物脸)等等;真实目标对象可以是需要确定第一表情系数的真实对象。虚拟对象可以是非真实拍摄到的对象(例如虚拟的数字人脸、虚拟的动物脸);虚拟目标对象可以是根据真实目标对象转换得到的虚拟对象。
    66.在s302中,获取基于真实目标对象的图像转换得到的虚拟目标对象的图像,其中,
    真实目标对象的图像可以是实时拍摄到的包含真实目标对象的图像,也可以是存储设备中存储的包含真实目标对象的图像;其中,真实目标对象可以是真实人脸、真实动物的脸等带有表情的真实脸,该表情可以用表情系数进行表征;相应的,虚拟目标对象可以是虚拟人脸、虚拟动物的脸等带有表情的虚拟脸,该表情也可以用表情系数进行表征。图像可以是分别采集的一张或多张图像,也可以是采集的视频中的一帧或多帧视频帧。
    67.以直播场景为例,真实目标对象的图像可以是主播客户端侧摄像头拍摄到的包含主播的脸的图像,主播的脸则为真实目标对象。
    68.在获取到真实目标对象的图像后,可以基于真实目标对象的图像转换得到虚拟目标对象的图像。例如将真实人脸的图像转换成虚拟人脸的图像,还可以是将真实人脸的图像转换成虚拟猫脸的图像等等。
    69.可以是根据一定的规则将真实目标对象的图像转换成虚拟目标对象的图像,因此,转换前后真实目标对象的表情和虚拟目标对象的表情之间是具有一定关联的,即,真实目标对象的表情系数(第一表情系数)和虚拟目标对象的表情系数(第二表情系数)是相对应的。例如,二者相同,或者二者之间具有一定的转换关系。下面以相同的情况为例进行说明。
    70.在一些实施例中,可以对真实目标对象的图像进行风格转换,例如将真实目标对象的图像转换成虚拟现实的风格,或者转换成动漫风格等等。转换后,能够将真实目标对象转换成虚拟目标对象,例如将真实人脸转换成数字人脸。一张包含虚拟人脸(数字人脸)的图像如图4所示。
    71.通过风格转换技术得到的虚拟目标对象的表情和转换前的真实目标对象的表情可以是一致的,在此情况下,目标对象的第一表情系数和虚拟目标对象的第二表情系数是相同的。
    72.在一些实施例中,通过风格转换技术转换真实目标对象的图像可以由多个转换模型协作完成,也可以由单个转换模型完成。在本说明书实施例中,为了降低模型成本的支出与风格转换的复杂程度,通过一个转换模型即可对所述真实目标对象的图像进行风格转换。该转换模型的功能示意图参见图5,将一张真实对象的图像输入转换模型中,转换模型即可输出一张与真实对象的图像相对应的虚拟对象的图像。该转换模型的效果图可以参见图6,图6中(6-1)为一张真实人脸图像(已打马赛克),图6中(6-2)即为转换模型将(6-1)中真实人脸图像进行风格转换后的包含数字人脸的图像。风格转换前后,真实人脸与数字人脸的表情是一致的。
    73.在一些实施例中,可以根据实际需要选择各种类型的转换模型。为了获得将真实对象的图像转换成虚拟对象的图像的效果,且能够低成本获取训练转换模型的样本,在本说明书实施例中,通过循环生成网络cyclegan中的生成器来实现转换的功能。其中,cyclegan的结构和训练方式参见图7。
    74.cyclegan包括生成器(即转换模型),用于将真实对象的图像转换成虚拟对象的图像;反向生成器(即反向转换模型),用于将生成器生成的虚拟对象的图像转换成真实对象的图像;以及判别器,用于判别反向生成器生成的图像是否为生成的图像。
    75.训练时,可以将真实样本对象的第一样本图像输入至转换模型中,其中,真实样本对象可以是样本人脸等等;通过转换模型对真实样本对象的第一样本图像进行风格转换,
    得到虚拟样本对象的样本图像,其中,虚拟样本对象可以是虚拟样本人脸等等。由于虚拟样本对象的样本图像是由真实样本对象的第一样本图像风格转换而来,因此虚拟样本对象和真实样本对象的表情是相对应的,因此真实样本对象的表情系数与虚拟样本对象的虚拟表情系数是相对应的。再将虚拟样本对象的样本图像输入具有与转换模型参数相对应的参数的反向转换模型中,利用反向转换模型将虚拟样本对象的样本图像转换成真实样本对象的第二样本图像。再将第二样本图像输入至判别器中,其中判别器用于判别第二样本图像是生成的图像还是真实样本对象的图像。进而基于判别器的判别结果对转换模型进行训练。可以采用l1损失函数作为损失函数进行训练,优化函数使用adam。在一些具体的实施例中,还可以对转换模型进行多代训练,以使转换模型能够达到更好的转换效果。
    76.在s304中,将虚拟目标对象的图像输入表情系数预测模型,以使表情系数预测模型预测并输出虚拟目标对象的第二表情系数。在本说明书实施例中,可以采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练表情系数预测模型,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;(即基于样本表情系数生成样本图像)因此表情系数预测模型可以预测虚拟对象的表情系数的模型。
    77.在一些实施例中,可以是预先随机生成大量样本表情系数,例如生成大量52维表情系数或240维表情系数等;基于样本表情系数生成样本图像,例如生成虚拟人脸的图像。将样本表情系数与样本图像作为表情系数预测模型的输入,以训练表情系数预测模型。
    78.在一些实施例中,可以预先生成样本表情系数,利用其中一部分样本表情系数生成虚拟动物脸的图像,利用其中另一部分样本表情系数生成虚拟人脸的图像,结合虚拟人脸的图像、虚拟动物脸的图像以及样本表情系数训练表情系数预测模型,即可使表情系数预测模型既可以预测虚拟动物脸的表情系数,也可以预测虚拟人脸的表情系数。
    79.在一些实施例中,可以利用渲染引擎(例如unreal engine虚幻引擎)获取样本图像。具体来说,可以将样本表情系数输入渲染引擎,渲染引擎可以基于样本表情系数驱动虚拟形象的表情,再生成包含该虚拟形象,且与样本表情系数相对应的样本图像。其中,该虚拟形象可以是渲染引擎中预存的虚拟形象,例如渲染引擎中预存的一张数字人脸。
    80.例如输入一组240维表情系数至渲染引擎中,该组240维表情系数对应于表情n,则渲染引擎会基于该组240维表情系数驱动预存在渲染引擎中的数字人脸的表情n,再生成包含数字人脸的样本图像。
    81.在一些实施例中,可以利用样本图像和样本表情系数,将样本表情系数作为样本图像的标签,将带标签的样本图像输入一个系数回归网络(即表情系数预测模型)中以训练该系数回归网络。在一些实施例中,由于获取的样本图像中每张图像的尺寸可能不同,而系数回归网络的输入层中输入端数量则是固定的,因此还可以将样本图像的像素尺寸调整至224*224(像素),将调整后的图像作为输入系数回归网络的图像,以提高系数回归网络提取图像特征的效率。在一些实施例中,采用shufflenet(高效轻量化网络)作为主干网络,l1损失函数作为损失函数,使用adam优化函数来优化网络。
    82.当然,上述主干网络、损失函数以及优化网络的选择只是示例性的,并不作为本说明书实施例的限定。本领域技术人员还可以选择其它主干网络、损失函数以及优化网络以实现上述系数回归网络的训练。
    83.在s306中,基于所述第二表情系数确定所述第一表情系数。即,基于虚拟目标对象
    的表情系数确定真实目标对象的表情系数。由于虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所以真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数是相对应的,可以根据对应关系基于虚拟目标对象的第二表情系数确定真实目标对象的第一表情系数。
    84.在一些实施例中,在第一表情系数与第二表情系数相同时,可以将第二表情系数直接确定为第一表情系数;在第二表情系数与第一表情系数之间存在转换关系时,可以基于转换关系将第二表情系数转换为第一表情系数。
    85.在一些实施例中,确定出真实目标对象的第一表情系数之后,可以基于第一表情系数驱动虚拟形象的表情。例如,可以基于第一表情系数驱动虚拟人脸、虚拟动物脸的表情等等,以丰富对真实目标对象的图像的利用方式。
    86.例如在直播中,主播客户端采集到包含主播人脸的图像,在确定出主播人脸的第一表情系数之后,基于第一标签系数驱动一张猫脸的表情,并使主播客户端和观众客户端显示该猫脸以替代主播的脸,从而使主播能够进行虚拟直播。
    87.以上实施例均为本说明书实施例的举例说明。本技术通过获取与真实目标对象的图像对应的虚拟目标对象的图像,基于真实目标对象与虚拟目标对象的表情系数相对应的性质,通过利用表情系数预测模型确定虚拟目标对象的图像中虚拟目标对象的表情系数,从而确定真实目标对象的表情系数;由于虚拟对象表情预测模型只需利用预先生成的样本表情系数及基于样本表情系数生成的虚拟对象的图像作为样本训练得到,因此可以看出,通过本技术的方法,不需要高成本的采集大量的真实样本图像,也不需要高算力的算法,即可确定真实目标对象的表情系数。
    88.图8是本说明书实施例提供的一种确定表情系数的总体方法流程图。在图中所示的实施例中,假设面部表情基于240维表情系数进行驱动。
    89.首先,预先训练表情系数预测模型:随机生成240维样本表情系数,将样本表情系数输入用于基于表情系数生成渲染图像的渲染引擎中,以使渲染引擎根据样本表情系数生成样本图像,其中,生成的样本图像中包含虚拟对象。再将样本表情系数和样本图像作为训练样本,输入表情系数预测模型中以训练该表情系数预测模型,使得表情系数预测模型具备确定虚拟对象的图像中虚拟对象的表情系数的能力。
    90.进而可以通过以下方式确定真实目标对象的图像中真实目标对象的第一表情系数:获取真实目标对象的图像,例如获取真实人脸的图像;将真实目标对象的图像输入转换模型中,以供转换模型进行风格转换,将真实目标对象的图像转换成虚拟目标对象的图像,例如将真实人脸的图像转换成虚拟人脸(数字人脸)的图像;转换模型输出虚拟目标对象的图像后,将虚拟目标对象的图像输入表情系数预测模型中,以供表情系数预测模型预测虚拟目标对象的第二表情系数;进而根据虚拟目标对象的第二表情系数确定真实目标对象的第一表现系数。
    91.由于转换模型是将真实目标对象的图像进行风格转换,转换前后,真实目标对象的表情与虚拟目标对象的表情是一致的,因此,真实目标对象的表情系数与虚拟目标对象的表情系数是相同的。因此,在该实施例中,可以将虚拟目标对象的第二表情系数作为真实目标对象的第一表情系数。
    92.在该实施例中,真实对象可以是真实拍摄到的人脸、动物脸等等;真实目标对象可
    以是需要确定第一表情系数的真实对象。虚拟对象可以是非真实拍摄到的虚拟人脸、虚拟动物脸等等;虚拟目标对象可以是根据真实目标对象转换而来的虚拟人脸、虚拟动物脸等等,对此本说明书实施例不做限定。
    93.通过该实施例的方式,只需要随机生成240维样本表情系数,利用渲染引擎根据样本表情系数生成样本图像,在利用样本表情系数和样本图像作为样本训练表情系数预测模型,以通过表情系数预测模型预测经转换模型对真实目标对象的图像进行风格转换得到的虚拟目标对象的图像中虚拟目标对象的第二表情系数,进而确定真实目标对象的第一表情系数。由此可见,本方案不需要高成本地采集具有240维表情系数的高精度样本图像以训练表情系数预测模型,也不需要高算力的算法计算真实目标对象的图像中真实目标对象的表情系数,降低了确定真实目标对象的表情系数的成本,节约计算资源。
    94.参见图9,本说明书实施例还提供一种虚拟形象直播的直播系统,该系统包括主播客户端、观众客户端和服务器:
    95.所述主播客户端用于:获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    96.将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    97.基于所述第二表情系数确定所述第一表情系数;
    98.基于所述第一表情系数驱动虚拟形象的表情;
    99.将所述虚拟形象发送至所述服务器;
    100.所述服务器用于:接收主播客户端发送的所述虚拟形象,将所述虚拟形象发送至所述观众客户端;
    101.所述观众客户端用于:接收并显示服务器发送的所述虚拟形象。
    102.根据s901,主播客户端获取真实目标对象的图像,可以是通过摄像头采集真实目标对象的图像,真实目标对象可以是真实的主播的脸等等。
    103.根据s902,主播客户端可以基于真是目标对象的图像,对真实目标对象的图像进行转换得到虚拟目标对象的图像;由于虚拟目标对象的图像是基于真实目标对象的图像转换而来,因此真实目标对象的第一表情系数与虚拟目标对象的第二表情系数是相对应的。
    104.根据s903,主播客户端将虚拟目标对象的图像输入表情系数预测模型中,获取表情系数预测模型输出的第二表情系数;其中,表情系数预测模型的训练过程包括:基于预先生成的样本表情系数驱动虚拟对象的表情,从而生成包含虚拟对象的样本图像,利用样本表情系数以及样本图像训练表情系数预测模型;因此,训练完成后的表情系数预测模型可以预测虚拟对象的表情系数。
    105.根据s904,由于真实目标对象的第一表情系数与虚拟目标对象的第二表情系数是相对应的,因此主播客户端可以基于第二表情系数确定第一表情系数。
    106.根据s905,主播客户端可以基于确定的第一表情系数驱动虚拟形象的表情,例如驱动一只猫的表情,一个虚拟人的表情等等。
    107.根据s906,主播客户端将虚拟形象发送至服务器,以使服务器执行s907,将虚拟形象发送至观众客户端;以使观众客户端在接收到虚拟形象后,执行s908,显示虚拟形象。
    108.参见图10,本说明书实施例还提供另一种虚拟形象直播的直播系统,该系统包括主播客户端、观众客户端和服务器:
    109.所述主播客户端用于:获取真实目标对象的图像,并将所述真实目标对象的图像发送至所述服务器;
    110.所述服务器用于:接收主播客户端发送的所述真实目标对象的图像,获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    111.将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    112.基于所述第二表情系数确定所述第一表情系数;
    113.基于所述第一表情系数驱动虚拟形象的表情;
    114.将所述虚拟形象发送至所述主播客户端和所述观众客户端;
    115.所述主播客户端还用于:接收并显示服务器发送的所述虚拟形象;
    116.所述观众客户端用于:接收并显示服务器发送的所述虚拟形象。
    117.根据s1001,主播客户端获取真实目标对象的图像,可以是主播客户端通过摄像头采集真实目标对象的图像,真实目标对象可以是主播的脸。
    118.根据s1002,主播客户端在获取到真实目标对象的图像后,将真实目标对象的图像发送至服务器。
    119.根据s1003,服务器在接收到真实目标对象的图像后,将帧数目标对象的图像转换成虚拟目标对象的图像,由于虚拟目标对象的图像是基于真实目标对象的图像转换而来,因此真实目标对象的第一表情系数与虚拟目标对象的第二表情系数是相对应的。
    120.根据s1004,服务器将虚拟目标对象的图像输入表情系数预测模型中,获取表情系数预测模型输出的第二表情系数;其中,表情系数预测模型的训练过程包括:基于预先生成的样本表情系数驱动虚拟对象的表情,从而生成包含虚拟对象的样本图像,利用样本表情系数以及样本图像训练表情系数预测模型;因此,训练完成后的表情系数预测模型可以预测虚拟对象的表情系数。
    121.根据s1005,由于真实目标对象的第一表情系数与虚拟目标对象的第二表情系数是相对应的,因此服务器可以基于第二表情系数确定第一表情系数。
    122.根据s1006,服务器可以基于确定的第一表情系数驱动虚拟形象的表情,例如驱动一只猫的表情,一个虚拟人的表情等等。
    123.根据s1007,服务器将虚拟形象发送至主播客户端和观众客户端,使主播客户端接收到虚拟形象后,执行s1008,显示虚拟形象;以及使观众客户端接收到虚拟形象后,执行s1009,显示虚拟形象。
    124.参见图11,本说明书实施例还提供一种模型训练的方法,包括以下步骤:
    125.s1102,基于预先生成的样本表情系数对虚拟对象的表情进行驱动,生成包括所述虚拟对象的样本图像;
    126.可以是基于随机生成的样本表情系数,利用渲染引擎驱动虚拟对象的表情,生成包括虚拟对象的样本图像。
    127.s1104,基于所述样本图像与所述样本表情系数对所述表情系数预测模型进行训练;
    128.表情系数预测模型用于基于虚拟目标对象的图像获取虚拟目标对象的第二表情系数,所述虚拟目标对象的图像通过真实目标对象的图像转换得到,且所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    129.所述第二表情系数用于确定所述第一表情系数;所述第一表情系数用于驱动虚拟形象的表情。
    130.通过包括虚拟对象的样本图像与虚拟对象对应的样本表情系数训练表情系数预测模型,即可使表情系数预测模型可以预测虚拟对象的表情系数;再由于可将真实目标对象的图像转换成虚拟目标对象的图像,即可利用表情系数预测模型确定虚拟目标对象的第二表情系数,进而基于第二表情系数确定真实目标对象的第一表情系数。
    131.参见图12,本说明书实施例还提供一种确定表情系数的装置,包括:
    132.获取模块1201:用于获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;
    133.预测模块1202:用于将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;
    134.确定模块1203:用于基于所述第二表情系数确定所述第一表情系数。
    135.对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
    136.本说明书确定表情系数的装置的实施例可以应用在计算机设备上。在一些实施例中,计算机设备上还包括摄像头;其中,摄像头用于获取真是目标对象的图像。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图13所示,为本说明书实施例确定表情系数的装置所在计算机设备的一种硬件结构图,除了图13所示的处理器1310、内存1330、网络接口1320、以及非易失性存储器1340之外,实施例中装置1331所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。
    137.上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺
    序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
    138.本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。
    139.应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。
    140.以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

    技术特征:
    1.一种确定表情系数的方法,其特征在于,所述方法包括:获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;基于所述第二表情系数确定所述第一表情系数。2.根据权利要求1所述方法,其特征在于,所述获取所述虚拟目标对象的图像,包括:对所述真实目标对象的图像进行风格转换,得到所述虚拟目标对象的图像。3.根据权利要求2所述方法,其特征在于,所述对所述真实目标对象进行风格转换,包括:通过转换模型对所述真实目标对象的图像进行风格转换。4.根据权利要求3所述方法,其特征在于,所述转换模型通过以下方式训练得到:通过转换模型对真实样本对象的第一样本图像进行风格转换,得到虚拟样本对象的样本图像;将虚拟样本对象的样本图像输入反向转换模型,得到真实样本对象的第二样本图像;将所述第二样本图像输入判别器,判别器用于判别所述第二样本图像是生成的图像还是真实样本对象的图像,基于判别器的判别结果对所述转换模型进行训练。5.根据权利要求1所述方法,其特征在于,所述第一表情系数用于驱动虚拟形象的表情。6.根据权利要求1所述方法,其特征在于,所述样本图像基于以下方式得到:将所述样本表情系数输入渲染引擎,在渲染引擎中,基于所述样本表情系数对虚拟对象的表情进行驱动,以生成包括所述虚拟对象的样本图像。7.一种虚拟形象直播的直播系统,其特征在于,包括主播客户端、观众客户端和服务器:所述主播客户端用于:获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;基于所述第二表情系数确定所述第一表情系数;基于所述第一表情系数驱动虚拟形象的表情;将所述虚拟形象发送至所述服务器;所述服务器用于:接收主播客户端发送的所述虚拟形象,将所述虚拟形象发送至所述观众客户端;所述观众客户端用于:接收并显示服务器发送的所述虚拟形象。8.一种虚拟形象直播的直播系统,其特征在于,包括主播客户端、观众客户端和服务器:
    所述主播客户端用于:获取真实目标对象的图像,并将所述真实目标对象的图像发送至所述服务器;所述服务器用于:接收主播客户端发送的所述真实目标对象的图像,获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;基于所述第二表情系数确定所述第一表情系数;基于所述第一表情系数驱动虚拟形象的表情;将所述虚拟形象发送至所述主播客户端和所述观众客户端;所述主播客户端还用于:接收并显示服务器发送的所述虚拟形象;所述观众客户端用于:接收并显示服务器发送的所述虚拟形象。9.一种模型训练的方法,其特征在于,所述方法包括:基于预先生成的样本表情系数对虚拟对象的表情进行驱动,生成包括所述虚拟对象的样本图像;基于所述样本图像与所述样本表情系数对所述表情系数预测模型进行训练;表情系数预测模型用于基于虚拟目标对象的图像获取虚拟目标对象的第二表情系数,所述虚拟目标对象的图像通过真实目标对象的图像转换得到,且所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;所述第二表情系数用于确定所述第一表情系数;所述第一表情系数用于驱动虚拟形象的表情。10.一种确定表情系数的装置,其特征在于,所述装置包括:获取模块:用于获取虚拟目标对象的图像,所述虚拟目标对象的图像是基于真实目标对象的图像转换得到的,所述真实目标对象的第一表情系数与所述虚拟目标对象的第二表情系数相对应;预测模块:用于将虚拟目标对象的图像输入表情系数预测模型,获取所述表情系数预测模型输出的第二表情系数;其中,所述表情系数预测模型采用预先生成的样本表情系数以及包括虚拟对象的样本图像训练得到,所述虚拟对象的表情是基于所述样本表情系数驱动得到的;确定模块:用于基于所述第二表情系数确定所述第一表情系数。11.一种确定表情系数的设备,包括摄像头、存储器处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至6任一项所述的方法。

    技术总结
    本说明书提供一种确定表情系数及模型训练的方法、装置及设备及直播系统,本说明书实施例通过获取与真实目标对象的图像对应的虚拟目标对象的图像,基于真实目标对象与虚拟目标对象的表情系数相对应的性质,通过利用表情系数预测模型确定虚拟目标对象的图像中虚拟目标对象的表情系数,从而确定真实目标对象的表情系数;由于虚拟对象表情预测模型只需利用预先生成的样本表情系数以及基于所述样本表情系数对虚拟对象的表情进行驱动以生成的包括所述虚拟对象的样本图像训练得到,因此可以看出,通过本申请的方法,不需要高成本的采集大量的真实样本图像,也不需要高算力的算法,即可确定真实目标对象的表情系数。即可确定真实目标对象的表情系数。即可确定真实目标对象的表情系数。


    技术研发人员:卫华威 韩欣彤
    受保护的技术使用者:佛山虎牙虎信科技有限公司
    技术研发日:2022.02.21
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-5285.html

    最新回复(0)