虚拟人物模型控制方法、装置及电子设备与流程

    专利查询2023-09-18  103



    1.本技术涉及图像处理技术领域,具体而言,涉及一种虚拟人物模型控制方法、装置及电子设备。


    背景技术:

    2.在一些图像处理场景中,可以对人物的二维视频图像进行关键点识别和预测,从而获得人物的肢体关键点的三维位姿数据(如空间位置坐标和姿态角)进行建模或模型控制。例如,在一些直播场景中,可以对从主播终端获取到的二维直播视频图像进行人体肢体关键点位置识别,然后根据肢体关键点在二维图像中的坐标位置数据进行三维位姿数据预测,获得肢体关键点的三维位姿数据,最后根据三维位姿数据驱动对应的虚拟人物模型模仿主播的动作。其中,根据关键点二维坐标数据预测获得三维位姿数据的动作通常是由机器学习模型执行的,但是由于机器学习模型的训练样本数量或者训练样本数据多样性的限制,可能导致在预测结果中相对独立的肢体对应的三维位姿数据耦合性过高,使得后续建模或模型控制过程产生错误的肢体联动,影响建模或模型控制效果。


    技术实现要素:

    3.为了克服现有技术中的上述不足,本技术的目的在于提供一种虚拟人物模型控制方法,所述方法包括:
    4.从二维图像中获取目标人物的关键点二维坐标数据;
    5.针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集;
    6.将所述至少两组第一关键点数据集分别输入至少两个不同的第一预测模型进行处理,获得分别与所述至少两个肢体部分对应的第一关键点三维位姿数据;
    7.根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。
    8.在一种可能的实现方式中,所述针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集的步骤,包括:
    9.针对所述至少两个肢体部分的每个肢体部分,从所述关键点二维坐标数据中提取包括与该肢体部分对应的关键点二维坐标数据及与躯干部分对应的关键点二维坐标数据作为该肢体部分的第一关键点数据集。
    10.在一种可能的实现方式中,所述第一关键点三维位姿数据包括对应的肢体部分中预设关节点的空间位置数据及姿态角度数据。
    11.在一种可能的实现方式中,所述方法还包括:
    12.将目标人物的关键点二维坐标数据整体作为第二关键点数据集;
    13.将所述第二关键点数据集输入第二预测模型进行处理,获得整体三维位姿数据,其中,所述整体三维位姿数据包括与所述至少两个肢体部分对应的第三关键点三维位姿数
    据及与躯干部分对应的第二关键点三维位姿数据;
    14.所述根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作的步骤,包括:
    15.使用所述第一关键点三维位姿数据替换所述整体三维位姿数据中的第三关键点三维位姿数据,并使用替换处理后的整体三维位姿数据控制所述虚拟人物模型执行相应的动作。
    16.在一种可能的实现方式中,所述至少两个肢体部分包括左臂和右臂,所述至少两个不同的第一预测模型包括左臂预测模型和右臂预测模型;
    17.所述左臂预测模型包括依次连接的左臂第一全连接网络、左臂第二全连接网络和左臂第三全连接网络;所述左臂第一全连接网络的输入为44维的左臂的所述第一关键点数据集,所述左臂第一全连接网络的输出为512维的数据;所述左臂第二全连接网络的输入为所述左臂第一全连接网络输出的512维的数据,所述左臂第二全连接网络的输出为512维的数据;所述左臂第三全连接网络的输入为所述左臂第二全连接网络输出的512维的数据,所述左臂第三全连接网络的输出为12维的左臂的所述第一关键点三维位姿数据;
    18.所述右臂预测模型包括依次连接的右臂第一全连接网络、右臂第二全连接网络和右臂第三全连接网络;所述右臂第一全连接网络的输入为44维的右臂的所述第一关键点数据集,所述右臂第一全连接网络的输出为512维的数据;所述右臂第二全连接网络的输入为所述右臂第一全连接网络输出的512维的数据,所述右臂第二全连接网络的输出为512维的数据;所述右臂第三全连接网络的输入为所述右臂第二全连接网络输出的512维的数据,所述右臂第三全连接网络的输出为12维的右臂的所述第一关键点三维位姿数据;
    19.所述第二预测模型包括依次连接的躯干第一全连接网络、躯干第二全连接网络和躯干第三全连接网络;所述躯干第一全连接网络的输入为48维的所述第二关键点三维位姿数据,所述躯干第一全连接网络的输出为512维的数据;所述躯干第二全连接网络的输入为所述躯干第一全连接网络输出的512维的数据,所述躯干第二全连接网络的输出为512维的数据;所述躯干第三全连接网络的输入为所述躯干第二全连接网络输出的512维的数据,所述躯干第三全连接网络的输出为144维的所述整体三维位姿数据。
    20.在一种可能的实现方式中,所述方法还包括:
    21.从所述关键点二维坐标数据中提取包括躯干部分关键点的第二关键点数据集;
    22.将所述第二关键点数据集输入第二预测模型进行处理,获得第二关键点三维位姿数据;
    23.所述根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作的步骤,包括:
    24.使用所述第一关键点三维位姿数据和所述第二关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。
    25.在一种可能的实现方式中,所述从二维图像中获取目标人物的关键点二维坐标数据的步骤,包括:
    26.从主播用户的第一直播视频图像中获取主播用户的关键点二维坐标数据;所述第一直播视频图像为所述二维图像;
    27.所述根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行
    相应的动作的步骤,包括:
    28.根据获得的各组所述第一关键点三维位姿数据,控制与所述主播用户对应的虚拟人物模型执行相应的动作,使所述虚拟人物模型执行与所述主播用户相似的动作。
    29.本技术的另一目的在于提供一种虚拟人物模型控制装置,所述装置包括:
    30.获取模块,用于从二维图像中获取目标人物的关键点二维坐标数据;
    31.提取模块,用于针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集;
    32.预测模块,用于将所述至少两组第一关键点数据集分别输入至少两个不同的第一预测模型进行处理,获得分别与所述至少两个肢体部分对应的第一关键点三维位姿数据;
    33.模型控制模块,用于根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。
    34.本技术的另一目的在于提供一种电子设备,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本技术提供的虚拟人物模型控制方法。
    35.本技术的另一目的在于提供一种机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现本技术提供的虚拟人物模型控制方法。
    36.相对于现有技术而言,本技术具有以下有益效果:
    37.本技术实施例提供的虚拟人物模型控制方法、装置及电子设备,通过针对不同肢体部分提取不同的第一关键点数据集,并使用不同的第一预测模型进行处理以获得与不同肢体部分对应的第一关键点三维位姿数据,然后综合各组第一关键点三维位姿数据一起控制同一虚拟人物模型执行相应的动作。如此,在预测模型的训练样本较少的情况下也可以实现不同肢体对应的第一关键点三维位姿数据之间的解耦合,从而在使用各组第一关键点三维位姿数据一起控制同一虚拟人物模型时避免虚拟人物模型出现错误的肢体联动。
    附图说明
    38.为了更清楚地说明本技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
    39.图1为本技术实施例提供的虚拟人物模型控制方法的步骤流程示意图。
    40.图2为本技术实施例提供的直播系统的示意图。
    41.图3为本技术实施例提供的电子设备的示意图。
    42.图4为本技术实施例提供的虚拟人物模型控制装置的功能模块示意图。
    具体实施方式
    43.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施
    例的组件可以以各种不同的配置来布置和设计。
    44.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
    45.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
    46.在本技术的描述中,需要说明的是,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
    47.在本技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本技术中的具体含义。
    48.经发明人研究发现,在根据人物的二维视频图像预测获得人物肢体关键点三维位姿数据的过程通常由训练好机器学习模型执行。在机器学习模型的训练过程中,通常先由穿戴有三维位姿传感器的人员执行各种动作,通过三维位姿传感器采集到的肢体关键点三维位姿数据,并通过二维图像采集设备(如摄像机)采集二维图像获得在二维图像上的肢体关键点二维坐标。然后将各肢体关键点的二维坐标和三维位姿数据作为训练样本,训练机器学习模型根据肢体关键点的二维坐标对肢体关键点的三维位姿数据进行预测。
    49.上述方法中,由于训练样本数量或者训练样本数据多样性的显示,在训练样本中可能存在大量的不同肢体同时动作的场景,但少有出现某个肢体单独活动的场景。例如,训练样本中可能存在大量左手和右手一起活动的场景,少有出现仅活动一只手的场景。这就会导致训练出的机器学习模型输出的三维位姿数据预测结果总是偏向于不同肢体一起活动,存在不同肢体的三维位姿数据过渡耦合的问题,进而导致后续的模型重建或者模型控制中出现错误的肢体联动。例如,实际二维图像中仅存在左手动作,但机器学习模型的预测结果为左手动作且右手也随之存在轻微动作。
    50.有鉴于对上述问题的发现和研究,本实施例提供一种可以减少虚拟人物模型产生错误肢体联动的方案,下面对本实施例提供的方案进行详细阐述。
    51.请参见图1,图1为本实施例提供的一种虚拟人物模型控制方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
    52.步骤s110,从二维图像中获取目标人物的关键点二维坐标数据。
    53.在本实施例中,所述肢体关键点可以对应于目标人物各个肢体关节,例如,肩部、手肘、手腕等。在一种可能的实现方式中,可以通过预先训练的关键点识别模型对包含所述目标人物的二维图像(如通过摄像头采集的二维视频图像)进行图像识别,从而确定所述目标人物各个肢体关键在所述二位图像中的位置,进而获得所述目标人物的关键点二维坐标数据。
    54.步骤s120,针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集。
    55.在本实施例中,可以根据对二维图像的人体关键点识别结果,针对能够独立活动的至少两个人体肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集。例如,左臂(包括左肩、左上臂、左下臂、左手)和右臂(包括右肩、右上臂、右下臂、右手)是可以相对独立活动的两个肢体,则在本实施例中可以从所述关键点二维坐标数据中至少提取一组与左臂对应的第一关键点数据集和一组与右臂对应的第一关键点数据集。所述第一关键点数据集中可以包括对应肢体部分的关键关节的关键点二维坐标数据,例如,左臂的第一关键点数据集至少包括左肘、左腕的关键点二维坐标数据,右臂的第一关键点数据集至少包括右肘、右腕的关键点二维坐标数据。
    56.可选地,在本实施例中,每个所述第一关键点数据集可以对应不同肢体部分,例如,左臂对应的第一关键点数据集中可以不包括右臂对应的各关键点的坐标数据,右臂对应的第一关键点数据集中,可以不包括左臂对应的各关键点的坐标数据。
    57.步骤s130,将所述至少两组第一关键点数据集分别输入至少两个不同的第一预测模型进行处理,获得分别与所述至少两个肢体部分对应的第一关键点三维位姿数据。
    58.在本实施例中,所述至少两个不同的第一预测模型为可以为不共享网络参数的机器学习模型。可以理解的是,在一些情况下,所述至少两个不同的第一预测模型可以具有相同模型网络结构,但根据训练样本不同,其可以具有不同的模型参数。
    59.在本实施例中,可以将不同肢体部分对应的第一关键点数据集输入至不同的第一预测模型进行相对独立的预测,因此预测得出的各组第一关键点三维位姿数据解耦合的。例如,左臂和右臂的第一关键点数据集分别输入了不同的第一预测模型进行预测,因此右臂对应的关键点二维坐标数据不会影响左臂对应的第一关键点三维位姿数据,左臂对应的关键点二维坐标数据不会影响右臂对应的第一关键点三维位姿数据,从而实现了左臂和右臂之间第一关键点三维位姿数据的解耦合。
    60.其中,所述第一关键点三维位姿数据可以包括对应的肢体部分中预设关节点的空间位置数据及姿态角度数据。所述空间位置数据可以为关节点对应的三维空间位置坐标,所述姿态角度数据可以关节点相较于初始姿态在三维空间三个方向上的转动变化角度表示。
    61.步骤s140,根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。
    62.在本实施例中,可以根据各组所述第一关键点三维位姿数据分别控制所述虚拟人物模型对应的肢体部分。由于各组所述第一关键点三维位姿数据是解耦合的,从而在使用各组第一关键点三维位姿数据一起控制同一虚拟人物模型时避免虚拟人物模型出现错误的肢体联动。
    63.在一种可能的实现方式中,步骤s120中可以针对所述至少两个肢体部分的每个肢体部分,从所述关键点二维坐标数据中提取包括与该肢体部分对应的关键点二维坐标数据及与躯干部分对应的关键点二维坐标数据作为该肢体部分的第一关键点数据集。
    64.例如,由于左臂与躯干相连,具有较强关联的联动关系,因此在本实施例中,获取左臂对应的第一关键点数据集时,可以从所述关键点二维坐标数据中提取左臂各关键关节(如左肘、左腕等)对应的关键点二维坐标数据及与躯干部分对应的关键点二维坐标数据作为左臂的第一关键点数据集。如此,在后续针对左臂进行三维位姿数据预测时,根据左臂和
    躯干部分的关键点二维坐标数据一起进行预测,可以使预测结果更加准确。
    65.在控制所述虚拟人物模型进行活动时,除了需要肢体部分的三维位姿数据,可能还需要躯干部分的三维位姿数据。因此,在一种可能的实现方式中,所述方法还可以包括以下步骤。
    66.步骤s210,将目标人物的关键点二维坐标数据整体作为第二关键点数据集。
    67.步骤s220,将所述第二关键点数据集输入第二预测模型进行处理,获得整体三维位姿数据,其中,所述整体三维位姿数据包括与所述至少两个肢体部分对应的第三关键点三维位姿数据及与躯干部分对应的第二关键点三维位姿数据。
    68.在本实施例中,由于所有肢体均与躯干连接,因此在该实现方式中,为了准确对躯干部分的三维位姿数据进行预测,可以将目标人物的关键点二维坐标数据整体作为第二关键点数据集输入至所述第二预测模型进行处理。其中,所述第二预测模型输出的数据可以包括与所述至少两个肢体部分对应的第三关键点三维位姿数据及与躯干部分对应的第二关键点三维位姿数据。其中,所述躯干部分可以包括人体上半身除左右臂以外部分,如身体、脖子、头部。
    69.可以理解的是,在本实施例中,由于训练样本数量或训练样本多样性的显示,各所述肢体部分对应所述第三关键点三维位姿数据可能存在过度耦合的情况。因此,在步骤s140中,可以使用所述第一关键点三维位姿数据替换所述整体三维位姿数据中的第三关键点三维位姿数据,并使用替换处理后的整体三维位姿数据控制所述虚拟人物模型执行相应的动作。如此,使用解耦合的预测结果(第一关键三维位姿数据)替代整体三维位姿数据中可能过度耦合的预测结果(第三关键三维位姿数据),再使用替换处理后的整体三维位姿数据控制所述虚拟人物模型执行相应的动作,可以避免虚拟人物模型出现肢体动作错误联动的情况。
    70.具体地,在本实施例中,以对目标人物的上半身进行三维位姿数据预测处理为例,所述至少两个肢体部分包括左臂和右臂,所述至少两个不同的第一预测模型包括左臂预测模型和右臂预测模型。
    71.在此情况下,所述左臂预测模型包括依次连接的左臂第一全连接网络、左臂第二全连接网络和左臂第三全连接网络。所述左臂第一全连接网络的输入为44维的左臂的所述第一关键点数据集,其中可以包括左臂和躯干的22个关节的二位坐标数据。所述左臂第一全连接网络的输出为512维的数据,所述左臂第二全连接网络的输入为所述左臂第一全连接网络输出的512维的数据,所述左臂第二全连接网络的输出为512维的数据。所述左臂第三全连接网络的输入为所述左臂第二全连接网络输出的512维的数据,所述左臂第三全连接网络的输出为12维的左臂的所述第一关键点三维位姿数据,其中可以包括左肘和左腕2个关节的6d位姿数据。
    72.所述右臂预测模型包括依次连接的右臂第一全连接网络、右臂第二全连接网络和右臂第三全连接网络。所述右臂第一全连接网络的输入为44维的右臂的所述第一关键点数据集,其中可以包括右臂和躯干的22个关节的二位坐标数据。所述右臂第一全连接网络的输出为512维的数据,所述右臂第二全连接网络的输入为所述右臂第一全连接网络输出的512维的数据,所述右臂第二全连接网络的输出为512维的数据。所述右臂第三全连接网络的输入为所述右臂第二全连接网络输出的512维的数据,所述右臂第三全连接网络的输出
    为12维的右臂的所述第一关键点三维位姿数据,其中可以包括右肘和右腕2个关节的6d位姿数据。
    73.所述第二预测模型包括依次连接的躯干第一全连接网络、躯干第二全连接网络和躯干第三全连接网络。所述躯干第一全连接网络的输入为48维的所述第二关键点三维位姿数据,其中可以包括左臂、右臂和躯干的24个关节的二位坐标数据。所述躯干第一全连接网络的输出为512维的数据,所述躯干第二全连接网络的输入为所述躯干第二全连接网络输出的512维的数据,所述躯干第二全连接网络的输出为512维的数据,所述躯干第三全连接网络的输入为所述躯干第二全连接网络输出的512维的数据,所述躯干第三全连接网络的输出为144维的所述整体三维位姿数据,其中可以包括左臂、右臂和躯干的24个关节的6d位姿数据。
    74.作为另一种可能的实现方式,所述方法还包括以下步骤。
    75.步骤s310,从所述关键点二维坐标数据中提取包括躯干部分关键点的第二关键点数据集。
    76.步骤s320,将所述第二关键点数据集输入第二预测模型进行处理,获得第二关键点三维位姿数据。
    77.并且在步骤s140中,可以使用所述第一关键点三维位姿数据和所述第二关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。
    78.其中,所述躯干部分可以包括人体上半身除左右臂以外的部分,如身体、脖子、头部。在该实现方式中,通过单独提取所述躯干部分对应的关键点二维坐标数据,并且使用单独的预测模型进行处理,从而预测得到的躯干部分也其他肢体部分的关键点三维位姿数据也是解耦的,进一步避免了后续在建模或控制模型时产生错误的肢体或身体联动。
    79.在本实施例中,上述方案可以应用于直播系统中的虚拟形象控制。其中,包含所述目标任务的二维图像可以为从直播终端获取的直播视频图像,所述虚拟人物模型可以为与主播对应的虚拟人物形象。
    80.具体地,在一种可能的实现方式中,请参照图2,图2为一种直播系统的示意图,该直播系统可以包括主播终端201、服务器202及观众终端203。
    81.主播用户可以通过所述主播终端201拍摄直播视频图像,该直播视频图像中可以包含主播用户的半身或全身图像。
    82.所述服务器202可以是一个独立的设备或者多个协同工作的设备组成的集群。所述服务器202可以从主播用户的直播视频图像中获取主播用户的关键点二维坐标数据,并根据所述关键点二维坐标数据预测获得各肢体部分对应的第一关键点三维位姿数据。再根据获得的各组所述第一关键点三维位姿数据,控制与所述主播用户对应的虚拟人物模型执行相应的动作,使所述虚拟人物模型执行与所述主播用户相似的动作。然后所述服务器202可以将包含所述虚拟形象的第二直播视频图像,并将所述第二直播视频图像发送给观众终端203或主播终端201进行显示。
    83.基于相同的发明构思,本实施例还提供一种电子设备,该电子设备可以具有一定的图像处理能力,例如,该电子设备可以为个人电脑或图2所示的服务器202。
    84.请参照图3,图3是所述电子设备100的方框示意图。所述电子设备100包括虚拟人物模型控制装置110、机器可读存储介质120、处理器130。
    85.所述机器可读存储介质120、处理器130以及通信单元140各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述虚拟人物模型控制装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述电子设备100的操作系统(operating system,os)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述虚拟人物模型控制装置110所包括的软件功能模块及计算机程序等。
    86.其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(random access memory,ram),只读存储器(read only memory,rom),可编程只读存储器(programmable read-only memory,prom),可擦除只读存储器(erasable programmable read-only memory,eprom),电可擦除只读存储器(electric erasable programmable read-only memory,eeprom)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
    87.所述处理器130可能是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等。还可以是数字信号处理器(dsp)、专用集成电路(asic)、现场可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
    88.请参照图4,本实施例还提供一种虚拟人物模型控制装置110,虚拟人物模型控制装置110包括至少一个可以软件形式存储于机器可读存储介质120中的功能模块。从功能上划分,虚拟人物模型控制装置110可以包括获取模块111、提取模块112、预测模块113及模型控制模块114。
    89.所述获取模块111用于从二维图像中获取目标人物的关键点二维坐标数据。
    90.本实施例中,所述获取模块111可用于执行图1所示的步骤s110,关于所述获取模块111的具体描述可参对所述步骤s110的描述。
    91.所述提取模块112用于针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集。
    92.本实施例中,所述提取模块112可用于执行图1所示的步骤s120,关于所述提取模块112的具体描述可参对所述步骤s120的描述。
    93.所述预测模块113用于将所述至少两组第一关键点数据集分别输入至少两个不同的第一预测模型进行处理,获得分别与所述至少两个肢体部分对应的第一关键点三维位姿数据。
    94.本实施例中,所述预测模块113可用于执行图1所示的步骤s130,关于所述预测模块113的具体描述可参对所述步骤s130的描述。
    95.所述模型控制模块114用于根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。
    96.本实施例中,所述模型控制模块114可用于执行图1所示的步骤s140,关于所述模型控制模块114的具体描述可参对所述步骤s140的描述。
    97.综上所述,本技术实施例提供的虚拟人物模型控制方法、装置及电子设备,通过针对不同肢体部分提取不同的第一关键点数据集,并使用不同的第一预测模型进行处理以获得与不同肢体部分对应的第一关键点三维位姿数据,然后综合各组第一关键点三维位姿数据一起控制同一虚拟人物模型执行相应的动作。如此,在预测模型的训练样本较少的情况下也可以实现不同肢体对应的第一关键点三维位姿数据之间的解耦合,从而在使用各组第一关键点三维位姿数据一起控制同一虚拟人物模型时避免虚拟人物模型出现错误的肢体联动。
    98.在本技术所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
    99.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
    100.所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
    101.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
    ……”
    限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
    102.以上所述,仅为本技术的各种实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应所述以权利要求的保护范围为准。

    技术特征:
    1.一种虚拟人物模型控制方法,其特征在于,所述方法包括:从二维图像中获取目标人物的关键点二维坐标数据;针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集;将所述至少两组第一关键点数据集分别输入至少两个不同的第一预测模型进行处理,获得分别与所述至少两个肢体部分对应的第一关键点三维位姿数据;根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。2.根据权利要求1所述的方法,其特征在于,所述针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集的步骤,包括:针对所述至少两个肢体部分的每个肢体部分,从所述关键点二维坐标数据中提取包括与该肢体部分对应的关键点二维坐标数据及与躯干部分对应的关键点二维坐标数据作为该肢体部分的第一关键点数据集。3.根据权利要求2所述的方法,其特征在于,所述第一关键点三维位姿数据包括对应的肢体部分中预设关节点的空间位置数据及姿态角度数据。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:将目标人物的关键点二维坐标数据整体作为第二关键点数据集;将所述第二关键点数据集输入第二预测模型进行处理,获得整体三维位姿数据;其中,所述整体三维位姿数据包括与所述至少两个肢体部分对应的第三关键点三维位姿数据及与躯干部分对应的第二关键点三维位姿数据;所述根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作的步骤,包括:使用所述第一关键点三维位姿数据替换所述整体三维位姿数据中的第三关键点三维位姿数据,并使用替换处理后的整体三维位姿数据控制所述虚拟人物模型执行相应的动作。5.根据权利要求4所述的方法,其特征在于,所述至少两个肢体部分包括左臂和右臂,所述至少两个不同的第一预测模型包括左臂预测模型和右臂预测模型;所述左臂预测模型包括依次连接的左臂第一全连接网络、左臂第二全连接网络和左臂第三全连接网络;所述左臂第一全连接网络的输入为44维的左臂的所述第一关键点数据集,所述左臂第一全连接网络的输出为512维的数据;所述左臂第二全连接网络的输入为所述左臂第一全连接网络输出的512维的数据,所述左臂第二全连接网络的输出为512维的数据;所述左臂第三全连接网络的输入为所述左臂第二全连接网络输出的512维的数据,所述左臂第三全连接网络的输出为12维的左臂的所述第一关键点三维位姿数据;所述右臂预测模型包括依次连接的右臂第一全连接网络、右臂第二全连接网络和右臂第三全连接网络;所述右臂第一全连接网络的输入为44维的右臂的所述第一关键点数据集,所述右臂第一全连接网络的输出为512维的数据;所述右臂第二全连接网络的输入为所述右臂第一全连接网络输出的512维的数据,所述右臂第二全连接网络的输出为512维的数据;所述右臂第三全连接网络的输入为所述右臂第二全连接网络输出的512维的数据,所述
    右臂第三全连接网络的输出为12维的右臂的所述第一关键点三维位姿数据;所述第二预测模型包括依次连接的躯干第一全连接网络、躯干第二全连接网络和躯干第三全连接网络;所述躯干第一全连接网络的输入为48维的所述第二关键点三维位姿数据,所述躯干第一全连接网络的输出为512维的数据;所述躯干第二全连接网络的输入为所述躯干第一全连接网络输出的512维的数据,所述躯干第二全连接网络的输出为512维的数据;所述躯干第三全连接网络的输入为所述躯干第二全连接网络输出的512维的数据,所述躯干第三全连接网络的输出为144维的所述整体三维位姿数据。6.根据权利要求2所述的方法,其特征在于,所述方法还包括:从所述关键点二维坐标数据中提取包括躯干部分关键点的第二关键点数据集;将所述第二关键点数据集输入第二预测模型进行处理,获得第二关键点三维位姿数据;所述根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作的步骤,包括:使用所述第一关键点三维位姿数据和所述第二关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。7.根据权利要求1所述的方法,其特征在于,所述从二维图像中获取目标人物的关键点二维坐标数据的步骤,包括:从主播用户的第一直播视频图像中获取主播用户的关键点二维坐标数据;所述第一直播视频图像为所述二维图像;所述根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作的步骤,包括:根据获得的各组所述第一关键点三维位姿数据,控制与所述主播用户对应的虚拟人物模型执行相应的动作,使所述虚拟人物模型执行与所述主播用户相似的动作。8.一种虚拟人物模型控制装置,其特征在于,所述装置包括:获取模块,用于从二维图像中获取目标人物的关键点二维坐标数据;提取模块,用于针对人体四肢中的至少两个肢体部分,分别从所述关键点二维坐标数据中提取对应的至少两组第一关键点数据集;预测模块,用于将所述至少两组第一关键点数据集分别输入至少两个不同的第一预测模型进行处理,获得分别与所述至少两个肢体部分对应的第一关键点三维位姿数据;模型控制模块,用于根据获得的各组所述第一关键点三维位姿数据控制同一虚拟人物模型执行相应的动作。9.一种电子设备,其特征在于,包括处理器及机器可读存储介质,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-7任意一项所述的方法。10.一种机器可读存储介质,其特征在于,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被一个或多个处理器执行时,实现权利要求1-7任意一项所述的方法。

    技术总结
    本申请实施例提供的虚拟人物模型控制方法、装置及电子设备,通过针对不同肢体部分提取不同的第一关键点数据集,并使用不同的第一预测模型进行处理以获得与不同肢体部分对应的第一关键点三维位姿数据,然后综合各组第一关键点三维位姿数据一起控制同一虚拟人物模型执行相应的动作。如此,在预测模型的训练样本较少的情况下也可以实现不同肢体对应的第一关键点三维位姿数据之间的解耦合,从而在使用各组第一关键点三维位姿数据一起控制同一虚拟人物模型时避免虚拟人物模型出现错误的肢体联动。肢体联动。肢体联动。


    技术研发人员:钱立辉 韩欣彤
    受保护的技术使用者:广州虎牙科技有限公司
    技术研发日:2022.02.11
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-18676.html

    最新回复(0)