基于姿态引导的人体图像生成方法

专利查询2022-07-07 319

1.本发明涉及条件图像生成的技术领域，尤其是指一种基于姿态引导的人体图像生成方法。

背景技术：

2.条件图像生成是指根据应用场景引入了不同的额外条件约束，引导生成的图像符合指定风格、指定形状、指定角度或指定纹理等。想根据条件生成逼真图像是非常具有挑战性的，但与此同时，生成逼真图像能对生活和工业带来各种便利，诸如应用到电影制作、自动图像编辑等。
3.基于姿态引导的人体图像生成方法，是想通过输入额外条件指定的人体图像和指定的人体姿态，显式地引导了图像的生成过程，最后使得生成的图像是指定人在指定的姿态下。从17年开始，有工作开始引入深度学习的方法来解决问题，具体地有基于2d姿态、基于3d人体模型等不同的分类方法，还有方法试图生成连续的视频。在目前已有的工作中，存在的问题包括生成图像容易丢失条件图像中人的特征信息、如何预测条件图片中被遮挡的部分、无法处理错误的姿态或少见的姿态等。

技术实现要素：

4.本发明的目的在于克服现有技术的缺点与不足，提出了一种基于姿态引导的人体图像生成方法，生成符合目标姿态的人体图像，与现有方法相比提高了生成图像的姿态准确度，同时更好地保持了人体的外观属性，进一步可实现更灵活和精确的下游应用。
5.为实现上述目的，本发明所提供的技术方案为：基于姿态引导的人体图像生成方法，包括以下步骤：
6.1)从单幅条件人体图像中提取原人体姿态和原人体语义分割图；
7.2)将人体图像生成问题分解为两个阶段的问题，第一阶段先生成目标人体语义分割图，第二阶段再生成最终的目标人体图像；其中，在第一阶段，输入条件人体图像和条件目标人体姿态，根据前面提取的原人体姿态和原人体语义分割图，使用语义图生成网络预测得到目标人体语义分割图，并提取出条件人体图像的属性向量；
8.3)根据条件人体图像和原人体语义分割图获得原人体图像中的外观信息；
9.4)将条件目标人体姿态和第一阶段预测得到的目标人体语义分割图融合，输入人体图像渲染网络，通过不断地注入外观信息和属性向量，输出最终生成的目标人体图像。
10.进一步，所述步骤1)包括以下步骤：
11.从给定的条件人体图像is中提取出原人体姿态ps，原人体姿态是指与条件人体图像中人物相对应的人体姿态关键点；
12.从给定的条件人体图像is中提取出原人体语义分割图ss，原人体语义分割图是指从条件人体图像上提取出来的对应的人体语义分割图。
13.进一步，在步骤2)中，根据姿态与属性一致人体图像生成模型将人体图像生成问
题分解成为两个阶段的问题，第一阶段先通过预测目标人体语义分割图解决确定人体结构信息的问题，第二阶段再在第一阶段的生成结果的基础上进行纹理细节填充以解决生成具有原图外观信息的目标人体图像问题。
14.进一步，在步骤2)中，语义图生成网络是在第一阶段根据原人体姿态、条件目标人体姿态、条件人体图像和原人体语义分割图这几个条件，预测得到目标人体语义分割图，其具体情况如下：
15.将原人体姿态ps和条件目标人体姿态p
t
组合在一起，经过语义图生成网络的姿态特征编码器里的卷积神经网络提取出姿态特征f
p
；
16.将条件人体图像is和原人体语义分割图ss组合在一起，经过语义图生成网络的另一个图像特征编码器里的卷积神经网络提取出人体图像特征fs；
17.语义图生成网络提取出姿态特征f
p
和人体图像特征fs后，经过几层卷积层融合预测生成目标人体语义分割图
18.在语义图生成网络训练过程中，使用了交叉熵损失来限制预测得到的目标人体语义分割图的像素级精度，其目标函数l
ce
表示为：
[0019][0020]
式中，s
t
表示训练过程中提供的真实目标人体语义分割图，表示由语义图生成网络预测生成的目标人体语义分割图，n表示目标人体语义分割图里一共划分了多少类别，c表示目标人体语义分割图里的第几个类别；
[0021]
为了增强语义图生成网络生成的目标人体语义分割图和条件人体图像之间的属性一致性，还让语义图生成网络同时预测一个属性向量对其应用了属性分类损失具体公式如下：
[0022][0023]
式中，vi表示真实的条件人体图像对应的属性向量，m表示属性向量里一共包含了多少种类别，i表示属性向量里的第几个类别；
[0024]
第一阶段的语义图生成网络，训练时总的目标函数l1是交叉熵损失l
ce
和属性分类损失的加权和，具体公式如下：
[0025][0026]
式中，λ1和λ2分别为平衡交叉熵损失和属性分类损失的权衡参数。
[0027]
进一步，所述步骤3)包括以下步骤：
[0028]
3.1)给定条件人体图像is作为输入，通过一个由多个卷积层和一个平均池化层组成的纹理编码模块e
t
来提取人体每个部位的外观信息，得到外观编码，具体表示为：
[0029][0030]
式中，是指输入的条件人体图像的第i个部位，是指从条件人体图像的第i个部位提取出来的外观编码；
[0031]
3.2)将得到的不同部位的外观编码进行组合，形成一个统一的外观矩阵，通过外观矩阵能够在后续的人体图像渲染网络对最终生成的目标人体图像中的人体的不同部位进行渲染。
[0032]
进一步，在步骤4)中，将条件目标人体姿态p
t
和第一阶段预测得到的目标人体语义分割图融合送入人体图像渲染网络，依次经过人体图像渲染网络里面的卷积网络和多层残差网络，不断地注入前面提取的属性向量和外观矩阵，最终输出目标人体图像
[0033]
对于人体图像渲染网络，通过最小化生成的目标人体图像和真实人体图像i
t
之间的l1距离以保持内容一致性，其定义的像素损失l
pixel
表示为：
[0034][0035]
为了提高生成图像的真实性，在人体图像渲染网络中还引入感知损失来计算生成的目标人体图像与真实人体图像i
t
之间提取的特征的距离，其感知损失l
per
表示为：
[0036][0037]
式中，φj(
·
)是指利用网上公开预先训练好的vgg-19模型的第j层网络提取出来的特征；
[0038]
在人体图像渲染网络里设置了两个不同的判别器da和d
p
应用于不同的目的，分别侧重于在外观和姿态方面的监督，促使生成的目标人体图像具有逼真的外观和与条件目标人体姿态一致的姿态，其对抗性损失l
adv
表示为：
[0039][0040]
式中，e(*)表示分布函数的期望值，is代表条件人体图像；
[0041]
在人体图像渲染网络也有为了增强最终生成的目标人体图像和条件人体图像之间的属性一致性而应用的属性分类损失具体公式如下：
[0042][0043]
式中，vi表示真实的条件人体图像对应的属性向量，表示生成的目标人体图像对应的属性向量，m表示属性向量里一共包含了多少种类别，i表示属性向量里的第几个类别；
[0044]
因此，人体图像渲染网络训练时总的目标函数l2为像素损失、感知损失、对抗性损失和属性分类损失的加权和，其表示为：
[0045][0046]
式中，λ3、λ4、λ5和λ6分别为四个损失项的加权参数。
[0047]
本发明与现有技术相比，具有如下优点与有益效果：
[0048]
1、本发明提出了一个两阶段的基于姿态引导的人体图像生成方法，能生成视觉效果更好的人体图像，且符合条件指定的姿态和外观。
[0049]
2、本发明与其它人体图像生成方法相比，提高了生成图像的质量，生成更逼真的图像。
[0050]
3、本发明与其它人体图像生成方法相比，生成的人体姿态更准确，保留的纹理细节更好。
[0051]
4、本发明方法在计算机视觉任务中具有广泛的使用空间，操作简单、适应性强，具有广阔的应用前景。
附图说明
[0052]
图1为使用本发明方法的实例示意图。
具体实施方式
[0053]
下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。
[0054]
本实施例公开了一种基于姿态引导的人体图像生成方法，其具体情况如下：
[0055]
1)输入条件人体图像is，具体像素为256
×
256，从中提取出原人体姿态ps，原人体姿态是指与条件人体图像中人物相对应的人体姿态关键点，具体地一共包含18个关键点；再从中提取出原人体语义分割图ss，原人体语义分割图是指从条件人体图像上提取出来的对应的人体语义分割图，具体地一共包含8个类别代表不同部位。
[0056]
2)将人体图像生成问题分解成为两个阶段的问题，第一阶段先通过预测目标人体语义分割图解决确定人体结构信息的问题，第二阶段再在第一阶段的生成结果的基础上进行纹理细节填充以解决生成具有原图外观信息的目标人体图像问题。其中，在第一阶段，为了减少生成的人体图像产生姿态歧义问题，使用语义图生成网络预测得到目标人体语义分割图，并提取出条件人体图像的属性向量。
[0057]
语义图生成网络是根据原人体姿态、条件目标人体姿态、条件人体图像和原人体语义分割图这几个条件，预测得到目标人体语义分割图，其具体情况如下：
[0058]
将原人体姿态ps和条件目标人体姿态p
t
组合在一起，经过语义图生成网络的姿态特征编码器里的卷积神经网络提取出姿态特征f
p
；
[0059]
将条件人体图像is和原人体语义分割图ss组合在一起，经过语义图生成网络的另一个图像特征编码器里的卷积神经网络提取出人体图像特征fs；
[0060]
语义图生成网络提取出姿态特征f
p
和人体图像特征fs后，经过几层卷积层融合预测生成目标人体语义分割图
[0061]
在语义图生成网络训练过程中，使用了交叉熵损失来限制预测得到的目标人体语义分割图的像素级精度，其目标函数l
ce
表示为：
[0062][0063]
式中，s
t
表示训练过程中提供的真实目标人体语义分割图，表示由语义图生成网络预测生成的目标人体语义分割图，n表示目标人体语义分割图里一共划分了多少类别，在本实施例是分成了8类，c表示目标人体语义分割图里的第几个类别；
[0064]
为了增强语义图生成网络生成的目标人体语义分割图和条件人体图像之间的属性一致性，还让语义图生成网络同时预测一个属性向量对其应用了属性分类损失
具体公式如下：
[0065][0066]
式中，vi表示真实的条件人体图像对应的属性向量，m表示属性向量里一共包含了多少种类别，在本实施例是包含了5类，i表示属性向量里的第几个类别；
[0067]
第一阶段的语义图生成网络，训练时总的目标函数l1是交叉熵损失l
ce
和属性分类损失的加权和，具体公式如下：
[0068][0069]
式中，λ1和λ2分别为平衡交叉熵损失和属性分类损失的权衡参数，具体为50和1。
[0070]
3)根据条件人体图像和原人体语义分割图获得原人体图像中的外观信息，包括以下步骤：
[0071]
3.1)给定条件人体图像is作为输入，通过一个由多个卷积层和一个平均池化层组成的纹理编码模块e
t
来提取人体每个部位的外观信息，得到外观编码，具体表示为：
[0072][0073]
式中，是指输入的条件人体图像的第i个部位，是指从条件人体图像的第i个部位提取出来的外观编码；
[0074]
3.2)将得到的不同部位的外观编码进行组合，形成一个统一的外观矩阵，通过外观矩阵能够在后续的人体图像渲染网络对最终生成的目标人体图像中的人体的不同部位进行渲染。
[0075]
4)将条件目标人体姿态p
t
和第一阶段预测得到的目标人体语义分割图融合送入人体图像渲染网络，依次经过人体图像渲染网络里面的卷积网络和多层残差网络，不断地注入前面提取的属性向量和外观矩阵，最终输出目标人体图像见图1所示；
[0076]
对于人体图像渲染网络，通过最小化生成的目标人体图像和真实人体图像i
t
之间的l1距离以保持内容一致性，其定义的像素损失l
pixel
表示为：
[0077][0078]
为了提高生成图像的真实性，在人体图像渲染网络中还引入感知损失来计算生成的目标人体图像与真实人体图像i
t
之间提取的特征的距离，其感知损失l
per
表示为：
[0079][0080]
式中，φj(
·
)是指利用网上公开预先训练好的vgg-19模型的第j层网络提取出来的特征；
[0081]
在人体图像渲染网络里设置了两个不同的判别器da和d
p
应用于不同的目的，分别侧重于在外观和姿态方面的监督，促使生成的目标人体图像具有逼真的外观和与条件目标人体姿态一致的姿态，其对抗性损失l
adv
表示为：
[0082]
[0083]
式中，e(*)表示分布函数的期望值，is代表条件人体图像；
[0084]
在人体图像渲染网络也有为了增强最终生成的目标人体图像和条件人体图像之间的属性一致性而应用的属性分类损失具体公式如下：
[0085][0086]
式中，vi表示真实的条件人体图像对应的属性向量，表示生成的目标人体图像对应的属性向量，m表示属性向量里一共包含了多少种类别，在本实施例具体为7个类别，i表示属性向量里的第几个类别；
[0087]
因此，人体图像渲染网络训练时总的目标函数l2为像素损失、感知损失、对抗性损失和属性分类损失的加权和，其表示为：
[0088][0089]
式中，λ3、λ4、λ5和λ6分别为四个损失项的加权参数，具体为1，1，5和0.1。
[0090]
上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

转载请注明原文地址:https://tc.8miu.com/read-625.html

专利

最新回复(0)