本发明涉及图像处理,具体涉及一种文本驱动的人脸图像编辑方法。
背景技术:
1、编辑人脸的属性是计算机图形学的一个长期目标。近年来,深度生成模型在这一领域中崭露头角。生成对抗网络(gan)框架是一个估算数据点如何在概率性框架中生成的深度学习架构。许多gan模型,例如pcgan,biggan和stylegan,已经被研发并应用于从随机噪声生成高质量、多样化的图像。
2、研究表明,gan能够在中间特征和隐空间中有效编码丰富的语义信息。这些特性使得通过改变隐空间编码可以合成具有多样性变化的图像。gan的逆映射功能能够将给定的图像转换回预训练的gan模型的隐向量空间中,这使基于gan的真实图像处理成为了可能,并赋予基于gan先验的图像编辑现实意义。为了编辑与用户意图相符的图像区域属性,许多研究试图利用gan作为图像先验实现可控的图像合成和编辑。
3、文本引导的图像生成旨在根据文本描述生成逼真的图像,并对现有图像进行文本引导的编辑操作。相比之下,文本引导的图像编辑主要目的是利用文本描述来操控现有图像,实现用户指定的视觉属性变化。
4、最近,出现了大量的依赖文本驱动stylegan模型改变隐空间编码的人脸面部编辑方法。尽管这些方法在编辑质量和多样性上取得了一定的进展,但很少研究文本与图像两个模态特征间的关系。对比语言-图像预训练模型(clip)在4亿对图像-文本数据上进行训练,习得了一个多模态特征空间,能够将文本与图像联系起来。目前,大多数文本驱动图像处理的方法都依赖clip模型。这些方法默认clip中图像与文本已经完全对齐,假设文本的变化与其描述的图像变化之间有较强的共线性关系。然而,已有研究证明(请参考:liang,victor weixin, et al. "mind the gap: understanding the modality gap in multi-modal contrastive representation learning." advances in neural informationprocessing systems 35 (2022): 17612-17625.),clip模型的文本特征空间和图像特征空间存在模态间隙,导致现有的基于clip的文本驱动图像编辑方法在编辑准确性上存在问题。当直接将图像特征替换为文本特征作为编辑条件时,大多数方法在编辑目标属性后,其他非编辑部位可能会出现形变,从而导致人脸身份信息不一致,或者无法按文本描述对相关属性进行编辑。因此,如何消除文本特征空间和图像特征空间之间的模态间隙,提高文本驱动图像编辑的准确性和灵活性是一个亟待解决的重要问题。
技术实现思路
1、本发明为了解决以上现有技术存在的不足与缺陷问题,提供了一种文本驱动的人脸图像编辑方法。
2、为实现上述本发明目的,采用的技术方案如下:
3、一种文本驱动的人脸图像编辑方法,所述方法包括以下步骤:
4、s1、准备大型公开人脸数据集和人脸文本描述数据集,并基于人脸文本描述构建人脸属性概念字典;
5、s2、利用基于风格的生成对抗网络(stylegan)对人脸数据集进行逆映射处理,得到样式空间(style space)隐向量;
6、其中,通过公式,得到中间潜在空间隐向量;其中,为一种用于stylegan的图像逆映射框架,为高清人脸图像;
7、通过样式转化网络将向量映射成风格向量s。每个向量都会通过一个独立的仿射变换,生成不同卷积层的风格向量s,将风格向量s组合得到样式空间隐向量。
8、s3、将人脸图像和人脸属性概念字典输入人脸属性编码器中,得到人脸特征隐向量;
9、其中,人脸属性编码器由两个对比语言-图像预训练模型(clip)、一个凸优化模块和一个特征提取器组成;
10、分别将人脸图像和概念字典输入clip图像编码器和clip文本编码器,通过公式计算出公开人脸数据集的图像特征隐向量集合;通过公式计算出人脸属性概念字典的文本特征隐向量集合,并通过公式计算出特征均值;其中,为clip图像编码器,为clip文本编码器,m为公开人脸数据集的图像个数,n为对应的字典大小;
11、在得到图像特征均值和文本特征均值的基础上,将一幅目标图像输入clip图像编码器,得到图像特征隐向量;将和人脸属性概念字典中每个文本特征隐向量通过公式和公式做中心化、归一化处理,得到图像特征隐向量和文本特征隐向量集合;
12、将图像特征隐向量和文本特征隐向量集合输入admm凸优化模块,通过公式求解文本特征隐向量集合对图像特征隐向量表示的最优解;其中,x为中间变量,z为优化变量;
13、通过设置拉格朗日乘子u追踪x和z的差,使用迭代公式,和不断更新x和z的值,直到每个求解器都达到收敛条件,停止,最终得到最优解;其中,x的更新可以通过解线性系统获得,z的更新可以使用软阈值函数获得;
14、对于求解出的最优解,使用一个特征提取器将其转化为低维向量,得到一个人脸特征隐向量v。
15、s4、训练隐向量映射网络,得到代表编辑方向的预测样式空间隐向量差值;
16、采用人脸属性编码器和stylegan编码器将随机成对图像分别编码为人脸特征隐向量v1、v2和样式空间隐向量s1、s2;分别将成对的人脸特征隐向量和样式空间隐向量求差得到人脸特征隐向量差值δv和样式空间隐向量差值δs;
17、分别采用两个独立的映射模块学习人脸特征隐向量差值和样式空间隐向量s1的粗、中、细三个语义层特征,得到()和();
18、采用一个特征融合映射器将生成的由粗到细的特征进行融合,通过第一函数将粗层级人脸特征向量和粗层级样式空间特征向量融合得到,通过第二函数将中层级人脸特征向量和中层级样式空间特征向量融合得到,通过第三函数将细层级人脸特征向量和细层级样式空间特征向量融合得到,将粗中细三个层级的特征向量连接得到预测样式空间隐向量差值;
19、采用最小化预测样式空间隐向量差值与样式空间隐向量差值之间的距离作为损失,包括:
20、通过计算预测样式空间隐向量差值与样式空间隐向量差值之间的最小平方误差与余弦相似损失之和作为总损失;其中,损失函数定义为:
21、
22、利用上述损失函数优化映射网络;
23、s5、根据编辑要求定义人脸属性概念权重向量,将其送入特征提取器,得到符合编辑要求的人脸特征隐向量;
24、其中,根据编辑要求,保留人脸属性概念权重向量中需编辑属性的权重,将其余属性权重设为零;
25、s6、使用基于stylegan的图像逆映射编码器将待编辑的人脸图像进行编码,得到对应的样式空间隐向量;
26、将待编辑人脸的样式空间隐向量和符合编辑要求的人脸特征隐向量输入训练好的特征映射网络,得到代表编辑方向的预测样式空间隐向量差值;
27、通过stylegan编码器将待编辑人脸的样式空间隐向量和预测得到的样式空间隐向量差值之和编码,得到编辑后的人脸图像。
28、本发明的有益效果如下:
29、1、消除模态间隙:本发明通过构建详尽的人脸属性概念字典,开发出一种人脸属性编码器。这一设计有效地消除了clip模型中存在的文本特征空间与图像特征空间的模态间隙,从而保持了文字变化与其对应图像变化之间的强共线性关系。
30、2、提高编辑解耦性和灵活性:本发明通过结合人脸属性编码器与stylegan编码器训练隐向量映射网络,显著提升了人脸图像编辑的解耦性和可编辑性。在最大程度保留原始人脸身份信息的基础上,实现了灵活的编辑效果。
1.一种文本驱动的人脸图像编辑方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤s2中,通过公式,得到中间潜在空间隐向量;其中,为一种用于stylegan的图像逆映射框架,为高清人脸图像;
3.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤s3中,所述人脸属性编码器是由两个clip编码器和admm凸优化模块组成的;
4.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:在步骤s4中,分别采用两个独立的映射模块学习人脸特征隐向量差值和样式空间隐向量s1的粗、中、细三个语义层特征,得到()和();
5.根据权利要求4所述的一种文本驱动的人脸图像编辑方法,其特征在于:采用最小化预测样式空间隐向量差值与样式空间隐向量差值之间的距离作为损失,包括:
6.根据权利要求1所述的一种文本驱动的人脸图像编辑方法,其特征在于:使用基于stylegan的图像逆映射编码器将待编辑的人脸图像进行编码,得到对应的样式空间隐向量;