生成式图像凝结的制作方法

专利查询2022-08-31 109

1.本公开大体上涉及针对用于训练机器学习模型的数据准备的系统和方法。更具体地，本公开的一个或多个实施例涉及用于生成式图像凝结的系统和方法。

背景技术：

2.生成式对抗性网络(gan)是一种机器学习技术，该生成式对抗性网络学习以生成与对其训练的数据相似的新数据。例如，基于猫的图像训练的gan将生成猫的新图像。近年来，gan的图像质量飞速提高。然而，大多数gan通常在对准视觉数据上被训练。当使用任意地未对准的图像分布进行训练时，所产生的gan经受图像质量的实质劣化，即使对于最先进的模型(诸如stylegan-v2)也是如此。图像的手动对准涉及大量成本和大量人工监督。附加地，手动对准通常是启发式地(例如以看起来对执行对准的人而言为最佳对准的任何方式)执行的。然而，尚不清楚这种对准选择是否为给定数据集的最佳对准。
3.在训练gan方面存在这些和其他问题。

技术实现要素：

4.此处介绍了用于提供无监督学习技术的生成式图像凝结的技术(technique/technology)，该无监督学习技术学习变换以对准要用于训练生成式对抗性网络(gan)的真实数据。特别地，在一个或多个实施例中，所公开的系统和方法训练空间变换器网络，该空间变换器网络是一种能够对图像执行几何变换的神经网络，以将真实图像数据与对准合成图像数据对准。例如，在未对准图像数据上训练的生成式对抗性网络学习以生成合成图像，该合成图像类似于在其上该生成式对抗性网络被训练的未对准图像数据的分布。在未对准数据上训练的gan通常比在对准数据上训练的gan表现不佳，从而产生在视觉上不合意的合成图像。gan的输入是从某种先验分布中采样的随机噪声。如果使提供给在未对准数据上训练的gan的输入随机噪声朝向先验分布的均值偏置，那么gan以多样性减少为代价产生更高保真度的合成图像。该多样性减少的一个结果为：由gan响应于偏置的输入噪声而生成的合成图像以相似方式对准。
5.实施例利用此来生成合成的对准数据集。使用合成的对准数据集，空间变换器网络被对抗性地训练为学习变换，该变换使变换的真实图像数据与如由判别器网络确定的对准合成数据难以区分。一旦经过训练，空间变换器网络就能够对准用于训练gan的真实图像数据以在没有通常为手动对准数据集所需的大量人工监督的情况下产生对准真实图像数据集。对准真实图像数据集然后可用于训练新gan或对现有gan进行微调，从而产生性能更好的gan。
6.本公开的示例性实施例的附加特征和优点在以下描述中进行阐述，且部分地根据说明书而变得明显，或通过此类示例性实施例的实践而获知。
附图说明
7.参考附图描述了详细描述，在附图中：
8.图1图示了根据一个或多个实施例的执行生成式图像凝结的示例环境；
9.图2图示了根据一个或多个实施例的在未对准数据上训练的生成器网络的示例；
10.图3图示了根据一个或多个实施例的由于输入数据的偏置而导致的所生成的图像的变化的示例；
11.图4图示了根据一个或多个实施例的生成式图像凝结系统的示图；
12.图5图示了根据一个或多个实施例的使用经过训练的空间变换器来对准未对准数据集的示例；
13.图6图示了根据一个或多个实施例的使用由空间变换器网络生成的对准数据来训练gan的示例；
14.图7图示了根据一个或多个实施例的生成式图像凝结系统的示图；
15.图8图示了根据一个或多个实施例的使所生成的数据的对准反向的示图；
16.图9图示了根据实施例的实现图像对准系统的示例环境；
17.图10图示了根据一个或多个实施例的生成式图像凝结系统的示意图；
18.图11图示了根据一个或多个实施例的生成式图像凝结的序列图；
19.图12图示了根据一个或多个实施例的使用训练数据来训练生成式对抗性网络的序列图，该训练数据已经使用生成式图像凝结对准；
20.图13图示了根据一个或多个实施例的生成式图像凝结的方法中的一系列动作的流程图；
21.图14图示了根据一个或多个实施例的生成式图像凝结系统在其中操作的示例性环境的示意图；以及
22.图15图示了根据一个或多个实施例的示例性计算设备的框图。
具体实施方式
23.本公开的一个或多个实施例包括提供无监督学习技术的生成式图像凝结系统，该无监督学习技术学习真实数据的变换以提高使用该图像数据训练的gan的图像质量。例如，已经在未对准数据上训练的生成器网络用于生成合成图像(例如“假图像数据”)。由生成器网络在生成合成图像数据时使用的生成器网络的输入被偏置为使得生成器网络根据在其上被训练的数据的主导模式产生图像。这产生具有相似对准的合成图像数据的集合，该集合将根据用于训练生成器网络(例如“生成器模型”或“生成器”)的数据集的分布而改变。空间变换网络获得未对准真实数据并尝试生成看似由生成器网络生成的合成图像数据的对准数据。判别器模型(例如“对抗性判别网络”或“判别器”)接收由空间变换网络和生成器网络生成的图像数据并尝试确定哪个是真的和哪个是合成的。基于该确定，更新空间变换网络。
24.如所讨论的，在未对准数据上训练的gan比基于对准数据训练的gan明显表现不佳。在常规系统中，对准训练数据集的进程是成本高昂的并且需要大量监督。然而，使用本文中所描述的技术，以无监督方式将空间变换网络训练为自动生成对准数据。例如，在空间变换网络已经如所讨论的一般进行了训练后，空间变换网络已经学会了对准图像数据。随
后，空间变换网络接收未对准数据集并输出对应的对准(例如“凝结”)数据集。对准数据集然后可供用于训练新gan或对现有gan进行微调，从而在没有与手动对准训练数据集相关联的成本的情况下提高gan的性能。进一步地，在一些实施例中，新训练的gan的生成器网络用于训练改进型空间变换网络，该改进型空间变换网络产生更好的对准数据集，这又使得能够训练进一步改进的gan。
25.常规系统已经在生成模型中结合了空间变换器网络。然而，这些常规系统仅将空间变换器网络用作生成器网络中的层。附加地，其他常规系统已经变换了真实数据以提高gan性能。然而，此类系统需要人工输入来执行变换，并且尚未显示出能提高具有大量多样性的数据集的性能。与过去的系统不同，实施例将空间变换器网络应用于训练数据以缩小生成器必须通过自动变换数据集来学习的图像的分布。这适用于简单数据集和复杂数据集两者，这是由于数据集的对准是由空间对准网络在没有附加用户输入的情况下学习的。相反，基于训练数据的主导模式来学习对准。因而，与对人类审阅者而言不具有明显最佳的对准的复杂数据集是基于数据的主导模式对准，而非启发式地或通过其他任意决策对准。
26.术语定义
27.如本文中所使用，术语“数字视觉介质”是指能够产生视觉表示的数字数据。例如，术语“数字视觉介质”包括数字图像和数字视频。
28.如本文中所使用，术语“数字图像”或“图像”是指任何数字符号、图片、图标或说明。例如，术语“数字图像”包括但不限于具有以下文件扩展名的数字文件：jpg、tiff、bmp、png、raw或pdf。因此，数字图像包括可经由计算设备的显示器的图形用户界面显示的数字数据或图像的数字文件。
29.如本文中所使用，术语“神经网络”是指基于输入调谐(例如训练)以粗略估计未知功能的机器学习模型。在一些实施例中，术语神经网络包括互连神经元的模型，该互连神经元通信并且学习以粗略估计复杂功能，并且基于提供给模型的多个输入来生成输出。例如，术语神经网络包括一个或多个机器学习算法。在一些实施例中，术语神经网络包括深度卷积神经网络(即，“cnn”)，诸如空间变换器网络(stn)。此外，神经网络是实现深度学习技术的算法(或算法集合)，该深度学习技术利用该算法来对数据中的高级抽象进行建模。以下描述和诸图通常是指包括较低层、较高层以及损失层的cnn。在各种实施例中，空间变换器网络是一种能够对图像执行几何变换的cnn。
30.如本文中所使用，术语“对抗性学习”是指一起学习敌对学习模型的机器学习算法(例如生成式对抗性网络或对抗性判别神经网络)。例如，“生成式对抗性神经网络”(或简称“生成式对抗性网络”(gan))包括生成器网络和判别器网络(例如“对抗性判别神经网络”)。特别地，术语“对抗性学习”包括在相同模型中(例如按顺序或并行地)解决多个学习任务，同时利用跨任务的角色和约束。在一些实施例中，对抗性学习包括采用相对于一个模型最小化并且相对于对抗性模型最大化的损失函数。例如，图像凝结系统采用对抗性学习来使stn的对抗性损失最小化并且使判别器模型的对抗性损失最大化。这用于将stn训练为将数据集变换为更紧密地类似于生成器网络的输出。
31.图1图示了根据一个或多个实施例的执行生成式图像凝结的示例环境。如图1中所图示，环境100包括具有数字设计系统104的客户端设备102。数字设计系统104通常支持包括基于光栅的内容的图形内容的创建、修改、共享和/或删除。在一个或多个实施例中，数字
设计系统104是设计应用，诸如在其他实施例中，数字设计系统104包括与图形内容相关的多个应用、功能以及操作，诸如应用套件、基于web的应用和/或客户端设备102上的系统操作。
32.此外，环境100包括服务器设备106。服务器设备106生成、存储、接收和/或传输任何类型的数据，包括数字视觉介质。如图所示，服务器设备106包括与客户端设备102上的数字设计系统104通信的人工智能管理系统108。例如，人工智能管理系统108使用其组件来生成、训练和应用机器学习模型。例如，人工智能管理系统108包括生成式图像凝结系统110。如本文中进一步讨论的，生成式图像凝结系统110使用对抗性学习来以无监督方式学习对准(例如“凝结”)数据。这包括将stn训练为将输入的真实数据变换为更紧密地类似于由生成器网络生成的数据。一旦已经训练了stn，该stn就用于对准未对准训练数据集以生成对准训练数据集。人工智能管理系统108使用对准训练数据集来训练新gan或对现有gan进行微调。
33.将该新训练的gan(例如经过训练的模型114)部署至数字设计系统104或数字设计服务器系统116。在一个或多个实施例中，服务器设备106诸如在数字设计服务器系统116内包括数字设计系统104的全部或一部分。例如，当位于服务器设备106中时，数字设计系统104包括在服务器设备106上运行的应用或软件应用的可通过一个或多个网络112下载到客户端设备102的一部分。例如，在一些实施例中，数字设计系统104包括web托管应用，该web托管应用允许客户端设备102与来自托管在服务器设备106处的数字设计服务器系统116的内容交互。以此方式，在一些实施例中，服务器设备106基于从使用客户端设备102的设计者接收到的输入，结合数字视觉介质使用经过训练的模型。
34.图2图示了根据一个或多个实施例的基于未对准数据训练的生成器网络的示例。如所讨论的，gan生成类似于训练其所基于的数据的新数据。例如，在图2的实施例中，已经基于头部特写图像数据训练了生成器200。训练数据集包括了诸如在celeba数据集中可获得的名人的狗仔队风格的头部特写。由于这些图像是在摄影师对照片的环境或对象具有有限控制的条件下在真实世界中捕获到的，因此图像包括各种姿势和不同角度的人物表示。数据集不是手动对准的，而是未对准数据集用于训练gan。
35.为了生成新数据，在未对准数据上训练的gan的生成器被赋予输入z 202。输入(例如输入潜在向量)通常是随机噪声。在该示例中，对于gan而言学习所使用的训练数据集极具挑战性，尤其是因为这些训练数据集为未对准的。与已对准训练数据的情况相比，这迫使gan对范围更广的数据分布进行建模。如在204中所示出，基于未对准数据训练的gan的输出通常在视觉上不佳。众所周知，gan经受模式丢弃(生成器根据来自基础真实分布的(通常小的)模式子集产生样本的情况)的影响。然而，即使在基于极具挑战性的数据分布进行训练时，gan也能够学习数据的至少某种模式。例如，右上方的输出图像是相对清晰的所生成的图像。生成器能够相当良好地产生的这种模式或模式通常会看起来相似。生成看起来相似的大量输出数据通常是gan功能不佳的标志。然而，实施例利用该问题自动生成表示训练数据的至少一种模式的对准数据。
36.图3图示了根据一个或多个实施例的由于输入数据的偏置而导致的所生成的图像的变化的示例。如图3中所示出，并非基于随机输入202来生成图像，而是使输入300偏置以产生偏置输入z’300。当将偏置输入300提供给生成器200时，生成器200产生输出图像数据
集304，这是对由无偏置输入202产生的输出图像306的显著的视觉改进。例如，在一些实施例中，使用被称为“截断技巧”的内容来使输入偏置。已知的是，通过使输入潜在向量z朝向pz的“高概率”区域偏置，以多样性减少为代价提高了样本的图像质量。这使得基于未对准图像数据训练的gan能够以属于其已经学会的主导模式的那些输出图像为代价生成更高质量的输出图像。例如，针对输入向量z，对量值高于阈值的任何值进行重新采样，直到这些值低于阈值为止。当使输入朝向输入随机数的分布的均值偏置时，获得最高保真度的输出图像。例如，在输入分布的值通常在-1与1之间变化的情况下，在输入被偏置为接近于零时获得最高保真度的结果。
37.如所提到的，该保真度是以多样性为代价的。因此，输出图像在视觉上相似。然而，与典型系统不同，这种有限输出范围是有帮助的。例如，使用该技术，基于未对准训练数据训练的生成器200能够产生对准的所生成的数据集。由于所产生的输出图像在视觉上看起来相似，因此这些输出图像全部以相似方式对准。例如，输出图像数据集304中的每个图像大致示出了人的相同部分(例如头部特写)，其中每个图像描绘了处于相似姿势下的人。因此，该输出数据集能够用于将stn训练为以相似方式对准真实图像。尽管相对于以合成方式生成的对准数据讨论了实施例，但在一些实施例中，对准数据是经由不同算法(诸如手动或监督技术)获得的。
38.图4图示了根据一个或多个实施例的生成式图像凝结系统的示图。如图4中所示出，生成式图像凝结系统110包括已经基于未对准数据集训练的生成器200、空间变换器400和判别器402。如所讨论的，在一些实施例中，空间变换器400是能够对图像执行几何变换的空间变换器网络，该空间变换器网络是一种神经网络，诸如卷积神经网络。在各种实施例中，本文中所描述的空间变换器网络包括能够接收图像作为输入并且输出新空间变换图像作为输出的任何网络。几何变换包括以下至少一项或多项：平移、缩放、旋转等。在一些实施例中，空间变换器400还能够以任意方式扭曲和裁剪输入图像。
39.在图4的示例中，生成器200基于偏置输入z’302产生截断的合成数据404。如所讨论的，截断的合成数据404表示由生成器以较高保真度但较低多样性生成的数据，这是由于使输入z’以倾向于输入空间的与已经由生成器最佳学习的模式对应的部分的方式偏置。上文至少相对于图3的图像304描述了截断的合成数据4040的示例。
40.空间变换器400接收未对准数据并且将一种或多种变换应用于未对准数据以使其看起来与截断的合成数据404相似。如所讨论的，未对准数据401用于训练生成器200。尽管相对于图4描述的示例使用用于训练生成器200的相同数据集，但在各种实施例中，未对准数据是与用于训练生成器200的数据集具有相似分布的任何数据集。例如，如果基于猫的图像训练生成器200，那么未对准数据401还应该包括猫的图像。
41.判别器402(例如对抗性判别神经网络)一次一个地接收变换的真实数据406和截断的合成数据404，并且做出关于其接收的数据是真实还是合成的确定408。
42.典型gan包括生成器(g)和判别器(d)。这种系统的沃瑟斯坦(wasserstein)gan目标是：
[0043][0044]
其中x是指未对准真实数据的实例，诸如图像，且z～pz(z)是来自构建g所基于的先验分布的样本。在该示例中，相对于g使l
adv
最小化并且相对于d使l
adv
最大化。在该公式
中，真实数据的分布是固定的。
[0045]
然而，实施例结合了空间变换器网络t，使得公式变为：
[0046][0047]
在该示例中，t学习变换以使x的分布更接近g(z)。例如，如果已经将g训练为使用未对准数据集生成处于肖像姿势下的个体，那么当t处理人的真实图像x时，该真实图像x被激励将输入图像放大(例如裁剪)为使得其现在以肖像姿势为特征。实际上，相对于t使上述方程式单纯地最小化会产生极度退化的解，例如，t放大单个像素，从而使g的工作变得不重要。因此，我们首先旨在找到“良好的”t，其使上述方程式隐式地最小化，但不是退化的。例如，在一些实施例中，stn在其被配置为执行以减少找到退化解的机会的操作方面受到限制。在一些实施例中，此类限制包括stn被配置为执行的最小裁剪尺寸(例如如以像素为单位或相对于输入图像的尺寸测量的)或对stn被配置为执行的变换的其他限制。在一些实施例中，这些限制表现为软正则化项，而非对变换的明确限制。
[0048]
基于由判别器402做出的确定408，更新空间变换器400和判别器(410)。例如，当空间变换器保持恒定时，在若干时期内训练判别器，然后在训练判别器的同时在若干时期内训练空间变换器。该进程继续，直到达到收敛为止。这致使将空间变换器训练为使得其产生变换的真实图像t(x)，该变换的真实图像t(x)与生成器的截断分布难以通过判别器进行区分。该问题由以下gan公式表示：
[0049][0050]
如所讨论的，已经训练了生成器g。因此，仅训练空间变换器t和判别器d。由于t属于严格限制的函数类(例如t被配置为对输入图像执行有限数量的变换)，因此t产生看起来与合成图像相似的图像的唯一方式t是学习将输入图像x与由g在其截断模式下产生的对象的相同姿势对准的变换。因此，将空间变换器400训练为输出对准图像，其中对准对应于由生成器输出的截断模式的对准。
[0051]
图5图示了根据一个或多个实施例的使用经过训练的空间变换器来对准未对准数据集的示例。如图5中所示出，经过训练的空间变换器500可用于对准输入数据以生成对准数据集。例如，在一些实施例中，经过训练的空间变换器400对准用于训练生成器200的训练数据集502。使用在训练期间学习到的变换，经过训练的空间变换器500生成对准数据集504。所产生的对准数据集504然后可用于训练新gan或对新gan进行微调，该新gan将比现有生成器表现得更好，这是因为对准训练数据集的分布比未对准数据集更窄，因此更易于学习。
[0052]
图6图示了根据一个或多个实施例的使用由空间变换器网络生成的对准数据来训练gan的示例。如图6中所示出，生成式图像凝结系统110包括生成器600、已经被训练为对准数据的训练空间变换器500以及判别器602。如所讨论的，基于对准数据训练的gan产生比基于未对准数据训练的gan更高的保真度的合成图像。对准数据通常是手动执行的，这既耗时又昂贵。附加地，手动对准通常是任意的，并且不一定反映数据集的模式中的任何模式的对准。然而，如上文所讨论的，通过使用已经被训练为对准数据的经过训练的空间变换器网络500，对抗性地训练改进型生成器600，这导致产生更高保真度的合成数据的生成器。
[0053]
如图6中所示出，生成器600接收经过训练的空间变换器500接收输入z 606。如所
讨论的，生成器的输入包括从某种先验分布采样的随机噪声。基于该输入，生成器600生成合成数据610，将该合成数据610提供给判别器602。经过训练的空间变换器500接收未对准真实数据608并且应用在训练期间学习到的一种或多种变换，如上文至少相对于图4所讨论的。判别器602(例如对抗性判别神经网络)一次一个地接收对准真实数据612和合成数据610并且做出其接收的数据是真实还是合成(例如假的)的确定614。基于由判别器602做出的确定614，更新生成器600和判别器(616)。例如，当空间变换器保持恒定时，在若干时期内训练判别器，然后在训练判别器的同时在若干时期内训练空间变换器。在一些实施例中，备选技术用于在训练期间优化判别器和生成器。该进程继续，直到达到收敛为止。
[0054]
一旦达到收敛，生成器600就已使用对准数据进行了训练，并且能够产生比基于未对准数据训练的生成器(例如生成器200)更高保真度的合成数据。通过使用经过训练的空间变换器500来对准训练数据，在对准训练数据集时无需手动工作就能获得改进型生成器600。附加地，如上文所讨论的，将空间变换器训练为基于训练数据的(多种)主导模式而非人类用户的任意对准决策来对准数据。进一步地，这使得能够对准不具有人类用户容易观察到的对准的数据。
[0055]
图7图示了根据一个或多个实施例的生成式图像凝结系统的示图。在训练空间变换器之后，如至少相对于图5所讨论的，使用空间变换器来获得对准训练数据集。然后基于对准训练数据集来训练新gan，或对现有gan进行微调，从而产生生成器700(例如如上文至少相对于图6所讨论的)。如所讨论的，因为训练数据集是对准的，所以所产生的生成器700比基于未对准数据集训练的先前生成器200执行得更好。
[0056]
使用基于对准数据集训练的生成器700，生成式图像凝结系统120训练与上文相对于图5所讨论的训练过程相似的新判别器702和空间变换器704。例如，空间变换器704输出变换的真实数据706，并且生成器700输出截断的合成数据708。这些由判别器702接收，该判别器702做出给定的接收到的图像是真还是假(例如合成)的确定710。基于确定710，更新空间变换器704和/或判别器702(712)。因为由生成器700产生的截断的合成数据708在视觉上比由先前生成器200产生的合成数据更好，所以该训练进程将使得空间变换器能够学习用于对准未对准数据的改进变换。在各种实施例中，迭代地执行该进程(例如训练改进型空间变换器、对准训练数据集、训练改进型生成器等)，直到实现空间变换器和/或生成器的期望性能水平为止。
[0057]
在一些实施例中，因为生成器700由于基于对准数据训练而表现得更好，所以输入z’并未如先前所讨论的一般偏置为接近均值。例如，增加定义了如何截断输入向量的阈值，从而允许截断的合成数据708中的更多的多样性。由于生成器的性能提高(这是由于该生成器现在因使用对准数据集进行训练而表现得更好)，因此相关联的保真度损失不再如此重要。因为截断的合成数据708具有更多的可变性，所以训练进程产生更稳健的空间变换器704。
[0058]
附加地或备选地，对空间变换器被配置为执行的变换的限制也被放宽。使用头部特写示例，一旦生成器有效地对头部特写进行了建模，就将该生成器扩展为学习对人的更多信息(诸如上半身)进行建模。这允许扩展对空间变换器的限制(例如裁剪尺寸)，从而使得其能够缓慢地缩小，直到有效地移除对准功能为止。
[0059]
图8图示了根据一个或多个实施例的使所生成的数据的对准反向的示图。如所讨
论的，本文中所描述的技术使得能够将gan训练为生成对准数据。然而，典型的真实数据分布不是对准的。因而，gan的优选输出应该以相似方式未对准，使得其更接近地模拟原始训练数据集的分布。因此，实施例使得由经过训练的gan的生成器生成的合成数据能够基于用于对准训练数据的变换而被去对准。
[0060]
如图8中所示出，偏置输入z’800由基于对准训练数据训练的生成器802接收。生成器然后产生合成数据804。如所讨论的，因为基于对准训练数据来训练生成器802，所以生成的合成数据804将以相似方式对准。将合成数据804提供给反向空间变换器806以生成去对准的合成数据808。例如，在一些实施例中，记录由用于对准训练数据的空间变换器执行的变换，并且将其用于训练反向空间变换器806。反向空间变换器806然后逐渐使合成数据去对准为使得所执行的去对准的分布与执行为对准训练数据的变换的分布相反。备选地，反向空间变换器806使用由stn对训练数据执行的所记录的变换，并且在生成每个合成数据项时将反向变换应用于每个合成数据项。对所记录的变换进行采样以确定要在给定的合成数据项上使用的特定变换被控制以确保去对准的合成数据类似于训练数据的原始对准。
[0061]
在一些实施例中，并非将反向空间变换器806实现为生成去对准的合成数据808，而是将生成器802训练为生成去对准的合成数据808。例如，在一个这种实施例中，空间变换器(诸如空间变换器704)一旦已经正确地学习到对准图像就被冻结(例如不再进行训练)。继续使用(现在冻结的)空间变换器的对准图像来训练生成器，诸如生成器700。在此部分的训练过程中，将空间变换器的预测对准弱化为恒等函数(其对应于无对准)。这导致生成器学习产生更紧密地类似于原始未对准数据集的对准分布的未对准图像。
[0062]
图9图示了根据实施例的实现图像对准系统的示例环境。如图9中所图示，环境900包括具有数字设计系统104的客户端设备102。数字设计系统104通常支持包括基于光栅的内容的图形内容的创建、修改、共享和/或删除。在一个或多个实施例中，数字设计系统104是设计应用，诸如在其他实施例中，数字设计系统104包括与图形内容相关的多个应用、功能以及操作，诸如应用套件、基于web的应用和/或客户端设备102上的系统操作。
[0063]
此外，环境100包括服务器设备106。服务器设备106生成、存储、接收和/或传输任何类型的数据，包括数字视觉介质。如图所示，服务器设备106诸如在数字设计服务器系统116内包括数字设计系统104的全部或一部分。例如，当位于服务器设备106中时，数字设计系统104包括在服务器设备106上运行的应用或软件应用的可通过一个或多个网络112下载到客户端设备102的一部分。例如，在一些实施例中，数字设计系统104包括web托管应用，该web托管应用允许客户端设备102与来自托管在服务器设备106处的数字设计服务器系统116的内容交互。以此方式，在一些实施例中，服务器设备106基于从使用客户端设备102的设计者接收到的输入，结合数字视觉介质使用经过训练的模型。
[0064]
如图所示，数字设计系统104和/或数字设计服务器系统116包括图像对准系统902。如所讨论的，实施例训练空间变换器网络以基于经过训练的gan的一种或多种模式来对准图像。如所讨论的，经过训练的空间变换器然后用于对准要用于训练改进型gan或对现有gan进行微调的训练数据。附加地或备选地，使经过训练的空间变换器可用于对准用于其他数字设计进程的任意图像输入。例如，经过训练的空间变换器904使得拥有若干未对准图像的用户能够在使用数字设计系统104编辑这些图像之前或之后对准这些图像。在一些实
施例中，图像对准系统902包括已经基于不同数据分布训练的多个经过训练的空间变换器。在此类实施例中，用户选择基于数据训练的经过训练的空间变换器，该数据最紧密地类似于用户希望对准的数据。附加地或备选地，图像对准系统使用每个经过训练的空间变换器来对准输入图像并且向然后选择要使用的对准的用户呈现所产生的对准图像。
[0065]
图10图示了根据一个或多个实施例的生成式图像凝结系统(例如上文所描述的“生成式图像凝结系统”)的示意图。如图所示，生成式图像凝结系统1002被实现为人工智能管理系统1000的一部分并且作为程序代码、数据结构等被存储在存储器中，并且包括但不限于训练管理器1004、空间变换器网络1006、生成式对抗性网络1008以及存储管理器1010。生成式对抗性网络1008包括生成器网络1012和判别器网络1014。存储管理器1010包括未对准真实数据集1016、对准训练数据集1018以及对准真实数据集1020。
[0066]
如图10中所图示，生成式图像凝结系统1002包括训练管理器1004。具体地，训练管理器1004训练空间变换器网络以学习对输入图像进行的变换，以使这些输入图像与由生成器网络生成的合成图像在通过判别器网络进行比较时难以区分。如所讨论的，生成器网络已经进行了训练，并且基于截断的输入来生成合成数据，使得合成数据属于先前训练生成器所基于的训练数据的一种或多种主导模式。在训练期间，训练管理器1004使用由生成器网络生成的合成数据对抗性地训练空间变换器和判别器。因此，空间变换器通过学习将输入图像与由生成器在其截断模式下产生的合成图像中的对象的相同姿势对准的变换来学习产生看起来与合成图像相似的图像，使得这些图像对于判别器模型而言是难以区分的。
[0067]
如图所示，生成式图像凝结系统1002包括空间变换器网络(stn)1006，如上文所讨论的，该空间变换器网络1006是一种专用的神经网络。如所讨论的，使用生成式对抗性网络1008训练stn 1006。例如，生成器网络1012基于训练其所基于的数据来生成合成图像。具体地，生成器网络1012生成属于其截断模式的图像，该图像共享一般对准。如所讨论的，该合成对准数据用于将stn 1006训练为学习要对真实图像执行的变换，以使该真实图像与如由判别器网络1014确定的合成图像难以区分。一旦进行了训练，stn 1006就用于根据未对准真实数据集1016生成对准真实数据集1020。如所讨论的，对准真实数据集1020然后用于训练改进型gan。
[0068]
如图所示，生成式图像凝结系统1002包括生成式对抗性网络1008。如上文所解释的，在一个或多个实施例中，生成式对抗性网络1008包括生成器网络1012和判别器网络1014。生成器网络1012是使用判别器网络(例如对抗性判别神经网络)对抗性地训练来学习以生成合成数据的神经网络，该合成数据与训练数据集难以通过判别器网络进行区分。
[0069]
如图10中所图示，生成式图像凝结系统1002还包括存储管理器1010。存储管理器1010维护用于生成式图像凝结系统1002的数据。存储管理器1010根据需要维护任何类型、尺寸或种类的数据以执行生成式图像凝结系统1002的功能。如图10中所示出，存储管理器1010包括未对准真实数据集1016。未对准真实数据集1016包括一个或多个数字图像，如上文另外详细讨论的。附加地，在各种实施例中，未对准真实数据集包括任何类型的数字视觉介质，包括数字图像和/或数字视频。
[0070]
如图10中进一步图示的，存储管理器1010包括对准训练数据集1018。如所讨论的，对准训练数据集1018包括由生成器网络1012生成的合成数据。对准训练数据集由生成器响应于已经诸如使用上文所描述的截断特技偏置的输入数据而生成。这产生以多样性为代价
的更高保真度生成的数据。因此，通常根据训练生成器所基于的数据(例如未对准真实数据集1016)的一种或多种主导模式对准这种截断数据。
[0071]
如图10中进一步图示的，存储管理器1010包括对准真实数据集1020。如所讨论的，一旦stn 1006已经学会了变换图像数据，就将未对准真实数据集1016输入到输出对准真实数据集1020的stn。对准真实数据集1020然后用于训练新gan或对现有gan进行微调，以提高由新训练的gan生成的数据的保真度。如所讨论的，性能的这些改进是由于基于对准数据训练的gan，这缩小了训练数据的分布，从而使数据的模式更容易被gan学习。
[0072]
在一些实施例中，存储管理器1010管理耦合到生成式图像凝结系统1002的各种底层存储设备。存储设备包括一种或多种非瞬态计算机可读存储介质，诸如硬盘驱动器(hdd)、闪速存储器、通用串行总线(usb)驱动器或这些或其他存储设备的组合。在一些实施例中，存储管理器1010管理输入和输出图像数据在远程存储服务或系统中的存储。例如，在一些实施例中，存储管理器通过一个或多个公共和/或专用网络(例如互联网、局域网、存储区域网络等)与提供块存储、对象存储、数据库存储等的存储服务通信。
[0073]
生成式图像凝结系统1002的组件1004至1010中的每个组件及其对应元件(如图10中所示出)使用任何合适的通信技术彼此通信。应认识到，尽管组件1004至1010及其对应元件在图10中被示出为是分离的，但在一些实施例中，根据特定实施例的需要将组件1004至1010中的任何组件及其对应元件组合成更少的组件，诸如组合成单个设施或模块，划分为更多的组件，或配置成不同的组件。
[0074]
组件1004至1010及其对应元件包括软件、硬件或两者。例如，组件1004至1010及其对应元件包括存储在计算机可读存储介质上且由一个或多个计算设备的处理器可执行的一个或多个指令。生成式图像凝结系统1002的计算机可执行指令在被一个或多个处理器执行时使客户端设备和/或服务器设备执行本文中所描述的方法。备选地，组件1004至1010及其对应元件包括硬件(诸如专用处理设备)以执行特定功能或功能组。附加地，组件1004至1010及其对应元件包括计算机可执行指令与硬件的组合。
[0075]
此外，在各种实施例中，生成式图像凝结系统1002的组件1004至1010被实现为一个或多个独立式应用、应用的一个或多个模块、一个或多个插件、由其他应用调用的一个或多个库函数，和/或云计算模型。因此，在各种实施例中，生成式图像凝结系统1002的组件1004至1010被实现为独立式应用，诸如桌面或移动应用。此外，在各种实施例中，生成式图像凝结系统1002的组件1004至1010被实现为托管在远程服务器上的一个或多个基于web的应用。备选地或附加地，在各种实施例中，生成式图像凝结系统1002的组件在移动设备应用或“app”的套件中实现。为了说明，在各种实施例中，生成式图像凝结系统1002的组件在数字图像或视频编辑应用(包括但不限于字图像或视频编辑应用(包括但不限于pro或creative软件)中实现。“adobe”、“photoshop”、“premiere pro”以及“creative cloud”是adobe公司在美国和/或其他国家的注册商标或商标。
[0076]
图11图示了根据一个或多个实施例的生成式图像凝结的序列图1100。如图11中所示出，学习使用对抗性学习以无监督方式对准(例如“凝结”)数据从数字1中开始，在数字1中，由存储管理器1010将真实图像数据提供给空间变换器1006。例如，真实图像数据包括用
于训练生成器1012的未对准训练数据集。在数字2中，空间变换器1006将一种或多种变换(例如几何变换、裁剪、扭曲等)应用于真实图像数据，以试图使变换的真实图像数据与由生成器1012生成的对准合成数据难以区分，如由判别器1014所确定的。
[0077]
在数字3中，生成器1012生成合成图像并且将该合成图像提供给判别器1014。如所讨论的，生成器1012生成截断的合成图像，该截断的合成图像属于训练生成器所基于的数据的一种或多种主导模式。这是通过使提供给生成器1012的输入向量从随机噪声朝向随机噪声分布的均值(例如接近零)偏置来执行的。例如，将阈值设置为使得量值超过阈值的任何输入向量都被重新采样，直到量值不超过阈值为止。这导致合成图像具有更高的保真度但更低的多样性，这倾向于产生根据训练生成器所基于的数据的一种或多种主导模式对准的图像。
[0078]
在数字4中，判别器1014确定其从空间变换器或生成器接收的给定图像是真的还是假的。基于该确定，在数字5中，更新空间变换器。因为空间变换器受限于变换操作，所以该空间变换器学习更新其应用于输入图像的变换以使损失函数最小化。在数字6中，基于确定更新判别器1014。如所讨论的，因为生成器已经进行了训练，所以在该进程期间仅训练了空间变换器1006和判别器1014。在一些实施例中，首选花费多个训练时期训练一个，然后花费另一多个训练时期训练另一个。备选地，在一些实施例中，通过将更新生成器的一个步骤与更新空间变换器的一个步骤交错来执行训练。在一些实施例中，其他技术用于在训练时优化网络。一旦网络收敛，训练就已完成，且空间变换器已经学会了如何最佳地对准训练数据集的主导模式的数据。
[0079]
图12图示了根据一个或多个实施例的使用训练数据来训练生成式对抗性网络的序列图1200，该训练数据已经使用生成式图像凝结对准；如图12中所示出，使用对准数据训练gan从数字1中开始，在数字1中，由存储管理器1010将真实训练图像数据提供给空间变换器1006。例如，真实训练图像数据包括用于训练生成器1012的未对准训练数据集。在数字2中，空间变换器1006应用在训练期间学习到的一种或多种变换(例如几何变换、裁剪、扭曲等)，如上文至少相对于图4和图11所描述的，并且将至少一个对准真实训练图像提供给判别器1014。
[0080]
在数字3中，生成器1012生成合成图像并且将合成图像提供给判别器1014。如所讨论的，生成器1012基于输入随机噪声来生成合成图像。在数字4中，判别器1014确定其从空间变换器或生成器接收的给定图像是真的还是假的。基于该确定，在数字5中，更新生成器。在数字6中，基于确定更新判别器1014。如所讨论的，因为空间变换器已经进行了训练，所以在该进程期间仅训练了生成器1012和判别器1014。在一些实施例中，首选花费多个训练时期训练一个，然后花费另一多个训练时期训练另一个。备选地，在一些实施例中，通过将更新生成器的一个步骤与更新空间变换器的一个步骤交错来执行训练。在一些实施例中，其他技术用于在训练时优化网络。一旦网络收敛，训练就已完成，且空间变换器已经学会了如何最佳地对准训练数据集的主导模式的数据。
[0081]
图1至图12、对应文本以及示例提供了若干不同系统和设备，这些系统和设备启用对变换的无监督学习以对准真实数据，从而提高使用该图像数据训练的gan的图像质量。除了前述内容之外，还依据包括用于实现特定结果的方法中的动作和步骤的流程图来描述实施例。例如，图13图示了根据一个或多个实施例的示例性方法的流程图。在各种实施例中，
关于图13描述的方法以更少或更多的步骤/动作执行，或步骤/动作按不同顺序执行。附加地，在一些实施例中，本文中所描述的步骤/动作彼此并行地重复或执行，或与相同或相似步骤/动作的不同实例并行地重复或执行。
[0082]
图13图示了根据一个或多个实施例的生成式图像凝结的方法中的一系列动作的流程图。在一个或多个实施例中，在包括生成式图像凝结系统1002的数字介质环境中执行方法1300。方法1300旨在说明根据本公开的一种或多种方法并且不旨在限制潜在实施例。与图13中明确地表达的步骤相比，备选实施例包括附加的、更少的或不同的步骤。
[0083]
如图13中所图示，方法1300包括由被训练为生成对准图像的空间变换器网络根据未对准真实数据集生成对准真实数据集的动作1302。如所讨论的，空间变换器网络是一种被训练为对输入数据执行变换(例如几何变换、扭曲、裁剪等)的神经网络。未对准真实数据集包括图像数据，该图像数据包括各种对象和/或对象类型的表示。在一些实施例中，未对准真实数据集包括用于将生成式对抗性网络训练为生成类似于训练数据的合成图像的训练数据集。
[0084]
如图13中所示出，方法1300还包括由空间变换器网络将来自对准真实数据集的至少一个真实图像提供给对抗性判别网络，以确定至少一个真实图像是否类似于由生成器网络生成的合成图像的动作1304。如所讨论的，对抗性判别网络接收来自空间变换器网络的对准真实图像和来自生成器网络的合成数据。在一些实施例中，先前基于未对准数据集对抗性地训练生成器网络。在一些实施例中，合成图像是由生成器网络在接收到输入向量后生成的对准合成图像，该输入向量已经被偏置以增加对准合成图像的保真度。
[0085]
如图13中所示出，方法1300还包括由训练管理器基于对抗性判别网络的确定来将生成器网络训练为学习以生成合成图像的动作1306。在一些实施例中，空间变换器网络通过以下操作来训练：由空间变换器网络根据未对准真实数据集为真实图像生成对准真实图像；由空间变换器网络将对准真实图像提供给对抗性判别网络，以确定对准真实图像是否类似于由生成器网络生成的对准合成图像；以及由训练管理器基于对抗性判别网络的确定来将空间变换器网络训练为学习更新后的变换。如所讨论的，根据损失函数训练图像凝结系统，该损失函数使空间变换器网络的对抗性损失最小化并且使判别器网络的对抗性损失最大化。空间变换器网络具有被配置为对未对准图像数据执行的有限数量的变换。因此，在训练期间，空间变换网络学习变换以使未对准数据与对准合成数据难以进行区分。以此方式，空间变换网络以无监督方式学习如何最好地对准图像数据。在一些实施例中，更新后的变换包括一种或多种几何变换或裁剪。
[0086]
在一些实施例中，方法1300还包括由空间变换器网络将在训练期间学习到的更新后的变换应用于未对准真实数据集，以生成对准真实数据集的动作。如所讨论的，基于对准数据训练的gan的性能比基于未对准数据训练的gan更好(例如更高的保真度、视觉上更合意等)。因为空间变换器网络已经学会了如何最好地对准数据，所以空间变换器网络用于对准未对准真实数据集以生成要用于训练新gan或对现有gan进行微调的对准真实数据集。例如，在一些实施例中，方法1300还包括由训练管理器使用对准真实数据集对抗性地训练新生成器网络的动作。
[0087]
在一些实施例中，新训练的gan用于训练新空间变换器网络，或对现有空间变换器网络进行微调。例如，在一些实施例中，方法1300还包括如下动作：由空间变换器网络根据
未对准真实数据集为第二真实图像生成第二对准真实图像；由空间变换器网络将第二对准真实图像提供给对抗性判别网络，以确定第二对准真实图像是否类似于由生成器网络生成的新合成图像，其中新合成图像是由生成器网络使用与用于生成对准合成图像不同的输入参数而生成的；以及由训练管理器基于对抗性判别网络的确定来将空间变换器网络训练为学习其他更新后的变换。在一些实施例中，方法1300还包括由人工智能管理系统将新生成器网络部署至数字设计系统的动作。
[0088]
图14图示了根据一个或多个实施例的生成式图像凝结系统1002运行的示例性环境1400的示意图。在一个或多个实施例中，环境1400包括服务提供方1402，该服务提供方1402包括经由一个或多个网络1408连接到多个客户端设备1406a至1406n的一个或多个服务器1404。客户端设备1406a至1406n、一个或多个网络1408、服务提供方1402以及一个或多个服务器1404使用适合于传输数据和/或通信信号的任何通信平台和技术(包括任何已知的通信技术、设备、介质以及支持远程数据通信的协议，下文将相对于图15更详细地描述其示例)彼此通信或与其他组件通信。
[0089]
尽管图14图示了客户端设备1406a至1406n、一个或多个网络1408、服务提供方1402以及一个或多个服务器1404的特定布置，但各种附加布置是可能的。例如，绕过网络1408，客户端设备1406a至1406n与一个或多个服务器1404直接通信。或备选地，客户端设备1406a至1406n直接彼此通信。在一些实施例中，服务提供方1402是公共云服务提供方，该公共云服务提供方在一个或多个数据中心中拥有并运行其自己的基础设施，并且根据需要将该基础设施提供给客户和最终用户以将应用托管在一个或多个服务器1404上。服务器包括一个或多个硬件服务器(例如主机)，每个硬件服务器基于自己的计算资源(例如处理器、存储器、磁盘空间、网络带宽等)，在多个客户之间安全地划分这些计算资源，该多个客户中的每个客户将其自己的应用托管在一个或多个服务器1404上。在一些实施例中，服务提供方是为单个组织维护云基础设施的私有云提供方。一个或多个服务器1404以相似方式包括一个或多个硬件服务器，每个硬件服务器具有其自己的计算资源，在由一个或多个服务器托管的应用之间划分这些计算资源以供组织成员或其客户使用。
[0090]
相似地，尽管将图14的环境1400描绘为具有各种组件，但在各种实施例中，环境1400具有附加的或备选的组件。例如，在一些实施例中，环境1400在具有生成式图像凝结系统1002的单个计算设备上实现。特别地，生成式图像凝结系统1002在客户端设备1402a上全部或部分地实现。备选地，在一些实施例中，环境1400在多个计算设备之间的分布式架构中实现。
[0091]
如图14中所图示，环境1400包括客户端设备1406a至1406n。客户端设备1406a至1406n包括任何计算设备。例如，客户端设备1406a至1406n包括一个或多个个人计算机、膝上型计算机、移动设备、移动电话、平板、专用计算机、tv或其他计算设备，包括下文关于图15所描述的计算设备。尽管在图14中示出了三个客户端设备，但应了解，客户端设备1406a至1406n包括任何数量的客户端设备(比所示出的更多或更少)。
[0092]
而且，如图14中所图示，客户端设备1406a至1406n以及一个或多个服务器1404经由一个或多个网络1408进行通信。一个或多个网络1408表示单个网络或网络类集(诸如互联网、公司内联网、虚拟专用网络(vpn)、局域网(lan)、无线局域网(wlan)、蜂窝网络、广域网(wan)、城域网(man)或两个或更多个此类网络的组合)。因此，一个或多个网络1408是客
户端设备1406a至1406n访问服务提供方1402和服务器1404(反之亦然)所经由的任何合适的网络。下文关于图15更详细地讨论了一个或多个网络1408。
[0093]
此外，环境1400还包括一个或多个服务器1404。一个或多个服务器1404生成、存储、接收和传输任何类型的数据。例如，服务器1404从客户端设备(诸如客户端设备1406a)接收数据，并且将数据发送给另一客户端设备，诸如客户端设备1402b和/或1402n。服务器1404还在环境1400的一个或多个用户之间传输电子消息。在一个示例实施例中，服务器1404是数据服务器。服务器1404还包括通信服务器或web托管服务器。下文关于图15讨论了关于服务器1404的附加细节。
[0094]
如所提及的，在一个或多个实施例中，一个或多个服务器1404包括或实现生成式图像凝结系统1002的至少一部分。特别地，生成式图像凝结系统1002包括在一个或多个服务器1404上运行的应用，或在一些实施例中，从一个或多个服务器1404下载生成式图像凝结系统1002的一部分。例如，生成式图像凝结系统1002包括允许客户端设备1406a至1406n与托管在一个或多个服务器1404处的内容交互的web托管应用。为了说明，在环境1400的一个或多个实施例中，一个或多个客户端设备1406a至1406n访问由一个或多个服务器1404支持的网页。特别地，客户端设备1406a运行web应用(例如web浏览器)以允许用户访问、查看托管在一个或多个服务器1404处的网页或网站和/或与该网页或网站交互。
[0095]
在客户端设备1406a访问托管在一个或多个服务器1404处的网页或其他web应用后，在一个或多个实施例中，一个或多个服务器1404使得用户能够提供存储在一个或多个服务器1404处的一个或多个数字图像(例如未对准真实数据集916，诸如相机胶卷或个体的个人照片)。在接收到未对准真实数据集后，一个或多个服务器1404自动执行上文所描述的方法和进程以将stn训练为学习对准一个或多个数字图像。一个或多个服务器1404将经过训练的stn和/或经过训练的gan(例如通过将一个或多个模型部署至应用，诸如客户端设备上的数字设计应用)提供给客户端设备1406a。
[0096]
如刚才所描述的，在一些实施例中，生成式图像凝结系统1002全部或部分地由环境1400的单独元件1402至1408实现。应了解，尽管生成式图像凝结系统1002的某些组件在先前示例中关于环境1400的特定元件进行了描述，但各种备选实现是可能的。例如，在一个或多个实施例中，生成式图像凝结系统1002在客户端设备1406a至n中的任何客户端设备上实现。相似地，在一个或多个实施例中，生成式图像凝结系统1002在一个或多个服务器1404上实现。而且，生成式图像凝结系统1002的不同组件和功能在客户端设备1406a至1406n、一个或多个服务器1404以及网络1408之间单独地实现。
[0097]
如下文更详细地讨论的，本公开的实施例包括或利用专用计算机或通用计算机，其包括计算机硬件，诸如(例如)一个或多个处理器和系统存储器。本公开的范围内的实施例还包括用于携载或存储计算机可执行指令和/或数据结构的物理和其他计算机可读介质。特别地，本文中所描述的进程中的一个或多个进程至少部分地被实现为在非瞬态计算机可读介质中实施且由一个或多个计算设备(例如本文中所描述的介质内容访问设备中的任何介质内容访问设备)可执行的指令。通常，处理器(例如微处理器)从非瞬态计算机可读介质(例如存储器等)接收指令并且执行那些指令，从而执行一个或多个进程，包括本文中所描述的进程中的一个或多个进程。
[0098]
计算机可读介质包括由通用计算机系统或专用计算机系统可访问的任何可用介
质。存储计算机可执行指令的计算机可读介质是非瞬态计算机可读存储介质(设备)。携载计算机可执行指令的计算机可读介质是传输介质。因此，作为示例而非限制，本公开的实施例包括至少两种明显不同的计算机可读介质：非瞬态计算机可读存储介质(设备)和传输介质。
[0099]
非瞬态计算机可读存储介质(设备)包括ram、rom、eeprom、cd-rom、(例如基于ram的)固态驱动器(“ssd”)、闪速存储器、相变存储器(“pcm”)、其他类型的存储器、其他光盘存储装置、磁盘存储装置或其他磁性存储设备，或用于以计算机可执行指令或数据结构的形式存储期望程序代码装置并且由通用计算机或专用计算机可访问的任何其他介质。
[0100]“网络”被定义为使得能够在计算机系统和/或模块和/或其他电子设备之间传输电子数据的一条或多条数据链路。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)将信息传递或提供给计算机时，计算机正确地将连接视为传输介质。传输介质包括网络和/或数据链路，其用于携载呈计算机可执行指令或数据结构形式的期望程序代码装置并且由通用计算机或专用计算机访问。以上的组合也被包括在计算机可读介质的范围内。
[0101]
进一步地，在到达各种计算机系统组件时，将呈计算机可执行指令或数据结构形式的程序代码装置从传输介质自动传递到非瞬态计算机可读存储介质(设备)(或反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构被缓存在网络接口模块(例如“nic”)内的ram中，然后最终被传递到计算机系统ram和/或计算机系统处的低易失性计算机存储介质(设备)。因此，旨在理解，非瞬态计算机可读存储介质(设备)被包括在同样(或甚至主要)利用传输介质的计算机系统组件中。
[0102]
计算机可执行指令包括例如指令和数据，该指令和数据在处理器处执行时使通用计算机、专用计算机或专用处理设备执行特定功能或功能组。在一些实施例中，计算机可执行指令在通用计算机上执行以将通用计算机变成实现本公开的元件的专用计算机。计算机可执行指令包括例如二进制、诸如汇编语言的中间格式指令，或甚至源代码。尽管已经利用特定于结构特征和/或方法动作的语言描述了主题，但应理解，在随附权利要求书中定义的主题并不一定限于所描述的特征或上文所描述的动作。相反，所描述的特征和动作被公开为实现权利要求的示例形式。
[0103]
本领域的技术人员应了解，本公开的实施例在具有多种类型的计算机系统配置(包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持式设备、多处理器系统、基于微处理器的或可编程的消费电子产品、网络pc、小型计算机、大型计算机、移动电话、pda、平板、寻呼机、路由器、交换机等)的网络计算环境中实践。本公开的实施例在分布式系统环境中实践，在分布式系统环境中，通过网络(通过硬连线数据链路、无线数据链路或通过硬连线与无线数据链路的组合)链接的本地计算机系统和远程计算机系统都执行任务。在分布式系统环境中，程序模块位于本地存储器存储设备和远程存储器存储设备两者中。
[0104]
本公开的一些实施例在云计算环境中实现。在本说明书中，“云计算”被定义为用于实现对可配置计算资源的共享池的按需网络访问的模型。例如，云计算在市场中用于提供对可配置计算资源的共享池的普遍存在且方便的按需访问。可配置计算资源的共享池经由虚拟化快速地提供，并且以低管理工作或服务提供方交互释放，然后相应地进行扩展。
[0105]
云计算模型由各种特点组成，诸如(例如)按需自助服务、广泛的网络访问、资源
池、快速弹性、所测量的服务等。云计算模型还公开各种服务模型，诸如(例如)软件即服务(“saas”)、平台即服务(“paas”)以及基础设施即服务(“iaas”)。在一些实施例中，使用不同的部署模型来部署云计算模型，诸如私有云、社区云、公共云、混合云等。在本说明书中和权利要求书中，“云计算环境”是采用云计算的环境。
[0106]
图15以框图形式图示了被配置为执行上文所描述的进程中的一个或多个进程的示例性计算设备1500。应了解，一个或多个计算设备(诸如计算设备1500)实现生成式图像凝结系统1002。如图15所示出的，计算设备包括处理器1502、存储器1504、一个或多个通信接口1506、存储设备1508以及一个或多个i/o设备/接口1510。在某些实施例中，计算设备1500包括比图15中所示出的组件更少或更多的组件。下文更详细地描述了图15中所示出的计算设备1500的组件。
[0107]
在特定实施例中，(多个)处理器1502包括用于执行指令的硬件，诸如构成计算机程序的硬件。作为示例而非限制，为了执行指令，(多个)处理器1502从内部寄存器、内部缓存、存储器1504或存储设备1508中获取(或取得)指令，且对这些指令进行译码并执行这些指令。在各种实施例中，(多个)处理器1502包括一个或多个中央处理单元(cpu)、图形处理单元(gpu)、现场可编程门阵列(fpga)、片上系统(soc)或(多个)其他处理器，或处理器的组合。
[0108]
计算设备1500包括耦合到(多个)处理器1502的存储器1504。存储器1504用于存储数据、元数据和程序以供(多个)处理器执行。存储器1504包括易失性存储器和非易失性存储器中的一个或多个，诸如随机存取存储器(“ram”)、只读存储器(“rom”)、固态盘(“ssd”)、闪存、相变存储器(“pcm”)或其他类型的数据存储装置。存储器1504是内部存储器或分布式存储器。
[0109]
计算设备1500还包括一个或多个通信接口1506。在各种实施例中，通信接口1506包括硬件、软件或两者。通信接口1506提供用于在计算设备与一个或多个其他计算设备1500或一个或多个网络之间的通信(诸如(例如)基于分组的通信)的一个或多个接口。作为示例而非限制，通信接口1506包括用于与以太网或其他基于有线的网络进行通信的网络接口控制器(nic)或网络适配器；或用于与无线网络(诸如wi-fi)进行通信的无线nic(wnic)或无线适配器。计算设备1500还包括总线1512。总线1512包括将计算设备1500的组件彼此耦合的硬件、软件或两者。
[0110]
计算设备1500包括存储设备1508，该存储设备1508包括用于存储数据或指令的存储装置。作为示例而非限制，存储设备1508包括上文所描述的非瞬态存储介质。存储设备1508包括硬盘驱动器(hdd)、闪存、通用串行总线(usb)驱动器或这些或其他存储设备的组合。
[0111]
计算设备1500还包括一个或多个输入或输出(“i/o”)设备/接口1510，该输入或输出设备/接口1510被提供以允许用户将输入(诸如用户笔画)提供给计算设备1500，从计算设备1500接收数据并且以其他方式将数据传递给计算设备1500和从计算设备1500传递数据。这些i/o设备/接口1510包括鼠标、小键盘或键盘、触摸屏、相机、光学扫描仪、网络接口、调制解调器、其他已知的i/o设备或此类i/o设备/接口的组合1510。用触控笔或手指启动触摸屏。
[0112]
i/o设备/接口1510包括用于向用户呈现输出的一个或多个设备，包括但不限于，
图形引擎、显示器(例如显示屏)、一个或多个输出驱动器(例如显示驱动器)、一个或多个音频扬声器以及一个或多个音频驱动器。在某些实施例中，i/o设备/接口1510被配置为将图形数据提供给显示器以供呈现给用户。图形数据表示一个或多个图形用户接口和/或如服务于特定实现的任何其他图形内容。
[0113]
在前述说明书中，已经参考其特定示例性实施例描述了实施例。参考本文中所讨论的细节描述了各种实施例，并且附图示出了各种实施例。以上描述和附图说明了一个或多个实施例，而不应被解释为限制。描述了若干特定细节以提供对各种实施例的透彻理解。
[0114]
在不脱离如本领域的普通技术人员所理解的实施例的精神或基本特点的情况下，实施例采用其他特定形式。所描述的实施例在所有方面都应被视为说明性的而非限制性的。例如，在一些实施例中，用更少或更多的步骤/动作执行本文中所描述的方法，或以不同顺序执行步骤/动作。附加地，本文中所描述的步骤/动作彼此并行地重复或执行，或与相同或相似步骤/动作的不同实例并行地重复或执行。因此，本发明的范围由随附权利要求书而非前述描述指示。在权利要求书的含义和等效范围内的所有变化都应包含在其范围内。
[0115]
在上文所描述的各种实施例中，除非另有具体说明，否则诸如短语“a、b或c中的至少一个”的析取语言旨在被理解为意指a、b或c，或其任何组合(例如a、b和/或c)。因而，析取语音不旨在，也不应被理解为暗示给定实施例需要至少一个a、至少一个b或至少一个c各自存在。

技术特征：
1.一种计算机实现的方法，包括：由被训练为生成对准图像的空间变换器网络根据未对准真实数据集生成对准真实数据集；由所述空间变换器网络将来自所述对准真实数据集的至少一个真实图像提供给对抗性判别网络，以确定所述至少一个真实图像是否类似于由生成器网络生成的合成图像；以及由训练管理器基于所述对抗性判别网络的所述确定来将所述生成器网络训练为学习以生成所述合成图像。2.根据权利要求1所述的计算机实现的方法，其中所述空间变换器网络通过以下而被训练：由所述空间变换器网络根据所述未对准真实数据集为真实图像生成对准真实图像；由所述空间变换器网络将所述对准真实图像提供给所述对抗性判别网络，以确定所述对准真实图像是否类似于由所述生成器网络生成的对准合成图像；以及由所述训练管理器基于所述对抗性判别网络的所述确定来将所述空间变换器网络训练为学习更新后的变换。3.根据权利要求2所述的计算机实现的方法，其中所述对准合成图像是由所述生成器网络在接收到输入向量后生成的，所述输入向量已经被偏置以增加所述对准合成图像的保真度。4.根据权利要求2所述的计算机实现的方法，还包括：由所述空间变换器网络将在训练期间学习到的所述更新后的变换应用于所述未对准真实数据集，以生成所述对准真实数据集。5.根据权利要求2所述的计算机实现的方法，其中所述更新后的变换包括一种或多种几何变换或裁剪。6.根据权利要求1所述的计算机实现的方法，还包括：由所述空间变换器网络根据所述未对准真实数据集为第二真实图像生成第二对准真实图像；由所述空间变换器网络将所述第二对准真实图像提供给所述对抗性判别网络，以确定所述第二对准真实图像是否类似于由所述生成器网络生成的新合成图像，其中所述新合成图像是由所述生成器网络使用与用于生成所述对准合成图像不同的输入参数而生成的；以及由所述训练管理器基于所述对抗性判别网络的所述确定来将所述空间变换器网络训练为学习其他更新后的变换。7.根据权利要求1所述的计算机实现的方法，还包括：由人工智能管理系统将所述生成器网络部署至数字设计系统。8.一种系统，包括：计算设备，实现生成式图像凝结系统，所述生成式图像凝结系统包括：空间变换器网络，被训练为生成对准图像，所述空间变换器网络用以：根据未对准真实数据集生成对准真实数据集；以及将来自所述对准真实数据集的至少一个真实图像提供给对抗性判别网络，以确定所述
至少一个真实图像是否类似于由生成器网络生成的合成图像；以及训练管理器，用以基于所述对抗性判别网络的所述确定来将所述生成器网络训练为学习以生成所述合成图像。9.根据权利要求8所述的系统，其中：所述空间变换器网络还用以：根据所述未对准真实数据集为真实图像生成对准真实图像；以及将所述对准真实图像提供给所述对抗性判别网络，以确定所述对准真实图像是否类似于由所述生成器网络生成的对准合成图像；并且所述训练管理器还用以基于所述对抗性判别网络的所述确定来将所述空间变换器网络训练为学习更新后的变换。10.根据权利要求9所述的系统，其中所述对准合成图像是由所述生成器网络在接收到输入向量后生成的，所述输入向量已经被偏置以增加所述对准合成图像的保真度。11.根据权利要求9所述的系统，其中所述空间变换器网络还用以：将在训练期间学习到的所述更新后的变换应用于所述未对准真实数据集，以生成对准真实数据集。12.根据权利要求9所述的系统，其中所述更新后的变换包括一种或多种几何变换或裁剪。13.根据权利要求8所述的系统，还包括：其中所述空间变换器网络还用以：根据所述未对准真实数据集为第二真实图像生成第二对准真实图像；以及将所述第二对准真实图像提供给所述对抗性判别网络，以确定所述第二对准真实图像是否类似于由所述生成器网络生成的新合成图像，其中所述新合成图像是由所述生成器网络使用与用于生成所述对准合成图像不同的输入参数而生成的；并且其中所述训练管理器还用以基于所述对抗性判别网络的所述确定来将所述空间变换器网络训练为学习其他更新后的变换。14.根据权利要求8所述的系统，还包括：人工智能管理系统，用以将所述生成器网络部署至数字设计系统。15.一种系统，包括：用于由被训练为生成对准图像的空间变换器网络根据未对准真实数据集生成对准真实数据集的装置；用于将来自所述对准真实数据集的至少一个真实图像提供给对抗性判别网络，以确定所述至少一个真实图像是否类似于由生成器网络生成的合成图像的装置；以及用于基于所述对抗性判别网络的所述确定来将所述生成器网络训练为学习以生成所述合成图像的装置。16.根据权利要求15所述的系统，还包括：用于根据所述未对准真实数据集为真实图像生成对准真实图像的装置；用于将所述对准真实图像提供给所述对抗性判别网络，以确定所述对准真实图像是否类似于由所述生成器网络生成的对准合成图像的装置；以及用于基于所述对抗性判别网络的所述确定来将所述空间变换器网络训练为学习更新
后的变换的装置。17.根据权利要求16所述的系统，其中所述对准合成图像是由所述生成器网络在接收到输入向量后生成的，所述输入向量已经被偏置以增加所述对准合成图像的保真度。18.根据权利要求16所述的系统，还包括：用于将在训练期间学习到的所述更新后的变换应用于所述未对准真实数据集，以生成对准真实数据集的装置。19.根据权利要求15所述的系统，还包括：用于根据所述未对准真实数据集为第二真实图像生成第二对准真实图像的装置；用于将所述第二对准真实图像提供给所述对抗性判别网络，以确定所述第二对准真实图像是否类似于由所述生成器网络生成的新合成图像的装置，其中所述新合成图像是由所述生成器网络使用与用于生成所述对准合成图像不同的输入参数而生成的；以及用于基于所述对抗性判别网络的所述确定来将所述空间变换器网络训练为学习其他更新后的变换的装置。20.根据权利要求15所述的系统，还包括：用于将所述生成器网络部署至数字设计系统的装置。

技术总结
本公开的实施例涉及生成式图像凝结。公开了用于提供无监督学习技术的生成式图像凝结的实施例，无监督学习技术学习真实数据的变换以提高使用该图像数据训练的GAN的图像质量。特别地，在一个或多个实施例中，所公开的系统和方法包括：由空间变换器网络根据未对准真实数据集为真实图像生成对准真实数据集；由空间变换器网络将对准真实图像提供给对抗性判别网络，以确定对准真实图像是否类似于由生成器网络生成的对准合成图像；以及由训练管理器基于对抗性判别网络的确定来将空间变换器网络训练为学习更新后的变换。训练为学习更新后的变换。训练为学习更新后的变换。

技术研发人员：E
受保护的技术使用者：奥多比公司
技术研发日：2021.08.26
技术公布日：2022/5/25

转载请注明原文地址:https://tc.8miu.com/read-11990.html

专利

最新回复(0)