一种模型训练方法、图像合成方法、装置及电子设备与流程

    专利查询2025-05-02  26


    本技术涉及计算机,特别是涉及一种模型训练方法、图像合成方法、装置及电子设备。


    背景技术:

    1、图像合成能够将图像(原始前景图像)中的对象合成到另一幅图像(原始背景图像)中,可用于数据扩增、场景合成、艺术创作等多种领域。并且,深度学习模型通常高度依赖训练数据,训练数据越多,所训练出的深度学习模型的性能越高,因此,为提升深度学习模型的性能,通常在已有的图像数据上进行图像合成,以实现数据扩增,得到更多的训练数据。

    2、相关技术中,通常是利用预先训练得到的图像合成模型,将前景图像合成到背景图像中,得到合成后的图像。其中,该前景图像为对原始前景图像中前景对象分离所得到、包含有前景对象的图像,该背景图像为针对原始背景图像中的背景对象进行剔除后所形成的图像。

    3、然而,相关技术中,预先训练得到的图像合成模型在应用过程中,每次均需要人工给定关于前景图像合成到背景图像中的位置,从而图像合成模型按照给定的位置进行图像合成。

    4、可见,如何提供一种模型训练方法,以训练得到无需借助人工以自动合成图像的图像合成模型,是亟待解决的技术问题。


    技术实现思路

    1、本技术实施例的目的在于提供一种模型训练方法、图像合成方法、装置及电子设备,以训练得到无需借助人工以自动合成图像的图像合成模型。具体技术方案如下:

    2、第一方面,本技术实施例提供了一种模型训练方法,所述方法包括:

    3、获取多组样本数据;其中,每一组样本数据中包括有图像数据以及样本位置信息,所述图像数据包括前景图像、背景图像以及合成图像,所述样本位置信息为所属的样本数据中的前景图像和背景图像进行图像合成以得到合成图像时,所基于的合成位置的信息;

    4、将所述多组样本数据中的图像数据输入待训练的图像合成模型,得到每一组样本数据对应的图像合成结果和预测位置信息;其中,所述图像合成模型包括位置预测网络和图像合成网络;所述位置预测网络用于针对每一组样本数据,生成该组样本数据中的前景图像和背景图像的特征融合结果,得到该组样本数据对应的融合特征,并根据所得到的融合特征,确定该组样本数据对应的预测位置信息;所述图像合成网络用于针对每一组样本数据,根据该组样本数据中的前景图像、背景图像以及合成图像,并以该组样本数据对应的融合特征作为辅助信息,预测图像合成结果;该组样本数据对应的预测位置信息为预测出的、针对该组样本数据中的前景图像和背景图像进行图像合成时,所基于的合成位置的信息;

    5、基于每一组样本数据中的样本位置信息,以及每一组样本数据对应的图像合成结果和预测位置信息,确定所述图像合成模型的目标损失;

    6、在基于所述目标损失判断出所述图像合成模型未收敛的情况下,调整所述图像合成模型的模型参数。

    7、第二方面,本技术实施例提供了一种图像合成方法,所述方法包括:

    8、获取目标背景图像和目标前景图像;

    9、获取与所述目标背景图像的尺寸相匹配的合成图像模板;其中,所述合成图像模板属于噪声图像;

    10、将所述目标背景图像、所述目标前景图像和所述合成图像模板输入至图像合成模型,以使所述图像合成模型基于目标背景图像、目标前景图像和合成图像模板,进行图像合成处理;

    11、获取所述图像合成模型输出的图像合成结果,得到所述目标背景图像和目标前景图像进行合成后的合成图像;其中,所述图像合成模型为按照所述模型训练方法训练得到的模型。

    12、第三方面,本技术实施例提供了一种模型训练装置,所述装置包括:

    13、第一获取模块,用于获取多组样本数据;其中,每一组样本数据中包括有图像数据以及样本位置信息,所述图像数据包括前景图像、背景图像以及合成图像,所述样本位置信息为所属的样本数据中的前景图像和背景图像进行图像合成以得到合成图像时,所基于的合成位置的信息;

    14、第一输入模块,用于将所述多组样本数据中的图像数据输入待训练的图像合成模型,得到每一组样本数据对应的图像合成结果和预测位置信息;其中,所述图像合成模型包括位置预测网络和图像合成网络;所述位置预测网络用于针对每一组样本数据,生成该组样本数据中的前景图像和背景图像的特征融合结果,得到该组样本数据对应的融合特征,并根据所得到的融合特征,确定该组样本数据对应的预测位置信息;所述图像合成网络用于针对每一组样本数据,根据该组样本数据中的前景图像、背景图像以及合成图像,并以该组样本数据对应的融合特征作为辅助信息,预测图像合成结果;该组样本数据对应的预测位置信息为预测出的、针对该组样本数据中的前景图像和背景图像进行图像合成时,所基于的合成位置的信息;

    15、确定模块,用于基于每一组样本数据中的合成图像和样本位置信息,以及每一组样本数据对应的图像合成结果和预测位置信息,确定所述图像合成模型的目标损失;

    16、调整模块,用于在基于所述目标损失判断出所述图像合成模型未收敛的情况下,调整所述图像合成模型的模型参数。

    17、第四方面,本技术实施例提供了一种图像合成装置,所述装置包括:

    18、第二获取模块,用于获取目标背景图像和目标前景图像;

    19、第三获取模块,用于获取与所述目标背景图像的尺寸相匹配的合成图像模板;其中,所述合成图像模板属于噪声图像;

    20、第二输入模块,用于将所述目标背景图像、所述目标前景图像和所述合成图像模板输入至图像合成模型,以使所述图像合成模型基于目标背景图像、目标前景图像和合成图像模板,进行图像合成处理;

    21、第四获取模块,用于获取所述图像合成模型输出的图像合成结果,得到所述目标背景图像和目标前景图像进行合成后的合成图像;其中,所述图像合成模型为按照所述模型训练方法训练得到的模型。

    22、第五方面,本技术实施例提供了一种电子设备,包括:

    23、存储器,用于存放计算机程序;

    24、处理器,用于执行存储器上所存放的程序时,实现任一所述的模型训练方法,或者,图像合成方法。

    25、第六方面,本技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的模型训练方法,或者,图像合成方法。

    26、本技术实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的模型训练方法,或者,图像合成方法。

    27、本技术实施例有益效果:

    28、本技术实施例提供的模型训练方法,每一组样本数据中包括有图像数据以及样本位置信息,图像数据包括前景图像、背景图像以及合成图像,样本位置信息为所属的样本数据中的前景图像和背景图像进行图像合成以得到合成图像时所基于的合成位置信息;本技术可以先获取多组样本数据,并将多组样本数据中的图像数据输入待训练的图像合成模型,图像合成模型中的位置预测网络针对每一组样本数据,生成该组样本数据中的前景图像和背景图像的特征融合结果,得到该组样本数据对应的融合特征,并根据所得到的融合特征,确定该组样本数据对应的预测位置信息。由于每一组样本数据对应的融合特征可以隐含有该组样本数据中的前景图像和背景图像进行图像合成时所基于的合成位置信息,图像合成网络针对每一组样本数据,根据该组样本数据中的前景图像、背景图像以及合成图像,以该组样本数据对应的融合特征作为辅助信息,预测图像合成结果。本技术中,图像合成模型中的位置预测网络可以生成每一组样本数据对应的融合特征,每一组样本数据对应的融合特征可以隐含有该组样本数据中的前景图像和背景图像进行图像合成时所基于的合成位置信息,位置预测网络可以基于每一组样本数据对应的融合特征确定该组样本数据对应的预测位置信息;图像合成网络可以以每一组样本数据对应的融合特征作为辅助信息,预测图像合成结果,即每一组样本数据对应的、隐含有该组样本数据中的前景图像和背景图像进行图像合成时所基于的合成位置信息的融合特征,可以作用于图像合成的过程中;而不必每次均需要人工给定关于前景图像合成到背景图像中的位置。进而,可以基于每一组样本数据中的样本位置信息,以及每一组样本数据对应的图像合成结果和预测位置信息,确定图像合成模型的目标损失,在基于目标损失判断出图像合成模型未收敛的情况下,调整图像合成模型的模型参数,以便得到训练完成的图像合成模型。可见,通过本方案可以训练得到无需借助人工以自动合成图像的图像合成模型,从而为自动图像合成以提高合成效率,提供实现基础。

    29、当然,实施本技术的任一产品或方法并不一定需要同时达到以上所述的所有优点。


    技术特征:

    1.一种模型训练方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的方法,其特征在于,所述图像合成网络包括第一编码器、拼接模块以及图像合成模块;

    3.根据权利要求2所述的方法,其特征在于,所述第一编码器为预定的扩散模型中的压缩模块vae,所述图像合成模块为所述扩散模型中的主体结构unet。

    4.根据权利要求1-3任一项所述的方法,其特征在于,所述位置预测网络包括第二编码器、位置预测模块以及全连接层;

    5.根据权利要求1所述的方法,其特征在于,所述基于每一组样本数据中的样本位置信息,以及每一组样本数据对应的图像合成结果和预测位置信息,确定所述图像合成模型的目标损失,包括:

    6.根据权利要求5所述的方法,其特征在于,所述基于每一组样本数据对应的图像合成结果,确定第一类损失,包括:

    7.根据权利要求5所述的方法,其特征在于,所述基于每一组样本数据中的样本位置信息和每一组样本数据对应的预测位置信息,确定第二类损失,包括:

    8.根据权利要求1所述的方法,其特征在于,所述多组样本数据为预先构建的训练数据集中的数据;

    9.根据权利要求8所述的方法,其特征在于,所述原始前景图像所对应的前景图像的确定方式包括:

    10.根据权利要求8所述的方法,其特征在于,所述预定的位置确定策略包括:用于指示随机选取位置的第一策略、用于指示根据所述原始背景图像中的背景对象的位置框进行位置确定的第二策略,或,用于指示基于预定的位置预测模型进行位置预测的第三策略。

    11.一种图像合成方法,其特征在于,所述方法包括:

    12.一种模型训练装置,其特征在于,所述装置包括:

    13.一种图像合成装置,其特征在于,所述装置包括:

    14.一种电子设备,其特征在于,包括:

    15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-10任一项所述的方法,或者,权利要求11所述的方法。


    技术总结
    本申请实施例提供了一种模型训练方法、图像合成方法、装置及电子设备,涉及计算机技术领域,该模型训练方法包括:获取多组样本数据;将所述多组样本数据中的图像数据输入待训练的图像合成模型,得到每一组样本数据对应的图像合成结果和预测位置信息;基于每一组样本数据中的样本位置信息,以及每一组样本数据对应的图像合成结果和预测位置信息,确定所述图像合成模型的目标损失;在基于所述目标损失判断出所述图像合成模型未收敛的情况下,调整所述图像合成模型的模型参数。通过本方案可以训练得到无需借助人工以自动合成图像的图像合成模型,从而为自动图像合成以提高合成效率,提供实现基础。

    技术研发人员:李豪
    受保护的技术使用者:杭州海康威视数字技术股份有限公司
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-28158.html

    最新回复(0)