本技术涉及人工智能领域,具体涉及一种微调训练并优化图像生成模型的方法。
背景技术:
::1、近年来,随着人工智能大模型技术取得关键突破,呈现出迅猛的发展态势,生成式人工智能aigc(artificial intelligence generated content)时代已逐步来临。aigc技术在与文字、图像创作强相关的领域(如场景美术、海报设计等领域)有着广泛应用,已引发重要变革,从根本上重塑了这些行业的生产模式,展现出颠覆性的潜力。2、尤其是在许多专业性较强、过程复杂、数字化程度较低,但同时又与图像强相关的专业中(如建筑行业方案设计阶段的建筑设计、景观设计、室内设计等领域),aigc技术有着重要的应用前景,能够从根本上提升这些行业的生产效率,如:方案设计初期概念创作阶段可输入概念文字、草图、案例参考图素材等生成设计意象进行选形,方案设计中期深化迭代阶段可基于当前方案图像一键迭代衍生大量相似方案,方案设计后期效果表达阶段可基于已有模型截图进行快速渲染生成效果图等。3、目前,各类专业(如服装摄影、建筑设计、人物原画等)虽已出现多个以开源的稳定扩散模型(stable diffusion model)为基础,微调训练而成的,专门解决这类专业任务的图像生成模型;但这些微调训练后的模型普遍存在相同问题:4、(1)模型泛化能力不强:单一模型难以完全解决该类专业在生产过程中各种不同的,复杂的应用场景与细分问题:如针对建筑行业微调训练的模型,无法在同一个模型中实现建筑、景观、室内等该行业多个设计环节的图像生成;同时无法对建筑领域某些专业性较强,数据量较少的建筑(如医疗建筑、交通建筑、观演建筑等)进行图像生成,仅能生成数据量较多的建筑图像(如住宅、商业、办公楼等)。5、(2)模型存在多角度不统一与生成图像细部扭曲模糊的底层问题:由于稳定扩散模型是以基于像素并根据输入的关键词(prompt)等信息进行引导、预测、降噪生成图像的,且基础的扩散模型本身对于某些专业的图像生成能力较弱。这样的图像生成方式与这些专业中传统的通过几何建模、模型渲染的方式生成图像的底层逻辑完全不同。导致训练后的模型无法识别同一方案中相同物体不同角度的视图,会在不同视图中生成无法对应上的细节构造与材质颜色:如同一建筑同一部位在南立面生成的图中为玻璃窗体的材质,在北立面生成的图中为木质格栅的材质。并且放大这些生成图像,会发现其细部像素是扭曲模糊的:如建筑立面直线的某些部位会出现弯曲,配景人的面部会出现扭曲等。6、这些问题使得现有的,针对各类专业微调训练的图像生成模型,都无法较好的、完全的解决该类专业生产过程中的各种问题(如某些建筑立面、透视角度表现较好的模型在鸟瞰角度表现极差,某些住宅商业类建筑表现较好的模型在公共建筑上表现极差),使专业人员将ai技术完全运用到实际生产中提升效率,还有一定距离。这些问题特别在针对建筑行业、产品设计等专业微调训练的多模态图像生成模型中体现得十分明显。技术实现思路1、本技术的目的是,提供一种微调训练并优化图像生成模型的方法,能够得到一系列针对专业细分任务的图像生成模型,提升模型对专业细分任务的表现能力与泛用性。2、第一方面,本技术提供一种微调训练并优化图像生成模型的方法。该方法包括:3、s1:针对特定专业,构建第一数据集;4、s2:利用第一数据集,将第一图像生成模型作为基础模型,采用第一训练框架,设置合适的参数对第一图像生成模型进行微调训练,得到第二图像生成模型;5、其中,第一训练框架为适合第一数据集和该专业任务需求的训练框架;6、s3:筛选出第一数据集中符合该专业评判标准和质量要求的数据,得到第二数据集;7、s4:利用第二数据集,将第二图像生成模型作为基础模型,采用第一训练框架,设置合适的参数对第二图像生成模型进行微调训练,得到第三图像生成模型;8、通过该步骤的微调训练,可以强化模型对于该专业各方面综合任务的表现能力。9、s5:按照该专业的不同细分任务,对第一数据集进行细分,得到多个第三数据集;10、其中,每个第三数据集是第一数据集对应于该专业的一种细分任务的一个子数据集;11、s6:分别利用多个第三数据集,将第三图像生成模型作为基础模型,采用第一训练框架,并根据相应第三数据集的特征分别调整适当的参数,对第三图像生成模型进行微调训练,得到多个第四图像生成模型;12、其中,每个第四图像生成模型对应该专业的一种细分任务;多个第四图像生成模型为一系列针对该专业的不同细分任务的图像生成模型;13、s7:分别筛选出多个第三数据集中符合对应的该专业细分任务评判标准和质量要求的数据,相应得到多个第四数据集;14、s8:分别利用多个第四数据集,将第四图像生成模型作为基础模型,采用第一训练框架,设置合适的参数对第四图像生成模型进行微调训练,分别得到多个第五图像生成模型。15、通过该步骤的微调训练,可以强化模型对于对应的该专业细分任务的表现能力。16、在一些可能的实现方式中,s2中,选择稳定扩散模型作为第一图像生成模型,选择dreambooth作为第一训练框架。17、在一些可能的实现方式中,微调训练过程中,通过样本图像、损失值曲线和学习率曲线监测和评估模型的训练进展,判断是否存在需要提前终止训练以调整模型的结构和训练参数的情况。18、在一些可能的实现方式中,每一轮微调训练过程中,保存每预设训练步数的过程模型以及训练了所有循环的最终模型;将各个过程模型、最终模型与基础模型部署到环境中,输入相同的参数,对比各个过程模型、最终模型与基础模型针对该专业任务的图像生成效果,选择综合表现最好的模型作为该轮微调训练最终所得模型。19、在一些可能的实现方式中,s4中,进行多轮微调训练,每一轮将上一轮训练优化后的模型作为基础模型进行反复迭代,直到优化后的模型在该该专业各类细分任务上都达到第一预设性能。20、在一些可能的实现方式中,s8中,进行多轮微调训练,每一轮将上一轮训练优化后的模型作为基础模型进行反复迭代,直到优化后的模型在该该专业特定类别细分任务上达到第二预设性能。21、在一些可能的实现方式中,每一轮微调训练过程,根据数据集的特征及数据量,参考先前的训练结果和评估指标,调整模型的结构和训练参数。22、第二方面,本技术提供一种电子设备,包括:存储器和处理器;23、存储器,用于存储计算机程序;24、处理器,用于调用计算机程序,以执行如上的微调训练并优化图像生成模型的方法。25、第三方面,本技术提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序在电子设备上运行时,使得电子设备实现如上的微调训练并优化图像生成模型的方法。26、第四方面,本技术提供一种计算机程序产品,包括计算机程序,计算机程序在电子设备上运行时,使得电子设备实现如上的微调训练并优化图像生成模型的方法。27、本技术上述第二到第四方面的具体实现方式可以参考上述第一方面的实现方式,在此不进行赘述。28、有益效果:29、(1)提升数据使用性30、对专业数据集的结构化分类与阶段性训练减少了数据的重复率,提升了数据的使用性,加强了对专业数据的管理。本技术提出的微调训练思路对于如何使ai技术更好的应用到生产过程综合复杂、数据量庞大、信息化程度低的传统行业有重要的参考价值。31、(2)提升模型对专业细分任务的表现能力与泛用性,增强ai技术在传统行业中的落地性32、阶段性持续使用数据驱动并优化模型的训练机制使最终的优化后系列性专业细分任务图像生成模型集在处理复杂生产过程中的各类问题时都有着出色表现。不同的子模型能够准确理解和解析专业要求,快速生成高质量的初始方案,同时在面对约束条件变更、调整等情况时,能迅速作出相应调整,保持输出图像的一致性和准确性。此外,模型的自我学习与优化能力使其在实践中不断积累经验,提升图像质量。本技术提出的微调训练方案对于如何使ai技术更好的应用到传统行业中解决实际工程问题,有重要参考价值,适用于专业类多模态图像生成模型的微调训练和优化。当前第1页12当前第1页12
技术特征:1.一种微调训练并优化图像生成模型的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述s2中,选择稳定扩散模型作为第一图像生成模型,选择dreambooth作为第一训练框架。
3.根据权利要求1所述的方法,其特征在于,所述微调训练过程中,通过样本图像、损失值曲线和学习率曲线监测和评估模型的训练进展,判断是否存在需要提前终止训练以调整模型的结构和训练参数的情况。
4.根据权利要求1所述的方法,其特征在于,每一轮微调训练过程中,保存每预设训练步数的过程模型以及训练了所有循环的最终模型;将各个过程模型、最终模型与基础模型部署到环境中,输入相同的参数,对比各个过程模型、最终模型与基础模型针对所述专业任务的图像生成效果,选择综合表现最好的模型作为该轮微调训练最终所得模型。
5.根据权利要求1所述的方法,其特征在于,所述s4中,进行多轮微调训练,每一轮将上一轮训练优化后的模型作为基础模型进行反复迭代,直到优化后的模型在该所述专业各类细分任务上都达到第一预设性能。
6.根据权利要求1所述的方法,其特征在于,所述s8中,进行多轮微调训练,每一轮将上一轮训练优化后的模型作为基础模型进行反复迭代,直到优化后的模型在该所述专业特定类别细分任务上达到第二预设性能。
7.根据权利要求5或6所述的方法,其特征在于,每一轮微调训练过程,根据数据集的特征及数据量,参考先前的训练结果和评估指标,调整模型的结构和训练参数。
8.一种电子设备,其特征在于,包括:存储器和处理器;
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在电子设备上运行时,使得所述电子设备实现如权利要求1至7中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在电子设备上运行时,使得所述电子设备实现如权利要求1至7中任一项所述的方法。
技术总结本申请公开了一种微调训练并优化图像生成模型的方法:通过将特定专业中的数据集进行结构性细分,划分为专业基础数据集、精筛专业基础数据集、多个专业细分子数据集、多个精筛专业细分子数据集,并针对细分后的不同子数据集进行阶段性的、多轮次的微调训练,不断优化和细化图像生成模型针对该专业综合性任务和不同细分任务的表现能力,最终得到优化后系列性专业细分任务图像生成模型集,使图像生成模型集中的各个子模型都可较好解决对应的该专业实际生产中遇到的各种复杂细分问题。
技术研发人员:贺成,吴平凡,孙昱,李星亮,龚灵力,陈梓绵,胡德森,王迅,张沁
受保护的技术使用者:湖南省建筑设计院集团股份有限公司
技术研发日:技术公布日:2024/11/26