本发明涉及视觉生成,尤其涉及一种简单安全的视觉生成提示工程方法、设备、介质及产品。
背景技术:
::1、视觉生成旨在产生与所提供的内容相一致的视觉结果(如图像、视频)。最近,随着大语言模型(llm)的出现及其在视觉大模型(lvm)上的增强,一些文本到图像(t2i)合成方法,如glide、cogview、stablediffusion、cogview2和imagen,以及文本到视频(t2v)合成方法如cogvideo和lvdm经历了一场革命,大大提高了传统t2i模型的指令遵循能力。然而,由于无法通过微调或再训练来提高视觉生成模型的性能,研究人员已经开始寻找能够在不进行额外训练的情况下提高生成性能的方法。提高t2i模型生成质量的关键在于设计有效的提示。lvm表现出较强的文本理解能力,为更好地满足特定的图像生成需求带来了一种提示工程方法。2、然而,现有的提示工程方法主要通过在提示词中引入随机的额外词汇,以生成高质量的提示。这些方法大多使用弱监督的强化学习方法来自动优化提示。这种随机性可能会改变原始的语义,并引入不安全的因素,从而引起生成内容的安全问题。技术实现思路1、本发明的发明目的在于:克服现有技术的不足,提供一种简单安全的视觉生成提示工程方法、设备、介质及产品,本发明基于引入的最优相机描述以避免内容安全问题;同时使用不同的视觉生成模型以提升生成图像的生成质量,保持文本到图像的一致性,提升生成内容安全性。2、一方面,本发明提供了一种简单安全的视觉生成提示工程方法,该方法包括下列步骤:3、步骤1,基于多个公开数据集创建原始提示词集合;4、其中,采用的公开数据集包括:包含图像和其图像描述语句的第一数据集,包含不同主题的真实图像的第二数据集,以及包含用于图像生成的图像描述语句的第三数据集;优选的,三个公开数据集可以分别采用mscoco、imagenet和diffusiondb;5、通过大语言模型(例如gpt-4)对第一数据集中的图像进行标题生成,并通过大语言模型对第一数据集中的图像描述进行分析,以生成新的图像描述语句,即将第一数据集的图像描述输入大语言模型,基于其输出生成第一图像描述语句;6、分别提取出第二数据集中的不同主题的图像作为图像子集,并通过大语言模型对图像子集生成相应的图像描述语句,得到第二图像描述语句;7、利用大语言模型对第三数据集中不同主题的图像描述语句进行总结分析,以生成新的图像描述语句,即将第三数据集中不同主题的图像描述语句输入大语言模型,基于其输出生成第三图像描述语句;8、基于预置的提示词,直接通过大语言模型生成不同类型的用于视觉内容生成的第四图像描述语句;9、基于大语言模型输出的所有第一、第二、第三和第四图像描述语句得到用于视觉内容生成的原始提示词集合;10、本发明通过步骤1生成了一个关于视觉内容生成的描述语句的候选池,进而可以通过大语言模型对候选池进行筛选,过滤掉其中lvm难以理解的语句以及表述不明确的语句,从而生成最终的原始提示词集合;11、步骤2,对原始提示词集合进行分类并为每个类别配置最优相机;12、基于图像类别对原始提示词集合进行分类并设置每个分类的分类标签,以及为每个类别设置多个拍摄主题的拍摄图像(即真实图像)和对应的相机型号,即拍摄主题和相机型号一一对应,并在每个类别的提示词中添加不同的相机描述(描述内容包括相机名称和型号);13、对每一个类别的提示词,将起不同相机描述所对应的提示词输入大语言模型,以生成对应每个相机描述的生成图像;评估生成图像和其对应的真实图像之间的分布差距,以及评估生成图像和对应的提示词之间的一致性;再将分布差距最低并且一致性下降最少的提示词中的相机描述作为当前类别的最优相机;14、优选的,可采用fid(fréchet inception distance)评估指标评估成图像和其对应的真实图像之间的分布差距,以及可采用clip score指标衡量经过clip(contrastivelanguage-image pre-training)之后的文本表示和图片表示之间的余弦距离。15、通过步骤2,可以得到每一个图像类别所对应的最优相机。16、步骤3,对原始提示词集合中每个原始提示词进行相机描述映射,生成优化提示词;17、以原始提示词集合中的每个原始提示词作为输入对采用的预训练的语言模型(优选bert(bidirectional encoder representations from transformer)模型)进行微调,得到微调后的语言模型;18、再基于微调后的语言模型获取原始提示词集合中的每个原始提示词的图像类别标签,并基于步骤2得到的每个分类标签所对应的最优相机,将当前原始提示词所对应的图像类别标签映射到对应的相机描述,即本发明将微调后的语言模型作为分类器,从而实现从原始提示到相机描述的自动匹配;最后,将这些相机描述添加到相应的原始提示词中,从而生成优化提示词,从而基于所有优化提示词得到提示优化数据集;19、步骤4,基于原始提示词和优化提示词对比生成视觉生成内容;20、将生成目标的优化提示词输入大语言模型lvm,得到第一生成图像;21、再将与优化提示词所对应的原始提示词和第一生成图像一起输入到lvm进行一次询问,通过lvm判断生成的第一生成图像与原始提示词是否对齐;若对齐,则直接将第一生成图像作为最终的视觉生成内容;若未对齐,则将当前的优化提示词再次输入到lvm以再次生成第二生成图像,并将第二生成图像作为最终的视觉生成内容。22、另一方面,本发明还公开了一种计算设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行所述计算机程序以实现本发明的一种简单安全的视觉生成提示工程方法。23、另一方面,本发明还公开了一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本发明的一种简单安全的视觉生成提示工程方法。24、再一方面,本发明还公开了一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现本发明的一种简单安全的视觉生成提示工程方法。25、本发明提供的技术方案至少带来如下有益效果:26、本发明通过为不同类型的图像提示词提供最优的相机描述,避免了在提示词中改变原始内容或引入不安全因素的问题;同时使用不同的生成模型进行视觉生成,可以更广泛的验证优化提示在不同的维度都能够提高生成质量,并保持了文本到图像的一致性,对比其他方法,具有更高的提示词安全性。技术特征:1.一种简单安全的视觉生成提示工程方法,其特征在于,包括下列步骤:2.如权利要求1所述的方法,其特征在于,步骤1中,第一数据集采用mscoco数据集,第二数据集采用imagenet数据集,第三数据集采用diffusiondb数据集。3.如权利要求1所述的方法,其特征在于,步骤1中的大语言模型采用gpt-4模型。4.如权利要求1所述的方法,其特征在于,步骤2中,采用fid(fréchet inceptiondistance)评估指标评估成图像和其对应的真实图像之间的分布差距,采用clip score指标衡量经clip(contrastive language-image pre-training)之后的文本表示和图片表示之间的余弦距离。5.如权利要求1所述的方法,其特征在于,步骤3中,预训练的语言模型为bert模型。6.一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1至5任一项所述方法的步骤。7.一种计算机可读存储介质,其上存储有计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至5任一项所述方法的步骤。8.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1至5任一项所述方法的步骤。技术总结本发明公开了一种简单安全的视觉生成提示工程方法、设备、介质及产品,视觉生成
技术领域:
:。本发明的方法包括:基于三个公开数据集创建原始提示词集合;对原始提示词集合进行分类并为每个类别配置最优相机;对原始提示词集合中每个原始提示词进行相机描述映射,生成优化提示词;基于原始提示词和优化提示词对比生成视觉生成内容。本发明通过为不同类型的图像提示词提供最优的相机描述,避免了在提示词中改变原始内容或引入不安全因素的问题;同时使用不同的生成模型进行视觉生成,可以更广泛的验证优化提示在不同的维度都能够提高生成质量,并保持了文本到图像的一致性,对比其他方法,具有更高的提示词安全性。技术研发人员:任福继,程韡瑾,邓佳文,刘健知受保护的技术使用者:电子科技大学技术研发日:技术公布日:2024/11/26
转载请注明原文地址:https://tc.8miu.com/read-27189.html