基于扩散模型和零样本训练的高动态范围图像色调映射方法

    专利查询2025-06-23  5

    本发明属于图像处理,具体涉及基于扩散模型和零样本训练的高动态范围图像色调映射方法。
    背景技术
    ::1、高动态范围(high dynamic range,hdr)图像和普通的图像相比具有更大的位宽,因此可以记录更丰富的信息,尤其是在极端的光照条件下具有优势。但hdr图像无法直接在普通的显示设备上显示,因此需要进行色调映射,将hdr图像的像素值映射到可显示的低动态范围(low dynamic range,ldr)内,在生成正常色调的同时尽量保留原图所记录的丰富信息。2、然而,理论上无法得到成对的hdr-高质量ldr数据集。现有的先进方法[1][2]多利用生成对抗网络解决这一问题,使用的损失函数包括一项结构保持项和一项风格自然度项。但这两个目标的优化方向可能不同,导致结果既无法较好地保留原图信息,又缺乏自然的色调。还有一些工作[3]在暗光图像增强的数据集上训练模型,但对于hdr图像色调映射任务而言效果不佳。技术实现思路1、本发明的目的在于提供一种基于扩散模型和零样本训练的高动态范围图像色调映射方法,以很好地保留原图信息,提高hdr图像色调映射效果。2、本发明提供的基于扩散模型和零样本训练的高动态范围图像色调映射方法,包括构建一个色调映射网络模型并集成到扩散模型的框架中,将结构信息和亮度大致分布图作为扩散模型的条件输入,利用原图的结构信息修正扩散模型反向采样的中间结果等。本发明流程参见图1,具体步骤为:3、(1)构建色调映射网络模型,用于扩散模型的每一步。该网络模型结构包括用于预训练的生成模型以及该模型的控制模块,如图2所示。所述预训练的生成模型采用稳定扩散模型[4](stable diffusion,下文简称sd模型)的网络结构,主要包括:级联的四个尺度的编码模块,一个中间模块,以及级联的四个尺度的解码模块;所述控制模块的结构包括和sd模型相同的四个尺度的编码模块,但在每个尺度的神经网络最后加入了一个零卷积层。控制模块每个尺度的输出加至生成模型对应尺度输出的特征图上,以此控制生成模型的最终输出结果。控制模块的输入包括图像每个像素处的结构信息和亮度大致分布图。其中:4、每个像素处的结构信息的计算式为:5、6、式中,iori表示原图,μori和σori分别表示图像的局部高斯均值和局部标准差,ε是为防止除以0而引入的一个较小的值,(i,j)是当前像素在图像中的坐标;μori和σori的具体计算式为:7、8、其中,k表示高斯滤波的窗口大小,ω表示高斯滤波核。9、亮度大致分布图的计算方法,在训练阶段和测试阶段是不同的。在训练阶段,计算方法是对图像的亮度通道进行均值滤波;在测试阶段,先将图像进行预处理,具体采用全局色调映射[2],再进行均值滤波。预处理方法的计算式为:10、11、其中,log表示对数函数,max为取最大值的操作,y表示输入图像的亮度通道,ε是为了防止除以0而设置的一个较小的值,参数λ通过求解式(5)的优化问题得到:12、13、其中,hl(yc)表示yc的直方图,hl(ldr)为大量高质量自然ldr图像亮度通道的平均直方图。14、在训练阶段,以上描述的网络结构被集成在去噪扩散概率模型(denoisingdiffusion probabilistic models,ddpm)[5]中;在测试阶段,以上描述的网络结构被集成在去噪扩散隐式模型(denoising diffusion implicit models,下文简称ddim)[6]中。在这两种扩散模型中,本发明设计的网络用于预测扩散模型每一步所加的噪声。15、(2)在步骤(1)中所描述的网络模型的基础上,将结构信息输入控制模块的第一个尺度的编码模块,将亮度大致分布图输入控制模块的第二个尺度的编码模块,可以进一步增强输出图像的细节信息。16、(3)在步骤(1)中所提及的ddim的基础上,对它的反向采样迭代过程的每次迭代或部分次迭代生成的中间结果进行修正,即:取生成结果的色调信息,将它和原图的结构信息进行组合,以进一步保护原图的结构信息。修正后的结果再根据扩散模型的公式进行反向采样过程后续的计算。17、具体地,对于ddim反向采样的任意一次迭代,先用ddim原始算法的公式算出对无噪数据z0的初始估计,计算式为:18、19、其中,为ddim本次迭代得到的对无噪数据的隐空间特征嵌入(latent spaceembedding)z0的初始估计,zt为上一次迭代的结果,为ddim预定义的权重,∈θ(zt,t,c)为步骤(1)中所述的网络模型,t为当前迭代的时间步,c为网络模型的条件输入。20、然后,利用原图的结构信息对做修正。修正方法为:21、22、其中,是将由sd模型的隐空间转到图像域的操作,tsd表示对图像进行色调-结构分解,即根据步骤(1)中的公式(1)~(3)计算图像的局部高斯均值、局部方差和结构信息,γ是一个控制图像细节增强程度的超参数,为原图的结构信息,ε是将图像转到sd模型的隐空间的操作;得到之后,将其作为本次迭代对z0的最终估计,根据ddim原始算法的原理进行本次迭代后续的计算,得到本次迭代的结果。本次迭代后续计算的计算式为:23、24、式中的也是ddim预定义的权重。25、(4)网络的训练和测试。在高质量的ldr图像数据集上训练网络。训练时冻结生成模型的参数,仅训练控制模块。采用的损失函数与[4],[5]等文献使用的损失函数都相同,即:网络预测出的噪声和实际在无噪图像上所加的噪声的l2损失。训练完成之后,该模型可直接用于hdr图像的色调映射或其他类似任务。26、在测试时,对网络生成的图片仅取它的亮度分量,然后用下列公式转换成rgb图像:27、28、其中,ypred和y分别是网络生成图和原图的亮度分量,i∈{r,g,b},和分别表示输入图像和最终输出结果的rgb三通道之一,s为超参数。29、本发明的技术特点和性能优势主要是:30、仅需用ldr图像训练网络,得到的网络模型可以直接用于hdr图像的色调映射或其他类似的任务,而不需要在待处理的图像类别上重新训练,即可以很好地保留原图信息,提高hdr图像色调映射效果。技术特征:1.一种基于扩散模型和零样本训练的高动态范围图像色调映射方法,其特征在于,包括构建一个色调映射网络模型并集成到扩散模型的框架中,将结构信息和亮度大致分布图作为扩散模型的条件输入,利用原图的结构信息修正扩散模型反向采样的中间结果;具体步骤为:技术总结本发明属于图像处理
    技术领域
    :,具体涉及基于扩散模型和零样本训练的高动态范围图像色调映射方法。本发明包括构建色调映射网络模型,并将其集成到扩散模型的框架中,将结构信息和亮度大致分布图作为扩散模型的条件输入,利用原图的结构信息修正扩散模型反向采样的中间结果等。网络模型包括生成模型以及其控制模块;生成模型包括级联的四个尺度的编码模块、一个中间模块以及级联的四个尺度解码模块;控制模块包括和SD模型相同的四个尺度的编码模块,并在每个尺度的网络最后加入零卷积层。控制模块每个尺度的输出加至生成模型对应尺度输出的特征图上,以此控制生成模型的最终输出结果。本发明可以很好地保留原图信息,提高HDR图像色调映射效果。技术研发人员:范益波,朱若溪,荆明娥受保护的技术使用者:复旦大学技术研发日:技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29720.html

    最新回复(0)