一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法

    专利查询2025-12-17  11


    本发明涉及计算机视觉,尤其涉及一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法。


    背景技术:

    1、由于相机传感器的物理限制或不利的成像条件,图像在捕获、存储、传输和渲染过程中不可避免地会出现图像成像质量下降的问题。相应地,图像复原任务试图从退化的图像中恢复出原始的真实图像。根据所处理的图像退化因素的类型,图像复原任务又具体被分为图像去雾,图像去雨,图像去雪,图像去模糊,图像去噪以及低光照图像增强等。由于图像复原任务对于诸如图像分割和目标检测等高层计算机视觉任务至关重要,该任务在计算机视觉领域引起众多学者的广泛关注。

    2、由于具有无限个可行解来反演图像退化过程,图像复原任务是一个高度不适定的问题。因此,现有的工作致力于设计各种先验来约束解空间。早期的工作主要依靠统计观察来形成手工先验,但这种方法通用性很差,并且优化耗时。相比之下,目前流行的方法使用强大的深度学习技术来学习更一般的隐含先验,取得了优良的图像复原效果。此外,最近出现了各种通用方法,很好地解决了多种图像恢复任务,表明深度神经网络能够在通用框架下解决不同形式的逆问题。因此,这项新研究为图像复原集成化研究提供了强有力的技术支持。图像复原集成化研究旨在建立一个容纳多个图像复原任务的统一模型,从而使图像复原研究更接近现实应用。

    3、显然,图像复原集成化属于多任务学习的范围,其目标是接近整个解决方案空间内所有特定任务的共同最优状态。为了解决这个具有挑战性的问题,最初的方法侧重于解决特征纠缠,以保持不同任务之间的特异性。将这些方法称为基于特异性的方法。在这些方法中,由于不同任务之间的竞争,最终解点为强大的任务分配了更大的权重,可能偏离了最优点。不同的是,最近的方法开始通过将多个图像复原任务的各种分布映射到共享的分布来对不同任务的共性进行建模。将这些方法称为基于共性的方法。在这些方法中,由于寻求共同的晋升,解决点可能会为薄弱任务分配更大的权重。因此,基于特异性的方法和基于共性的方法都可能遇到跷跷板现象。为了避免跷跷板现象,本技术利用特异性和通用性的共同优势,将解点推向最优点的方向。


    技术实现思路

    1、本发明的目的是为了解决现有技术中存在的缺点,而提出的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,能够充分利用多种图像复原任务之间的特异性和通用性的共同优势,得到优良的图像复原单程集成模型。

    2、为了实现上述目的,本发明采用了如下技术方案:

    3、一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,包括如下步骤:

    4、步骤1、多尺度底层特征提取:输入多种退回类型的一批图像,对于任意输入图像,利用卷积操作将其转化多尺度张量特征;

    5、步骤2、构建通道分组型多头注意力机制:对于任意张量特征,将其转化为矩阵形式,对其通道进行分组,在每一组内计算多头注意力;

    6、步骤3、构建空间分割型多头注意力机制:对于任意张量特征,对其空间进行分割为多个窗口,将其转化为矩阵形式,在每一个窗口内计算多头注意力;

    7、步骤4、构建多尺度编码器和多尺度解码器:使用分组型多头注意力和空间分割型多头注意力组件视觉转换器模块,基于该模块构建多尺度编码器和多尺度解码器;

    8、步骤5、构建金字塔转换器:将多尺度编码器和多尺度解码器的同等层进行连接,得到金字塔转换器;

    9、步骤6、计算信息损失正则化损失函数:将任意输入图像输入到金字塔转换器,得到的复原图像,与其对应的真值图像计算信息损失正则化损失函数,基于该损失函数对金字塔转换器内的参数进行优化后,使用金字塔转换器对多种退回类型图像完成单程图像恢复任务。

    10、优选地,在步骤1中,具体步骤如下:

    11、s11:给定任意一幅输入退化图像i∈rh×w×3,使用3×3卷积层对其提取多尺度底层特征,在第0尺度上,底层特征被表示为:

    12、f0=conv(i)

    13、其中,f0∈rh×w×c,h×w表示张量特征f0的空间尺寸,c表示张量特征f0的通道数,conv(·)表示卷积操作;

    14、s12:在第l尺度上,其中0<l<l,l为总的尺度数目,底层特征被表示为:

    15、

    16、其中,为退化图像i在第l-1尺度上的表示,ds(·)表示下采样操作,conv(·)表示卷积操作。

    17、优选地,在步骤2中,具体步骤如下:

    18、s21:对于任意输入的张量特征将其变换为矩阵的形式,即:

    19、f′=reshape(f)

    20、其中,f′∈rt×c,reshape(·)表示矩阵变换函数;

    21、s22:将f′∈rt×c的通道分为g组,每一组被表示为假设自注意力机制的数目为h,则第h∈h个自注意力机制的计算公式为:

    22、

    23、其中,为fg的第h∈h个注意力特征,表示投影矩阵,为每个注意力特征的维度;上述注意力操作被执行h次,然后将h个注意力特征进行合并得到张量特征f的基于通道分组型多头注意力机制的注意力特征。

    24、优选地,在步骤3中,具体步骤如下:

    25、s31:对于任意输入的张量特征将其在空间上分割为若干个小窗口,假设每个窗口的大小为m×m,任意窗口内的张量特征被表示为fw∈rm×m×c,将其变换为矩阵的形式,即:

    26、f′w=reshape(fw)

    27、其中,reshape(·)表示矩阵变换函数;

    28、s32:假设自注意力机制的数目为h,则第h个自注意力机制的计算公式为:

    29、

    30、其中,fw的第h个注意力特征,表示投影矩阵,为每个注意力特征的维度;上述注意力操作被执行h次,然后将h个注意力特征进行合并得到张量特征f的基于空间分割型多头注意力机制的注意力特征。

    31、优选地,在步骤4中,具体步骤如下:

    32、s41:假设多尺度编码器的第(l-1)个阶段的特征被表示为将其输入到下采样层得到:

    33、

    34、其中,ds(·)表示下采样操作;

    35、s42:计算查询,键值和价值矩阵,即:

    36、

    37、其中,为线性投影矩阵,则相邻尺寸特征的融合被表示为:

    38、

    39、其中,d表示和中的通道的数目;

    40、s43:对s42步骤所产生的融合特征进行下述编码操作:

    41、

    42、其中,为多尺度编码器第l个阶段的特征输出,ln(·)表示正则化操作,ffn(·)表示神经网络的全连接操作,gca(·)表示步骤2中的通道分组型多头注意力机制,wsa(·)表示步骤3中的空间分割型多头注意力机制;

    43、s44:假设多尺度解码器的第(l-1)个阶段的特征被表示为将其输入到下采样层得到:

    44、

    45、其中,us(·)表示上采样操作;

    46、s45:对s44步骤所得到的特征进行下述解码操作:

    47、

    48、其中,为多尺度解码器第l个阶段的特征输出,ln(·)表示正则化操作,ffn(·)表示神经网络的全连接操作,gca(·)表示步骤2中的通道分组型多头注意力机制,wsa(·)表示步骤3中的空间分割型多头注意力机制。

    49、优选地,在步骤5中,具体步骤如下:

    50、s51:假设s41、s42、s43中的多尺度编码过程被整合为e(·),假设s44、s45中的多尺度解码过程被整合为d(·),则主干网络被表示为:

    51、

    52、其中,表示级联操作;

    53、s52:随机抽取多种退回类型的一批图像,每批图像的数目为n,给定任意一幅输入退化图像ii∈rh×w×3,1<i<n,经过主干网络后的特征被表示为:

    54、fi=b(ii)

    55、s53:对于特征fi,假设进行的后处理操作被表示为post(·),其具体操作如下:

    56、

    57、s54:将主干网络b(·)以及后处理post(·)级联起来,则得到金字塔转换器,即:

    58、

    59、其中,表示级联操作。

    60、优选地,在步骤6中,具体步骤如下:

    61、s61:随机抽取多种退回类型的一批图像,每批图像的数目为n,给定任意一幅输入退化图像ii∈rh×w×3,将其输入到金字塔转换器中,得到以下恢复图像:

    62、

    63、s62:假设退化图像ii的真值图像被表示为yi∈rh×w×3,则与yi之间的重构损失计算公式为:

    64、

    65、其中,|·|1为f-范数;

    66、s63:计算退化图像ii与真值图像之间的距离,得到初始权重系数,其表达式为:

    67、

    68、利用幂级数转换对权重系数w进行调整,其表达式为:

    69、

    70、其中,ε为很小的一个常数,α和β为待整定的参数;

    71、s64:对金字塔转器换进行优化的信息损失正则化损失函数的表达式为:

    72、l=lr×w

    73、根据上式利用梯度下降算法完成金字塔转换器的训练后,使用金字塔转换器对多种退回类型图像完成单程图像恢复任务。

    74、与现有技术相比,本发明具有以下有益效果:

    75、本发明能够充分利用多种图像复原任务之间的特异性和通用性的共同优势,得到优良的图像复原单程模型。


    技术特征:

    1.一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,包括如下步骤:

    2.根据权利要求1所述的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,在步骤1中,具体步骤如下:

    3.根据权利要求1所述的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,在步骤2中,具体步骤如下:

    4.根据权利要求1所述的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,在步骤3中,具体步骤如下:

    5.根据权利要求1所述的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,在步骤4中,具体步骤如下:

    6.根据权利要求5所述的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,在步骤5中,具体步骤如下:

    7.根据权利要求1所述的一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,其特征在于,在步骤6中,具体步骤如下:


    技术总结
    本发明涉及计算机视觉技术领域,尤其涉及一种基于金字塔转换器与信息损失正则化的图像复原单程模型方法,包括:首先对多种退回类型的图像进行多尺度底层特征提取,然后构建通道分组型多头注意力机制和空间分割型多头注意力机制;使用分组型多头注意力和空间分割型多头注意力组件视觉转换器模块,基于该模块构建多尺度编码器和多尺度解码器;接下来,将多尺度编码器和多尺度解码器的同等层进行连接,得到金字塔转换器;最后计算信息损失正则化损失函数对金字塔转换器内的参数进行优化。本发明能够充分利用多种图像复原任务之间的特异性和通用性的共同优势,从而解决多种图像复原任务集成过程中出现的跷跷板现象问题。

    技术研发人员:杨赛,何晓云,张立秋
    受保护的技术使用者:南通大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-32825.html

    最新回复(0)