一种基于深度学习的水下图像增强方法

专利查询2022-07-07 259

1.本发明属于深度学习和计算机视觉领域，具体涉及一种基于计算机视觉的水下图像增强方法。

背景技术：

2.高质量的水下图像是理解水下信息的前提，对实际的海底探测、水下生物多样性研究、水下环境保护等工程项目和科学研究有着十分重要的影响。然而，受水中杂质、气泡等物理环境的影响，水下图像的质量往往会出现一定的退化。水对光的散射作用导致获取到的水下图像纹理模糊，并存在一定的雾化现象。水对光的吸收作用导致水下图像颜色失真，波长越长的光被吸收的越明显，导致水下图像基本呈现出蓝、绿色调。因此，为了解决上述问题，国内外的研究学者利用计算机视觉技术，对水下图像质量的恢复展开了深入研究。
3.现有的方法主要是分为两类，一类是基于水下光学成像模型的水下图像增强方法，另一类是通过直接调整图像像素分布的非物理模型图像增强方法。然而，基于物理模型的水下图像增强方法过度依赖于人工设置参数，不具备普适性和泛化性。另一方面，基于非物理模型的水下图像增强方法一般没有考虑到图像的r、g、b通道在水中传输过程中的衰减程度不同，无法很好地应对水下场景复杂、光照强度不均匀和噪声干扰明显的情况。
4.因此，迫切需要一种既能够改善由于水下场景复杂、光照强度不均匀、噪声干扰严重等因素造成的水下图像质量提升不明显，也能避免水下成像模型的人工参数设置复杂的水下图像增强方法。

技术实现要素：

5.本发明提供了一种基于深度学习的水下图像增强方法，目的是改善现有技术得到的水下图像照度低、噪声高、分辨率低、雾化严重、对比度不明显和颜色失真等图像整体视觉质量退化问题，避免进一步影响目标物体的识别、追踪和检测。本发明通过深度卷积网络学习水下图像退化的底层特征，使网络模型能够适应复杂的水下场景和光照变化，并减少了增强过程中人工操作的干预。
6.本发明所提出的技术问题是这样解决的：
7.一种基于深度学习的水下图像增强方法，包括以下步骤：
8.步骤1，通道拆分：将输入的原始图像拆分为r、g、b三个通道矩阵，并分别将三个通道矩阵的像素值归一化到相同的数据分布；
9.步骤2，多尺度退化特征提取：将步骤1得到的三个通道分别输入到三个多尺度融合注意力模块中提取不同通道下的水下衰减特征，得到不同通道的特征矩阵wr、wg、wb，且每个特征矩阵的维度均为t；
10.步骤3，通道堆叠：将步骤2输出的不同通道的特征矩阵wr、wg、wb使用通道堆叠的方式融合为3
×
t维度的特征图，即在同一个像素坐标(xi,yj),i＝1,2,3,...,p,j＝1,2,3,...,q上进行堆叠，p和q分别表示特征矩阵的行和列的大小，一般情况下p和q的值相等；
11.步骤4，感兴趣特征区域提取：依据步骤3得到多通道特征图，运用通道注意力(channel-wise attention，ca)机制关注目标中感兴趣的区域像素，且不改变特征图的维度；
12.步骤5，1
×
1的卷积运算：利用1
×
1的卷积运算，将步骤4处理后的多通道特征图的维度从3
×
t压缩到与原始输入图像相同的通道维度，得到新的特征图r(x,y),x＝1,2,3,...,m,y＝1,2,3,...,n，m和n分别表示特征图的长和宽；
13.步骤6，特征融合：运用跳层连接的思想，将步骤5得到的新的特征图r(x,y)与原始输入图像o(x,y),x＝1,2,3,...,m,y＝1,2,3,...,n在相对应的像素坐标位置上直接相加并更新r(x,y)，即r(x,y) o(x,y)
→
r(x,y)；
14.步骤7，将步骤的6得到特征融合结果r(x,y)和步骤1中的原始图像o(x,y)进行通道堆叠得到r
t
(x,y)并输入到步骤1中，利用步骤5的方法降低r
t
(x,y)的特征维度得到r1(x,y)并重复步骤1-6得到特征图r2(x,y)，再将r2(x,y)与r1(x,y)进行通道堆叠后重复n次上述的过程；
15.步骤8，将步骤7输出的结果经过卷积核大小为3
×
3的卷积运算得到特征图像rn(x,y)，将rn(x,y)与o(x,y)直接相加得到增强的图像rf(x,y)，即rn(x,y) o(x,y)
→
rf(x,y)；
16.步骤9，使用均方差损失函数l
mse
、图像质量损失函数l
ssim
与改进的颜色损失函数l
cl
和反向误差传播算法对上述步骤1-8进行训练，训练完成后保存水下图像增强网络模型和权重；
17.步骤10，使用步骤9已训练好的网络模型和权重，增强输入的水下测试图像。
18.本发明步骤2包括：
19.步骤2-1，将步骤1得到的单通道图or、og、ob分为两条支线，分别与3
×
3和5
×
5大小的卷积核做运算，并将运算的结果直接相加得到特征图f'r、f'g、f'b：
20.f'r＝conv3×3(or) conv5×5(or)
21.f'g＝conv3×3(og) conv5×5(og)
22.f'b＝conv3×3(ob) conv5×5(ob)
23.其中，conv3×3(
·
)和conv5×5(
·
)分别表示卷积核大小为3
×
3和5
×
5的卷积运算；
24.步骤2-2，将步骤2-1得到的f'r、f'g、f'b分别与再与3
×
3和5
×
5大小的卷积核做运算，并将运算的结果进行通道堆叠，然后通过卷积核大小为1
×
1的卷积运算将堆叠的通道维度压缩到三通道得到特征图f”r
、f”g
、f”b
：
25.f”r
＝conv1×1(γ(conv3×3(f'r),conv5×5(f'r)))
26.f”g
＝conv1×1(γ(conv3×3(f'g),conv5×5(f'g)))
27.f”b
＝conv1×1(γ(conv3×3(f'b),conv5×5(f'b)))
28.其中，γ(
·
)表示相同大小矩阵的通道堆叠，详见步骤3，conv1×1(
·
)表示卷积核大小为1
×
1的卷积运算；
29.步骤2-3，将步骤2-2得到的f”r
、f”g
、f”b
分别输入到空间注意力(spatial attention，sa)模块，即对输入的f”r
、f”g
、f”b
分别进行通道维度的平均池化和最大池化得到中间结果γ，然后通过一个卷积层和激活函数得到三个空间注意力矩阵，最后通过三个空间注意力矩阵与f”r
、f”g
、f”b
点乘，提取空间感兴趣特征得到注意力图f”'r、f”'g、f”'b：
30.γ＝γ(p(f”c
),a(f”c
)),c∈{r,g,b}
[0031][0032]
f”'s＝f”c
·
ψ(conv3×3(γ)),c∈{r,g,b},s∈{r,g,b}
[0033]
其中，p(
·
)和a(
·
)分别表示最大池化和平均池化，ψ表示sigmoid激活函数。
[0034]
本发明步骤9包括：
[0035]
步骤9-1，将步骤步骤8得到的rf(x,y)与t(x,y)使用改进的颜色损失函数l
cl
来描述它们之间的颜色空间向量的方向一致性，首先求出两张图像的余弦相似度similarity和两张图像在红色通道上的余弦相似度similarityr：
[0036][0037][0038]
其中，tr(x,y)表示t(x,y)的红色通道图，r
fr
(x,y)表示rf(x,y)的红色通道图，ω和ζ的值均为0-1之间；
[0039]
步骤9-2，将步骤9-1得到similarity和similarityr分别计算反三角函数值再相加得到l
cl
:
[0040]
l
cl
＝fc(similarity) λ
·
fc(similarityr)
[0041]
其中，f(
·
)表示反余弦三角函数，λ的值为0-1之间。
[0042]
本发明提出了一种基于深度学习的水下图像增强方法，有益效果在于：
[0043]
本发明利用深度学习的方法实现了水下图像的整体上视觉质量提升，能够有效地应用于场景复杂、光照不均匀、图像雾化严重和较高噪声的水下图像；本发明通过对水下图像的通道进行拆分，关注不同通道的衰减程度，能够有效地校正水下图像颜色失真；本发明利用注意力机制提取感兴趣区域的退化特征，消除了光照不均匀和噪声的干扰；本发明通过跳层连接、特征合并和多层神经网络避免了人工参数的选择，同时也可以解决水下场景复杂和图像雾化严重的的问题，提升了方法的泛化性和鲁棒性。
附图说明
[0044]
图1为本发明实施例的水下图像增强方法的总流程图；
[0045]
图2为本发明实施例的神经网络训练及应用流程图；
[0046]
图3为本发明实施例的多尺度退化特征提取流程图；
[0047]
图4为本发明实施例的原始水下图像之一；
[0048]
图5为本发明实施例的r通道矩阵图；
[0049]
图6为本发明实施例的g通道矩阵图；
[0050]
图7为本发明实施例的b通道矩阵图；
[0051]
图8为本发明实施例的网络特征提取图；
[0052]
图9为本发明实施例的网络增强后的水下图像；
[0053]
图10为本发明实施例的参考的水下图像；
具体实施方式
[0054]
下面结合附图及实施例对本发明做进一步说明。
[0055]
本发明方法所总体流程如图1所示，其中包括神经网络的训练流程如图2所示，多尺度退化特征提取的流程如图3所示。本发明实施例中的水下图像增强的具体构建步骤如下：
[0056]
步骤1，通道拆分：将输入的原始图像(如图4所示)拆分为r、g、b三个通道矩阵，如图5、图6和图7所示，并分别将三个通道矩阵的像素值归一化到0-1之间；
[0057]
步骤2，多尺度退化特征提取：将步骤1得到的三个通道分别输入到三个多尺度融合注意力模块中提取不同通道下的水下衰减特征，得到不同通道的特征矩阵wr、wg、wb，且每个特征矩阵的维度均为t；
[0058]
步骤3，通道堆叠：将步骤2输出的不同通道的特征矩阵wr、wg、wb使用通道堆叠的方式融合为3
×
t维度的特征图，即在同一个像素坐标(xi,yj),i＝1,2,3,...,p,j＝1,2,3,...,q上进行堆叠，p和q分别表示特征矩阵的行和列的大小，一般情况下p和q的值相等；
[0059]
步骤4，感兴趣特征区域提取：依据步骤3得到多通道特征图，运用通道注意力(channel-wise attention，ca)机制关注目标中感兴趣的区域像素，且不改变特征图的维度；
[0060]
步骤5，1
×
1的卷积运算：利用1
×
1的卷积运算，将步骤4处理后的多通道特征图的维度从3
×
t压缩到与原始输入图像相同的通道维度，得到新的特征图r(x,y),x＝1,2,3,...,m,y＝1,2,3,...,n，如图8所示，m和n分别表示特征图的长和宽；
[0061]
步骤6，特征融合：运用跳层连接的思想，将步骤5得到的新的特征图r(x,y)与原始输入图像o(x,y),x＝1,2,3,...,m,y＝1,2,3,...,n在相对应的像素坐标位置上直接相加并更新r(x,y)，即r(x,y) o(x,y)
→
r(x,y)；
[0062]
步骤7，将步骤的6得到特征融合结果r(x,y)和步骤1中的原始图像o(x,y)进行通道堆叠得到r
t
(x,y)并输入到步骤1中，利用步骤5的方法降低r
t
(x,y)的特征维度得到r1(x,y)并重复步骤1-6得到特征图r2(x,y)，再将r2(x,y)与r1(x,y)进行通道堆叠后重复n次上述的过程；
[0063]
步骤8，将步骤7输出的结果经过卷积核大小为3
×
3的卷积运算得到特征图像rn(x,y)，将rn(x,y)与o(x,y)直接相加得到增强的图像rf(x,y)，即rn(x,y) o(x,y)
→
rf(x,y)，rf(x,y)如图9所示；
[0064]
步骤9，使用均方差损失函数l
mse
、图像质量损失函数l
ssim
与改进的颜色损失函数l
cl
和反向误差传播算法对上述步骤1-8进行训练，训练完成后保存水下图像增强网络模型和权重；
[0065]
步骤10，使用步骤9已训练好的网络模型和权重，增强输入的水下测试图像。
[0066]
本发明步骤2包括：
[0067]
步骤2-1，将步骤1得到的单通道图or、og、ob分为两条支线，分别与3
×
3和5
×
5大小的卷积核做运算，并将运算的结果直接相加得到特征图f'r、f'g、f'b：
[0068]
f'r＝conv3×3(or) conv5×5(or)
[0069]
f'g＝conv3×3(og) conv5×5(og)
[0070]
f'b＝conv3×3(ob) conv5×5(ob)
[0071]
其中，conv3×3(
·
)和conv5×5(
·
)分别表示卷积核大小为3
×
3和5
×
5的卷积运算；
[0072]
步骤2-2，将步骤2-1得到的f'r、f'g、f'b分别与再与3
×
3和5
×
5大小的卷积核做运算，并将运算的结果进行通道堆叠提取水下图像的多尺度退化特征(如图3所示)，然后通过卷积核大小为1
×
1的卷积运算将堆叠的通道维度压缩到三通道得到特征图f”r
、f”g
、f”b
：
[0073]
f”r
＝conv1×1(γ(conv3×3(f'r),conv5×5(f'r)))
[0074]
f”g
＝conv1×1(γ(conv3×3(f'g),conv5×5(f'g)))
[0075]
f”b
＝conv1×1(γ(conv3×3(f'b),conv5
×
5(f'b)))
[0076]
其中，γ(
·
)表示相同大小矩阵的通道堆叠，详见步骤3，conv1×1(
·
)表示卷积核大小为1
×
1的卷积运算；
[0077]
步骤2-3，将步骤2-2得到的f”r
、f”g
、f”b
分别输入到空间注意力(spatial attention，sa)模块，即对输入的f”r
、f”g
、f”b
分别进行通道维度的平均池化和最大池化得到中间结果γ，然后通过一个卷积核大小为3
×
3的卷积层和sigmoid激活函数得到三个空间注意力矩阵，最后通过三个空间注意力矩阵与f”r
、f”g
、f”b
点乘，提取空间感兴趣特征得到注意力图f”'r、f”'g、f”'b：
[0078]
γ＝γ(p(f”c
),a(f”c
)),c∈{r,g,b}
[0079][0080]
f”'s＝f”c
·
ψ(conv3×3(γ)),c∈{r,g,b},s∈{r,g,b}
[0081]
其中，p(
·
)和a(
·
)分别表示最大池化和平均池化，ψ表示sigmoid激活函数。
[0082]
本发明步骤9包括：
[0083]
步骤9-1，将步骤8得到的rf(x,y)与参考图像t(x,y)(如图10所示)使用均方误差函数l
mse
来描述它们之间的相似性：
[0084][0085]
其中，h、w、c分别表示图像的高度、宽带和通道数；
[0086]
步骤9-2，将步骤8得到的rf(x,y)与t(x,y)使用结构相似函数l
ssim
表示它们之间的结构相似度：
[0087][0088]
其中，α
t(x,y)
和分别表示t(x,y)的均值和方差，β
t(x,y)
和分别表示rf(x,y)的均值和方差，c1和c2是保持等式稳定的常数；
[0089]
步骤9-3，将步骤步骤8得到的rf(x,y)与t(x,y)使用改进的颜色损失函数l
cl
来描述它们之间的颜色空间向量的方向一致性，首先求出两张图像的余弦相似度similarity和两张图像在红色通道上的余弦相似度similarityr：
[0090]
[0091][0092]
其中，tr(x,y)表示t(x,y)的红色通道图，r
fr
(x,y)表示rf(x,y)的红色通道图，ω和ζ的值均为1
×
10-6
；
[0093]
步骤9-4，将步骤9-3得到similarity和similarityr分别计算反三角函数值再相加得到l
cl
:
[0094]
l
cl
＝fc(similarity) λ
·
fc(similarityr)
[0095]
其中，f(
·
)表示反余弦三角函数，λ的值为0.1；
[0096]
步骤9-5，将步骤9-1至9-4中提到的三个损失函数l
mse
、l
ssim
、l
cl
做一个线性的组合，得到总的损失函数l
all
:
[0097]
l
all
＝l
mse
β
·
l
ssim
γ
·
l
cl
[0098]
其中，β、γ的值分别是0.3和1。
[0099]
本发明利用深度学习的方法实现了水下图像的整体上视觉质量的提升，能够有效地应用于场景复杂、光照不均匀、图像雾化严重和较高噪声的水下图像；本发明通过对水下图像的通道进行拆分，关注不同通道的衰减程度，能够有效地校正水下图像颜色失真；本发明利用注意力机制提取感兴趣区域的退化特征，消除了光照不均匀和噪声的干扰；本发明通过跳层连接、特征合并和多层神经网络避免人工参数的选择，同时可以解决水下场景复杂和图像雾化严重的的问题，并提升方法的泛化性和鲁棒性。
[0100]
本发明提供了一种基于深度学习的水下图像增强方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人人员还可以做出不脱离本发明原理的改进和变形，这些改进和变形仍属于本发明的保护范围。

转载请注明原文地址:https://tc.8miu.com/read-924.html

专利

最新回复(0)