一种基于注意力机制的双分支编解码沙丘形态类型识别模型

    专利查询2025-04-01  3


    本发明涉及计算机视觉识别技术,具体涉及一种基于注意力机制的双分支编解码沙丘形态类型识别模型。


    背景技术:

    1、沙丘是风沙作用形成的动态地貌,分布在世界各地的干旱和半干旱地区。这些沙丘具有多种形态特征,包括新月形沙丘、格状沙丘和复合型沙丘等。这些沙丘类型的准确识别和分类对于理解沙漠动力学、地貌演变和环境管理至关重要。在沙漠领域的研究中,采用了各种类型的遥感数据,每种数据由于分辨率不同而具有不同的观测范围。丰富多样的沙漠遥感数据集是开展沙漠研究的基础,为开展沙漠研究提供了可靠保证。监测沙漠动态的传统方法存在监测周期长、覆盖范围有限等局限性。然而,随着遥感技术的进步和广泛使用,沙漠时空变化的监测变得更加快速和客观。遥感技术能够有效地评价沙漠化过程,从而在更大范围内更及时地对沙漠生态系统的动态监测提供支持。

    2、传统的沙丘形态识别方法依赖于人工解译遥感影像,这往往耗时且通过人类主观判断容易缺乏客观性。因此,越来越需要自动化技术来高效识别和分类沙漠沙丘形态类型。近年来,深度学习在图像识别和分类方面表现出巨大的潜力,为沙丘形态类型的遥感数据分析奠定坚实基础。在深度学习的背景下,卷积神经网络(convolutional neuralnetwork,cnn)和其他先进机器学习算法的应用为自动化和精确的沙丘形态识别提供了前所未有的机会。利用深度学习技术,研究人基于深度学习的沙丘形态类型识别员可以开发能够从遥感数据中提取复杂特征的模型,从而高精度、高效地分类和识别不同的沙漠沙丘形态类型。此外,深度学习与多源遥感数据的融合,使得沙丘形态识别实现技术革新,提高了分类结果的准确性和可靠性。

    3、发明人所在的课题组提出了基于部分卷积和transformer的轻量化沙丘形态类型识别模型(partial convolution and transformer network,pctnet),其结合效率更高的部分卷积、能够良好表现全局信息的transformer以及针对数据量不均衡来突出类别特征的注意力机制,在沙丘形态类型识别任务中取得了出色识别效果,并表现出了优异的轻量化水平。但是,pctnet依旧延续了传统的unet模型结构,而unet网络结构是一种欠完备的网络结构。之所以称之为欠完备网络,是因为其网络中使用了过大的感受野,随着网络深度的增加,感受野也逐渐变大。然而,过大的感受野会导致网络过度关注更高级的全局语义信息,进而忽略了低级的局部细节语义信息。高分辨率局部细节语义信息需要较小的感受野来获取,即使unet具有用以获取细节特征的跳跃连接结构,但是其感受野的大小仍然受制于第一层网络的感受野,那么就需要一个过完备网络来弥补这一缺陷。

    4、针对上述技术问题,本发明提出了基于注意力机制的双分支编解码沙丘形态类型识别模型(dual-branch codec network based on attention mechanism,dbcanet)。dbcanet以双分支的结构,通过两层编码解码结构对特征信息进行提取实现沙丘形态类型识别任务。两层编码解码结构分别为一个过完备网络和一个欠完备网络,充分发挥大感受野与小感受野的优势。在欠完备网络中的编码器结构和过完备网络中的解码器结构中使用多尺度混合注意力模块在感受野逐渐减小的阶段对深层特征进行提取。而在过完备网络中的编码器结构和欠完备网络中的解码器结构中使用轻量级的carafe作为上采样算子,更好地实现了特征重组并减少了计算成本,进一步提升dbcanet的识别性能。


    技术实现思路

    1、本发明的目的是提供一种基于注意力机制的双分支编解码沙丘形态类型识别模型,所述的模型包括:过完备网络和欠完备网络,过完备网络位于上行支路,包括一个编码器1和一个解码器1;欠完备网络位于下行支路,包括一个编码器2和一个解码器2;特征图在每一个编解码器模块中都经历了四层的特征图尺度变化,其每经过一次尺度缩小或尺度扩大所得到的深层全局语义信息与浅层细节语义信息都需要进行交互,为后续网络提供一个特征信息更丰富的输入;

    2、通过四个编码融合模块f1、f2、f3和f4实现上述目标,各个部分特征图的计算方式如公式(1)-(4)所示;

    3、

    4、其中,fencoder1,n、fencoder2,n、fdecoder1,n和fdecoder2,n分别表示encoder1、encoder2、decoder1和decoder2中的第n个特征图,和分别表示f1、f2、f3和f4四个编码融合模块,hcarafe(·)表示carafe上采样操作,hds(·)表示下采样操作,hskip(·)表示当前特征图所对应的跳跃连接操作。

    5、优选的,所述的编码器2和解码器1中应用多尺度混合注意力机制。

    6、优选的,所述的多尺度混合注意力机制是将通道注意力机制和空间注意力机制叠加使用。

    7、优选的,所述的通道注意力机制中输入特征图经过多次通道切分,其计算方式如公式(5)-(6)所示:

    8、

    9、ki=2×(i+1)+1 (6)

    10、其中,多尺度特征的输出表示为fi∈rh×w×c′,fsplit,i∈rh×w×c′表示通道切分之后的特征图,n表示通道切分的部分数,表示每一个被切分部分的通道数,ki表示卷积核的大小;

    11、得到了多尺度特征图后对切分的通道进行融合,如公式(7)所示:

    12、f=concat(f0,f1,l,fn-1) (7)

    13、为了实现通道注意力机制,针对不同尺度的特征图需要获取通道注意力的权重,通过全局平均池化和全局最大池化结合的方式提取,如公式(8)所示:

    14、weighti=σ((gap(fi)+gmp(fi))/2),i=0,1,2,l,n-1 (8)

    15、其中,weighti表示通道权重值,σ表示线性激活操作,gap(·)表示全局平均池化操作,gmp(·)表示全局最大池化操作;

    16、根据不同尺度的特征图得到的通道注意力权重需要经过softmax操作,将上述通道权重值重标定,映射为零至一区间的概率值,如公式(9)所示,从而实现科学的通道权重标定,保证网络的稳定性;

    17、

    18、最后,将多尺度特征图fi与其对应尺度的通道注意力权值相乘,如公式(10)所示;将上述所得到与多尺度通道注意力加权之后的特征图进行维度拼接,并经过一个1×1的卷积,如公式(11)所示,解决了线性操作softmax的局限性,引入非线性因素,增强通道间的特征信息交互与可学习性;

    19、fweight′,i=fiweight′i,i=0,1,2,l,n-1 (10)

    20、foutput=conv1×1(concat(fweight′,0,fweight′,1,l,fweight′,n-1)) (11)。

    21、优选的,所述的空间注意力模块包括:(1)通过一个5×5的深度卷积将局部信息进行聚合,获得特征图的空间信息;(2)并行三路不同尺度的深度条形卷积,以多分支的形式捕获不同尺度的特征语义上下文信息;(3)通过一个1×1的卷积核,融合不同通道之间的空间注意力信息,得到最终的空间注意力权重,并与输入特征图进行加权,实现网络对特征图空间位置信息的关注,得到最终的输出结果。

    22、优选的,所述的空间注意力模块的计算方式如公式(12)-(13)所示:

    23、

    24、fspatial=fchannelweight (13)

    25、其中,weight表示空间注意力机制的权值,bi表示第i个分支,b0表示shortcut分支,dwconv(·)表示深度卷积操作,fchannel表示msham中通道注意力机制的输出,fspatial表示msham中空间注意力机制的输出。

    26、优选的,所述的编码融合模块f1、f2、f3和f4实的计算方式如公式(14)-(17)所示:

    27、f1output=conv1×1(concat(fencoder1,hcarafe(fencoder2))) (14)

    28、f2output=conv1×1(concat(hmp(fencoder1),fencoder2)) (15)

    29、f3output=conv1×1(concat(fdecoder1,hcarafe(fdecoder2),f1skip)) (16)

    30、f4output=conv1×1(concat(hmp(fdecoder1),fdecoder2,f2skip)) (17)

    31、其中,f1output、f2output、f3output和f4output分别表示f1、f2、f3和f4的输出特征图,fencoder1、fencoder2、fdecoder1和fdecoder2分别表示encoder1、encoder2、decoder1和decoder2中的输入特征图,f1skip和f2skip分别表示encoder1-decoder1和encoder2-decoder2结构中的跳跃连接,hcarafe(·)表示carafe上采样操作,hmp(·)表示最大池化操作。

    32、优选的,所述的特征上采样模块由上采样核预测模块和特征重组模块两部分组成,一个参数为h×w×c的输入特征图经过倍率为σ上采样后,得到一个参数为σh×σw×c的输出特征图。

    33、优选的,所述的上采样核预测模块中,输入特征图经过一个1×1的卷积将其通道数压缩至cm,经过一个kup×kup的卷积预测上采样核,得到的输出通道数为为了使不同位置对应使用各自上采样核,将其通道在空间维度展开,得到参数为的上采样核;经过softmax操作进行归一化,使其权值位于0至1的区间,以便后续网络实现上采样。

    34、优选的,所述的特征重组模块,以输出特征图映射回输入特征图部分为中心的kup×kup区域的该位置的各个通道与该点的上采样核进行点积操作,得到最终的上采样结果,如公式(18)所示:

    35、

    36、其中,χl″表示在目标位置处的输出,χ表示目标位置的输入,wl′表示目标位置的重组上采样核。

    37、本发明的有益效果是:本发明针对传统语义分割网络中的欠完备网络,提出了基于注意力机制的双分支编解码沙丘形态类型识别模型,通过双分支的过完备网络和欠完备网络来弥补小感受野来获取特征图局部细节信息的空白,使得双分支的结构能够充分发挥大感受野与小感受野的优势。双分支编解码结构通过编解码器混合模块将每层网络输出所得到的深层全局语义信息与浅层细节语义信息进行交互,获取更为丰富的特征信息。在欠完备网络中的编码器结构和过完备网络中的解码器结构中使用多尺度混合注意力模块在感受野逐渐减小的阶段对深层特征进行进一步提取,提高网络的表达能力。而在过完备网络中的编码器结构和欠完备网络中的解码器结构中使用轻量级的carafe作为上采样算子,有效实现了特征重组并减少了计算成本。最后在两个数据集上经过一系列的消融实验、有效性分析以及不同算法对比试验,证明了双分支编解码器结构、多尺度混合注意力模块、编解码融合模块和carafe特征上采样的有效性,并验证了本算法在不同数据集上的泛化能力和在不同算法之间识别性能的优势。


    技术特征:

    1.一种基于注意力机制的双分支编解码沙丘形态类型识别模型,其特征在于,所述的模型包括:过完备网络和欠完备网络,过完备网络位于上行支路,包括一个编码器1和一个解码器1;欠完备网络位于下行支路,包括一个编码器2和一个解码器2;特征图在每一个编解码器模块中都经历了四层的特征图尺度变化,其每经过一次尺度缩小或尺度扩大所得到的深层全局语义信息与浅层细节语义信息都需要进行交互,为后续网络提供一个特征信息更丰富的输入;

    2.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的编码器2和解码器1中应用多尺度混合注意力机制。

    3.如权利要求2所述的沙丘形态类型识别模型,其特征在于,所述的多尺度混合注意力机制是将通道注意力机制和空间注意力机制叠加使用。

    4.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的通道注意力机制中输入特征图经过多次通道切分,其计算方式如公式(5)-(6)所示:

    5.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的空间注意力模块包括:(1)通过一个5×5的深度卷积将局部信息进行聚合,获得特征图的空间信息;(2)并行三路不同尺度的深度条形卷积,以多分支的形式捕获不同尺度的特征语义上下文信息;(3)通过一个1×1的卷积核,融合不同通道之间的空间注意力信息,得到最终的空间注意力权重,并与输入特征图进行加权,实现网络对特征图空间位置信息的关注,得到最终的输出结果。

    6.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的空间注意力模块的计算方式如公式(12)-(13)所示:

    7.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的编码融合模块f1、f2、f3和f4实的计算方式如公式(14)-(17)所示:

    8.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的特征上采样模块由上采样核预测模块和特征重组模块两部分组成,一个参数为h×w×c的输入特征图经过倍率为σ上采样后,得到一个参数为σh×σw×c的输出特征图。

    9.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的上采样核预测模块中,输入特征图经过一个1×1的卷积将其通道数压缩至cm,经过一个kup×kup的卷积预测上采样核,得到的输出通道数为为了使不同位置对应使用各自上采样核,将其通道在空间维度展开,得到参数为的上采样核;经过softmax操作进行归一化,使其权值位于0至1的区间,以便后续网络实现上采样。

    10.如权利要求1所述的沙丘形态类型识别模型,其特征在于,所述的特征重组模块,以输出特征图映射回输入特征图部分为中心的kup×kup区域的该位置的各个通道与该点的上采样核进行点积操作,得到最终的上采样结果,如公式(18)所示:


    技术总结
    本发明涉及计算机视觉识别技术,具体涉及一种基于注意力机制的双分支编解码沙丘形态类型识别模型,包括:过完备网络和欠完备网络,过完备网络位于上行支路,包括一个编码器1和一个解码器1;欠完备网络位于下行支路,包括一个编码器2和一个解码器2;特征图在每一个编解码器模块中都经历了四层的特征图尺度变化,其每经过一次尺度缩小或尺度扩大所得到的深层全局语义信息与浅层细节语义信息都需要进行交互,为后续网络提供一个特征信息更丰富的输入;使得双分支的结构能够充分发挥大感受野与小感受野的优势,获取更为丰富的特征信息,并验证了在不同数据集上的泛化能力和在不同算法之间识别性能的优势。

    技术研发人员:王兆滨,时玥
    受保护的技术使用者:兰州大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27070.html

    最新回复(0)