基于大型视觉语言模型注意力图的开放式通用感知方法

    专利查询2025-04-23  9


    本发明属于计算机视觉,涉及利用计算机视觉及深度学习技术进行神经网络模型的开放式感知方法,尤其涉及一种基于大型视觉语言模型注意力图的开放式通用感知方法,可用于解决开放式场景问题。


    背景技术:

    1、近年来,机器学习的研究和应用取得了迅猛的发展。在这个领域中,深度学习方法已经在计算机视觉、语音处理和机器翻译等众多应用领域取得了重大突破。随着深度学习技术的进步,自动驾驶技术在汽车行业展现出了巨大的潜力。现有的基于深度学习的感知模型依赖于广泛的标记训练数据来学习识别和定位对象。然而,训练数据不能完全覆盖真实世界场景中所有类型的物体。当面对分布外的物体时,现有的感知模型可能无法进行识别和定位,从而可能会发生严重的安全问题。

    2、为了解决这个问题,提出了许多开放世界感知方法。这些方法通常采用开集感知(open-set)的方式。开集感知方法使用预训练的clip模型来计算图像区域和类别名称之间的相似性。因此,在推理过程中,这类方法需要预定义的对象类别名称作为clip文本编码器的输入。然而,在许多现实世界的应用场景中,并不会提供确切的对象类别名称。例如,在自动驾驶场景中,自动驾驶车辆可能会遇到各种意想不到的物体,包括起火或侧翻的事故车和各种各样的建筑车辆。

    3、相比而言,开放式感知(open-ended)方法更具通用性和实用性,它能够同时预测对象类别和位置,而不需要给定确切的对象类别名称。在最近的研究中,大型视觉语言模型显示出强大的物体识别泛化能力,例如,它可以在自动驾驶场景中的长尾数据上(cornercase)识别非常见的物体,并给出准确的描述。然而,大型视觉语言模型的定位能力相比于特定感知模型较弱,虽然能够同时给出物体类别和位置信息,满足开放式感知的基本要求,但是经常会漏检物体或给出错误的定位结果,因此无法作为在实际场景中进行直接应用。另一方面,作为一个纯视觉基础模型,sam对来自许多不同领域的图像表现出良好的分割泛化能力。然而,sam无法为分割的对象提供类别,因而也无法解决开放式感知问题。

    4、因此,现有的开放式感知方法技术上还存在一定瓶颈,实际应用潜力不高,效果较差。


    技术实现思路

    1、为了克服上述现有技术的不足,本发明提供一种大型视觉语言模型注意力图的开放式通用感知方法,以实现高精度的开放式场景感知。

    2、本发明的技术方案是:

    3、一种基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,使用大型视觉语言模型描述整个场景,并给出物体类别描述时生成的注意力图作为sam的提示,进行物体分割,完成开放式感知,具体包括如下步骤:

    4、s1、给定图像输入,利用大型视觉语言模型的视觉编码部分对图像进行特征编码,获得二维图像编码特征fc∈rc×(h×w);

    5、s2、输入预定义好的问题提示,使用大型视觉语言模型的文本编码器进行文本编码,获得文本编码特征

    6、s3、将上述两个编码特征级联在一起,得到多模态编码特征输入到大型视觉语言模型的解码器,由大型视觉语言模型进行文本描述生成,同时会生成更多的多模态编码特征

    7、s4、多模态编码特征根据查询和键值进行拆分,得到和将q和k进行矩阵相乘,s=q×kt;得到多层多头注意力图sh,l,其中h表示头数,l表示层数,多层多头注意力图进行聚合,得到注意力图s;

    8、s5、使用注意力图s进行sam提示生成,得到提示编码特征;

    9、s6、将给定图像输入到sam的图像编码器中,得到图像编码特征,将提示编码特征和图像编码特征一起输入到sam的掩码解码器中,得到初步的掩码结果;

    10、s7、对步骤6)的掩码结果进行多次迭代,直到收敛;

    11、s8、进行高精度的物体分割,对图像进行切片,得到更多的子图,重复步骤s1-s6,生成所有掩码结果后进行合并。

    12、上述开放式感知算法可被广泛应用于各种通用的开放式场景(如室内场景、室外自动驾驶等)中,提高任务的开放式泛化表现(如开放式物体分割精度)。

    13、与现有技术相比,本发明的有益效果是:

    14、本发明提供一种基于大型视觉语言模型注意力图的开放式通用感知方法,提出了使用大型视觉语言模型描述整个场景,并给出物体类别描述时生成的注意力图作为sam的提示,进行物体分割,完成开放式感知。该方法能够提高各种通用的开放式场景的泛化感知性能。本发明的基于注意力图的开放式感知方法具有通用性,不依赖与特定的网络架构,适用于当前所有的大型视觉语言网络模型和基于sam的分割网络模型,方法简单方便,能有效提高泛化感知精度。



    技术特征:

    1.一种基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,使用大型视觉语言模型描述整个场景,并给出物体类别描述时生成的注意力图作为sam的提示,进行物体分割,完成开放式感知,具体包括如下步骤:

    2.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,s1中视觉编码采用resnet、efficientnet、swintransformer、vovnetv2、convnext或vit。

    3.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,s2中文本编码采用clip、word2vec或bert。

    4.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,s3中使用spacy对文本描述进行分词,得到物体类别,同时保留该物体类别在文本中的位置。

    5.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,s5中使用多头注意力图s进行sam提示生成,具体为,采用无参聚合方式,使用mean-max算法对多头注意力图进行聚合:

    6.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,s5中使用多头注意力图s进行sam提示生成,具体为,采用有参聚合方式,通过多层卷积网络,将多头注意力图s转换为动态权重α,再对其进行加权平均:

    7.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,s6中sam模型采用mobilesam、semanticsam或efficientsam。

    8.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,步骤s7中对对初步掩码结果进行修正,具体包括:

    9.如权利要求1所述的基于大型视觉语言模型注意力图的开放式通用感知方法,其特征在于,步骤s8中,将所有掩码结果进行去重,采用非极大抑制nms算法,以掩码的交并比作为指标,仅保留置信度高的掩码结果。


    技术总结
    本发明公开了一种基于大型视觉语言模型注意力图的开放式通用感知方法,属于计算机视觉技术领域。本发明利用大型视觉语言模型在生成物体类别时,产生对应的特征,使用该特征对应的注意力图作为中间提示,利用SAM进行高精度的物体分割,从而同时获得物体类别和感知结果,以解决开放式感知任务。本发明能够普遍的适用于大多数大型视觉语言模型和基于SAM的改进模型,在最小改变模型框架的基础上,实现更好的开放式感知性能。

    技术研发人员:王勇涛,林志威,汤帜
    受保护的技术使用者:北京大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-27820.html

    最新回复(0)