一种时空交互推理的时敏目标发现方法

    专利查询2025-06-09  45


    本发明属于时敏目标自动检测与跟踪,具体涉及一种时空交互推理的时敏目标发现方法。


    背景技术:

    1、时敏目标是监视场景中属性不确定、运动速度快的对象目标。时敏目标发现不仅需要进行目标检测判定目标类型,更需要时间前后关联输出目标航迹。

    2、目前,图像目标检测的主流两类算法为:基于锚点的目标检测算法和无锚点的目标检测算法,即第一类基于锚点的目标检测算法,是通过从特征图中寻找特征点,并以此设置先验框加以筛选和调整,以获得最终预测框,文献“r.girshick,j.donahue,t.darrell,and j.malik.rich feature hierarchies for accurate object detection andsemantic segmentation,in:proceedings of the ieee conference on computervision and pattern recognition(cvpr),jun.23-28,2014,pp.580~587,columbus,usa”提出了r-cnn算法,该算法通过选择性搜索候选区域并用预训练模型提取特征,最后通过线性分类器完成目标预测;文献“s.ren,k.he,r.girshick,and j.sun.faster r-cnn:towards real-time object detection with region proposal networks,ieeetransactions on pattern analysis and machine intelligence(pami),vol.39,no.6,pp.1137~1149,2016”提出了faster-rcnn算法,其中区域建议网络能在特征图上进行窗口滑动,以获得候选框的类别与回归参数,为解决候选区域生成速度较慢的问题。第二类无锚点的目标检测算法将目标检测问题视为单阶段回归问题,直接在输出层回归预测框及其种类,文献“h.law,j.deng.cornernet:detecting objects as paired keypoints,in:proceedings of the european conference on computer vision(eccv),sep.8-14,2018,pp.734~750,munich,germany”提出了cornernet算法,通过预测一对关键点,以此为基础回归预测框以实现目标定位。除了以上两类目标检测算法;文献“n.carion,f.massa,g.synnaeve,n.usunier,a.kirillov and s.zagoruyko.end-to-end object detectionwith transformers,in:proceedings of the european conference on computervision(eccv),aug.23-28,2020,pp.213~229,virtual”基于transformer提出了detr,将目标检测任务视为集合预测问题,无需依赖传统锚点生成与非极大抑制方法,实现了端到端的目标检测。

    3、另一方面,目标发现跟踪的航迹关联方法主要两类方法是:基于相似度融合的航迹关联法和深度学习的航迹关联法。现有的相似度融合的航迹关联法,文献“衣晓,周威.基于区域覆盖度的航迹灰关联算法.火力与指挥控制,2020,45(5):45-50”首先将灰关联理论用于航迹关联,通过分析航迹序列曲线的相似或相异来判决航迹序列是否关联,该类方法依赖于手工设计权重、阈值,在航迹密集的不确定场景下错误率较高。深度学习的航迹关联法具有强大的非线性拟合映射能力,相关研究逐渐引入神经网络协助航迹关联,文献“r.berndt.aircraft micro-doppler feature extraction from high rangeresolution profile,in:proceedings of the ieee radar conference,oct.27-30,2015,pp.457~462,johannesburg,south africa”引入三维bp模型解决航迹关联中的三维分配问题。文献“k.kim.focusing of high range resolution profiles of movingtargets using stepped frequency waveforms,iet radar,sonar&navigation,vol.4,no.4,pp.564~575,2010”利用卷积神经网络捕捉航迹局部序列中的重要特征进行航迹关联,但卷积核感受野有限,无法拥有全局特征。在此基础上,文献“黄虹玮,刘玉娇,沈卓恺,张少伟,陈志敏,高阳.基于深度学习网络模型的端到端航迹关联.计算机科学,2020,47(3):200-205”将长短期记忆网络与cnn模型结合,提升了神经网络模型的自适应调节能力,输出更加精确的航迹关联结果。

    4、上述方法未见协同关联处理影像目标检测与时序位置探测目标跟踪的一体化框架下时敏目标发现,且其目标检测识别方法虽具有较高的精度,但难以实现少样本、零样本时敏目标发现;而其航迹关联方法不能综合利用前后时间上的检测结果实现时敏目标航迹输出。


    技术实现思路

    1、为解决上述技术问题,本发明提供了一种时空交互推理的时敏目标发现方法,基于双路unified transformer检测与跟踪一体化网络架构,使用两路信息处理路径,分别利用基于扩散模型的知识蒸馏方法及利用基于时空交互推理的目标航迹生成方法实现开放集目标检测识别及时空一致性的目标追踪。

    2、本发明采用的技术方案为:一种时空交互推理的时敏目标发现方法,具体步骤如下:

    3、s1、构建基于双路unified transformer检测与跟踪一体化的网络模型;

    4、所述基于双路unified transformer检测与跟踪一体化的网络模型包括:卷积神经网络、transformer网络模型、unified transformer网络模型、预训练clip模型(多模态预训练模型)、扩散模型、条件分数网络及自适应融合网络。

    5、所述基于双路unified transformer检测与跟踪一体化的网络模型将多模态融合特征集作为输入,然后使用两条信息处理路径,即分别使用基于扩散模型的知识蒸馏方法及基于时空交互推理的目标航迹生成方法实现开放集目标检测识别及输出具有时空一致性的稳定目标航迹。

    6、其中,多模态融合特征集由利用卷积神经网络及transformer网络模型得到,首先预先收集不同模态的时敏目标图像,作为训练集,然后利用卷积神经网络对训练集不同模态的图像分别进行特征提取,得到对应的特征向量后,将多模态特征向量统一输入transformer网络模型对多模态特征进行融合得到多模态融合特征集ffuse。

    7、s2、基于步骤s1构建的模型,使用基于扩散模型的知识蒸馏方法实现开放集目标检测识别;

    8、s3、基于步骤s1构建的模型,基于时空交互推理的目标航迹生成方法输出具有时空一致性的稳定目标航迹;

    9、s4、基于步骤s1-s3,实现开放集目标检测识别及输出具有时空一致性的稳定目标航迹,完成时敏目标的发现。

    10、进一步地,所述步骤s2具体如下:

    11、s21、输入多模态融合特征集,添加位置编码,采用unified transformer网络模型对随机初始化目标特征集进行处理,形成捕获目标特征集;

    12、以多模态融合特征集ffuse作为输入,将该特征集分成8×8的相同大小的块,采用正弦编码规则为不同块特征加上位置编码pe,再随机初始化目标特征集{q},用于将预测目标转化为可学习的查询嵌入。

    13、然后将输入特征传入unified transformer网络模型,利用模型中的自注意力变换机制从输入特征中提炼关键语义结构信息,利用交叉注意力机制驱使初始化的查询嵌入集捕获到不同目标结构信息,形成捕获目标特征集{f}。且采用仅关注特征集合中位置信息的解码器用于回归预测框。

    14、s22、基于步骤s21,训练预训练clip模型,进入步骤s24;

    15、首先利用预先收集好的不同模态的时敏目标图像对unified transformer网络模型中的解码器进行预测框的自监督训练。

    16、训练过程中,将预测集y与目标真实值匹配关联,并解构为二分图匹配任务,使集合中的一个查询嵌入对应于一个目标,且查询嵌入的数量q应远大于目标数。

    17、s23、基于步骤s21,语义无关解码出预测框,采用hungarian匹配函数,实现多个预测目标与真实值的一对一匹配;

    18、匹配函数采用hungarian算法,表达式如下:

    19、

    20、其中,n表示预测集合或真实集合中目标总数,表示预测框与真实框的类别相似度损失,cn表示成本矩阵中的元素,成本矩阵的每个元素表示将第i个任务分配给第j个人的成本或代价。lbox表示回归的预测框与真实框的相似度损失。

    21、通过最小化hungarian匹配损失,实现多个预测目标与真实值的一对一匹配。

    22、s24、基于步骤s21、s22,在少样本、零样本条件下进行目标识别,即在捕获目标特征集的基础上利用扩散模型迁移预训练先验知识,再进入步骤s25;

    23、首先基于扩散模型进行逐层加噪,采用kl散度约束开放集特征x,使其特征分布趋于高斯分布n(μ,i),将开放集特征x集成入捕获目标特征集中,在原有特征不变的同时融入开放集知识。

    24、然后基于扩散模型进行逐层去噪,即逆向去噪,则训练预训练clip模型学习条件分布概率以去除分布函数为n(0,i)的高斯噪声,其训练损失表达式如下:

    25、

    26、其中,μ表示均值,i表示标准差,t1表示当前的扩散层数,xt表示当前扩散层的输入图像,ε表示标准正态分布,εθ表示扩散模型逆向传播中去掉的噪声分布。

    27、s25、针对少样本、零样本目标识别,提出原型网络,利用度量学习将每个类别中的样例数据映射到一个空间中,且提取“均值”作为该类的原型;

    28、进行开放集识别任务训练,将多模态融合特征集中的特征数量设为n,其中的每个特征为fn,对应的真实文本特征为通过最小化余弦距离,嵌入预训练clip模型的语义结构的unified transformer网络模型将查询特征集的特征与clip文本编码器提取的目标语义特征映射到相同特征空间中以实现对齐。

    29、在少样本分类任务中,s={(x1,u1),...,(xn,un)}表示一组小规模的支持数据集。x表示d维的原始数据的向量化表征,u表示其对应的类别,sk表示类别为k的数据集合。

    30、原型网络为每个类计算出一个原型表示vk,通过一个嵌入函数fφrd→rm将维度d的样例数据映射到m维的空间上,该嵌入函数使用简单的线性映射,fφ=wx,w表示一个参数矩阵,目的是转换x的维度,r表示维度空间的字母表示。支持集中所有的向量化样例数据取均值得到类别的原型表示vk,表达式如下:

    31、

    32、原型网络使用softmax度量query向量点到vk的距离,表达式如下:

    33、

    34、其中,pφ(·)表示概率函数,d(·)表示query向量点到vk的距离,k表示训练样本的真实类别标签,k′表示所有的k值的集合。

    35、训练过程通过随机梯度下降法最小化目标函数:j(φ)=-logpφ(y=k|x)。

    36、s26、基于步骤s22-s25,进入预测阶段,完成面向少样本、零样本目标定位锚框与识别种类;

    37、基于步骤s22-s25,完成训练阶段,进入预测阶段,首先对需要识别的类别文本进行模板提示预处理,模板采用“a photo of{}”。

    38、其中,{}里是任意需识别的开放类。

    39、然后将类别文本送入预训练clip文本编码器中提取文本特征,并将其与查询特征集进行非参数化相似度计算,寻找与特征集中的每个特征最相似的文本特征,其对应的单词即是待识别的类别。

    40、最后实现可见类到不可见类的知识迁移,完成面向少样本、零样本目标定位锚框rbox与识别种类rcls。

    41、进一步地,所述步骤s3具体如下:

    42、s31、输入多模态融合特征集,采用基于条件分数网络csn来对多模态融合特征的权重进行估计并作为引导,将不同模态特征通过自适应融合网络实现选择性融合;

    43、将多模态融合特征集ffuse作为输入,首先采用基于条件分数网络csn来对多模态融合特征的权重进行估计,条件分数网络将不同场景下的数据概率分布梯度建模为分数函数,并利用评分机制获取匹配分数。

    44、将条件分数网络估计得到的多模态融合权重作为引导,将不同模态特征通过自适应融合网络实现选择性融合。

    45、s32、基于步骤s31,采用unified transformer网络模型对随机初始化目标特征集及目标单帧关联融合特征进行联合处理,得到捕获目标特征集,进行特征时序拓展;

    46、采用unified transformer网络模型对随机初始化目标特征集{q}及目标单帧关联融合特征进行联合处理以得到捕获目标特征集{f},并在时间维度上扩展到多帧数据以形成多帧捕获目标特征集{f}t。

    47、其中,当前帧的随机初始化目标特征集会将上一帧的捕获目标特征集{ftarget}t-1,t∈t带入初始化作为输入,t表示整体时间序列。

    48、s33、基于步骤s32,设计时空变换器自动增强特征关系并推理目标航迹,输出具有时空一致性的目标航迹;

    49、所述时空变换器包括:空间域编码器和时间域解码器,分别由unifiedtransformer网络模型编码器和解码器构成。

    50、空间域编码器用于提取空间上下文并推断帧内的视觉关系,而时间域解码器将空间域编码器的输出作为输入,捕获帧之间的时间依赖性并推断目标间动态关系。

    51、时空变换器通过在空间与时间域上不断挖掘多帧嵌入特征集合中的目标间关联,以输出具有时空一致性的目标航迹rtrack。

    52、在训练基于unified transformer网络模型的时空交互推理航迹关联与增强过程中,损失函数由每帧定位识别损失及跟踪查询嵌入损失组成,表达式如下:

    53、

    54、其中,nq表示目标特征数量,btrack表示上一帧成功检测到的目标数量,lobject表示每个目标特征训练时的损失函数。

    55、本发明的有益效果:本发明的方法首先构建基于双路unified transformer检测与跟踪一体化的网络模型,然后分别使用基于扩散模型的知识蒸馏方法及基于时空交互推理的目标航迹生成方法实现开放集目标检测识别及输出具有时空一致性的稳定目标航迹,完成时敏目标的发现。本发明的方法采用双路unified transformer一体化网络架构,综合利用多模态图像信息来提高复杂场景下时敏目标发现能力,能同时处理图像目标检测与目标跟踪任务,增强少样本、零样本条件下的目标发现能力,提供时敏目标多传感器协同探测的智能处理手段,实现持续成像侦察与监视应用中的时敏目标鲁棒检测与稳定跟踪。


    技术特征:

    1.一种时空交互推理的时敏目标发现方法,具体步骤如下:

    2.根据权利要求1所述的一种时空交互推理的时敏目标发现方法,其特征在于,所述步骤s2具体如下:

    3.根据权利要求1所述的一种时空交互推理的时敏目标发现方法,其特征在于,所述步骤s3具体如下:


    技术总结
    本发明公开了一种时空交互推理的时敏目标发现方法,首先构建基于双路Unified Transformer检测与跟踪一体化的网络模型,然后分别使用基于扩散模型的知识蒸馏方法及基于时空交互推理的目标航迹生成方法实现开放集目标检测识别及输出具有时空一致性的稳定目标航迹,完成时敏目标的发现。本发明的方法采用双路Unified Transformer一体化网络架构,综合利用多模态图像信息来提高复杂场景下时敏目标发现能力,能同时处理图像目标检测与目标跟踪任务,增强少样本、零样本条件下的目标发现能力,提供时敏目标多传感器协同探测的智能处理手段,实现持续成像侦察与监视应用中的时敏目标鲁棒检测与稳定跟踪。

    技术研发人员:刘杰,陈怀新
    受保护的技术使用者:电子科技大学
    技术研发日:
    技术公布日:2024/11/26
    转载请注明原文地址:https://tc.8miu.com/read-29235.html

    最新回复(0)