细粒度视觉多目标跟踪方法、装置、电子设备及存储介质与流程

专利查询2025-11-06 27

本申请涉及计算机视觉，尤其涉及一种细粒度视觉多目标跟踪方法、装置、电子设备及存储介质。

背景技术：

1、在自动驾驶、视频监控、行为识别等领域，基于视觉的视频多目标跟踪技术(multi-object tracking,mot)扮演着至关重要的角色。该技术致力于检测视频中的各个目标，并通过在后续视频帧中识别这些目标，实现它们与历史检测目标的正确关联，从而达到轨迹预测和精准查找的目的。

2、然而，现有的多目标跟踪方法主要依靠目标框(bounding box)来表示跟踪的目标。这种方法简便易行，如wojke等人通过卷积神经网络提取目标外观特征，并利用目标框的交并比(iou)在视频帧之间进行目标关联。类似地，yang等人在检测出目标框后，采用特征重识别和图割连接公式来实现目标的跟踪和关联。

3、尽管现有技术在快速定位和跟踪目标方面表现出一定的效率和较低的计算复杂度，它们在处理小目标或在复杂、拥挤场景下的跟踪任务时却显示出明显的不足。目标框的表示方法由于包含了大量非目标的背景信息，使得目标的语义信息变得模糊不清，特别是在跟踪小型目标或在拥挤场景中进行目标跟踪时，效果甚至更差。

4、因此，存在一个迫切的技术需求，即开发一种能够在复杂场景中实现精准多目标跟踪的方法，特别是需要一种能够克服目标框引入背景噪声和语义模糊性问题的技术方案，以提高跟踪的精确性和效率。

技术实现思路

1、有鉴于此，本申请实施例提供了一种细粒度视觉多目标跟踪方法、装置、电子设备及存储介质，以解决现有技术存在的目标轨迹跟踪的准确率低，目标跟踪效果差的问题。

2、本申请实施例的第一方面，提供了一种细粒度视觉多目标跟踪方法，包括：从连续的视频帧中选取相邻两帧图像，利用深度卷积神经网络对相邻两帧图像中的每帧图像的深层特征进行提取；利用预设的多尺度像素级特征编码器对深层特征进行编码，生成细粒度的逐像素特征表示；将逐像素特征表示作为特征聚合器的输入，利用特征聚合器对相邻两帧图像之间的目标运动关系进行分析，生成像素级融合特征，以建模目标之间的运动连续性；利用目标解码器对像素级融合特征进行处理，并将处理后的特征输入到多层感知机中，利用多层感知机生成目标的分类特征向量、中心点特征向量及大小特征向量；根据分类特征向量、中心点特征向量及大小特征向量，对目标的中心热图进行计算，并根据中心热图对视频帧中的目标进行上下文关联，以便对目标进行跟踪。

3、本申请实施例的第二方面，提供了一种细粒度视觉多目标跟踪装置，包括：提取模块，被配置为从连续的视频帧中选取相邻两帧图像，利用深度卷积神经网络对相邻两帧图像中的每帧图像的深层特征进行提取；编码模块，被配置为利用预设的多尺度像素级特征编码器对深层特征进行编码，生成细粒度的逐像素特征表示；分析模块，被配置为将逐像素特征表示作为特征聚合器的输入，利用特征聚合器对相邻两帧图像之间的目标运动关系进行分析，生成像素级融合特征，以建模目标之间的运动连续性；处理模块，被配置为利用目标解码器对像素级融合特征进行处理，并将处理后的特征输入到多层感知机中，利用多层感知机生成目标的分类特征向量、中心点特征向量及大小特征向量；计算模块，被配置为根据分类特征向量、中心点特征向量及大小特征向量，对目标的中心热图进行计算，并根据中心热图对视频帧中的目标进行上下文关联，以便对目标进行跟踪。

4、本申请实施例的第三方面，提供了一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。

5、本申请实施例的第四方面，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

6、本申请实施例采用的上述至少一个技术方案能够达到以下有益效果：

7、通过从连续的视频帧中选取相邻两帧图像，利用深度卷积神经网络对相邻两帧图像中的每帧图像的深层特征进行提取；利用预设的多尺度像素级特征编码器对深层特征进行编码，生成细粒度的逐像素特征表示；将逐像素特征表示作为特征聚合器的输入，利用特征聚合器对相邻两帧图像之间的目标运动关系进行分析，生成像素级融合特征，以建模目标之间的运动连续性；利用目标解码器对像素级融合特征进行处理，并将处理后的特征输入到多层感知机中，利用多层感知机生成目标的分类特征向量、中心点特征向量及大小特征向量；根据分类特征向量、中心点特征向量及大小特征向量，对目标的中心热图进行计算，并根据中心热图对视频帧中的目标进行上下文关联，以便对目标进行跟踪。本申请提高目标轨迹跟踪的准确率，提升目标跟踪效果。

技术特征：

1.一种细粒度视觉多目标跟踪方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述利用深度卷积神经网络对所述相邻两帧图像中的每帧图像的深层特征进行提取，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用预设的多尺度像素级特征编码器对所述深层特征进行编码，生成细粒度的逐像素特征表示，包括：

4.根据权利要求1所述的方法，其特征在于，所述利用所述特征聚合器对所述相邻两帧图像之间的目标运动关系进行分析，生成像素级融合特征，以建模目标之间的运动连续性，包括：

5.根据权利要求1所述的方法，其特征在于，所述利用目标解码器对所述像素级融合特征进行处理，并将处理后的特征输入到多层感知机中，利用所述多层感知机生成目标的分类特征向量、中心点特征向量及大小特征向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述分类特征向量、中心点特征向量及大小特征向量，对所述目标的中心热图进行计算，包括采用以下公式计算中心热图：

7.根据权利要求1所述的方法，其特征在于，所述根据所述中心热图对所述视频帧中的目标进行上下文关联，以便对所述目标进行跟踪，包括：

8.一种细粒度视觉多目标跟踪装置，其特征在于，包括：

9.一种电子设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。

技术总结
本申请提供一种细粒度视觉多目标跟踪方法、装置、电子设备及存储介质。该方法包括：从连续的视频帧中选取相邻两帧图像，利用深度卷积神经网络对相邻两帧图像中的每帧图像的深层特征进行提取；利用多尺度像素级特征编码器对深层特征进行编码，生成细粒度的逐像素特征表示；利用特征聚合器对相邻两帧图像之间的目标运动关系进行分析，生成像素级融合特征；利用目标解码器对像素级融合特征进行处理，并将处理后的特征输入到多层感知机中，生成目标的分类特征向量、中心点特征向量及大小特征向量；对目标的中心热图进行计算，并根据中心热图对视频帧中的目标进行上下文关联，以便对目标进行跟踪。本申请提高目标轨迹跟踪的准确率，提升目标跟踪效果。

技术研发人员：张于凡,吴友鹏,刘小国,吴博
受保护的技术使用者：重庆赛力斯凤凰智创科技有限公司
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-31712.html

专利

最新回复(0)