一种路侧视角多目标跟踪方法

专利查询2022-07-07 246

1.本发明属于智能交通环境感知技术领域，具体涉及到一种路侧视角多目标跟踪方法。

背景技术：

2.环境感知技术是智能交通的重要一环，而目标跟踪技术是环境感知的关键部分。目标跟踪技术分为单目标跟踪与多目标跟踪。目前单目标跟踪技术较为成熟，普适性较强，但多目标跟踪技术面对复杂交通环境下的背景遮挡及光照、尺度变化等问题，解决效果并不是特别理想。
3.多目标跟踪技术在各种交通环境下有着广泛的应用，因此一个具有良好的检测技术与数据关联与匹配机制的多目标跟踪算法对复杂交通场景十分必要。基于深度学习的多目标跟踪技术流程分为目标检测、特征提取、相似度计算和数据关联四步。随着深度学习的飞速发展，基于卷积神经网络的目标检测算法精度与速度大大提升；以卷积神经网络为骨干网络进行多层特征提取与融合满足不同大小的目标，多数基于检测的结果的深度学习多目标跟踪算法也因此大幅超过传统多目标跟踪方法。尽管神经网络层数在加深、数据关联方法在不断进步，但是仍然难以克服在复杂交通环境下由于密集行人、车辆之间相互遮挡以及小目标等所带来的目标漏检、误检、跟踪目标身份转换问题；由于光照尺度变化、拍摄角度变化等导致的轨迹丢失以及由于跟踪目标在运动过程中的外貌状态及运动状态变化导致的错误匹配问题；由于神经网络层数加深带来的计算量过大以及梯度消失或者爆炸等问题。

技术实现要素：

4.为了解决目前路侧视角下多目标跟踪技术存在的问题，本发明提出了一种路侧视角多目标跟踪方法，包括以下步骤：
5.s100、对待检测数据集中的每一帧图像进行目标检测，获取每个目标中心点位置；
6.s200、基于目标中心点位置，计算一帧图像上两两目标之间的欧式距离，依次取出距离最小的两个目标组成一个对象；若剩下1个目标，则将该目标作为一个对象；
7.s300、获取第一帧待检测图像上的对象，将其作为第一对象；
8.s400、为第一对象建立轨迹集合，集合中的每个元素包括位置信息；
9.s500、判断是否存在下一帧图像；如果存在下一帧图像，则利用卡尔曼滤波器模型，预测第一对象在下一帧图像上的位置，执行步骤s600；
10.s600、获取下一帧图像上的对象，将其作为第二对象，对每个第一对象，计算预测位置上第二对象所占面积与每个实际位置上第二对象所占面积的交并比；将取得最大交并比的第二对象，作为这个第一对象的待匹配对象；
11.s700、对待匹配对象进行外观匹配，若成功匹配，更新第一对象对应的轨迹；
12.s800、将没有被匹配的第二对象，更新为第一对象，返回步骤s400。
13.优选的，在所述方法中，所述目标检测包括下述步骤：
14.s110、利用轻量化目标检测网络获取每个目标的置信度、目标种类概率；
15.s111、基于每个目标的置信度、目标种类概率，计算每个目标的置信度分数；
16.s112、对高于第一阈值的置信度分数，将其对应目标进行保留，并保留相应的目标状态向量和外观特征；
17.所述目标的状态向量表示为：
[0018][0019]
其中：xc为目标中心点的横坐标；，yc为目标中心点纵坐标；w为目标包围框的宽；h为目标包围框的高；为目标在横轴方向上的移动速度，初始值为0；为目标在横轴方向上的移动速度，初始值为0：为目标的宽变化率，初始值为0；为目标的高变化率，初始值为0。
[0020]
优选的，在所述方法中，所述轻量化目标检测网络通过下述步骤获得学习训练的数据集：
[0021]
s101、获取真实道路交通视频图像，对每一帧图像进行手工标注；
[0022]
s102、将手工标注后的图像和现有的标注多目标跟踪数据集进行混合；
[0023]
s103、对混合数据集中的图像统一数据格式，并进行数据增强，得到待检测数据集；
[0024]
所述数据增强通过随机裁剪、多尺度缩放、仿射变换、反转中的任一待操作或多个操作组合实现。
[0025]
优选的，在上述方法中，所述轻量化目标检测网络采用dla34网络结构为主干网络，dla34网络结构中的block块中采用ghost模块。
[0026]
优选的，在上述方法中，所述dla34网络结构采用mish函数防止梯度消失。
[0027]
优选的，在上述方法中，所述外观匹配包括下述步骤：
[0028]
s701、对待匹配对象，计算其与跟踪器上存储的第一设定数目的对象的外观特征的余弦距离矩阵；所述跟踪器为每个对象创建一个存储库，用于存储该目标中不同帧的外观特征；
[0029]
s702、对待匹配对象，计算其通过卡尔曼滤波预测位置与检测位置之间的马氏距离矩阵；
[0030]
s703、将余弦距离矩阵和马氏距离矩阵输入匈牙利算法，返回卡尔曼滤波预测得到的轨迹和待匹配对象的匹配结果。
[0031]
优选的，在上述方法中，所述s700还包括下述步骤：
[0032]
s7001、获取当前第一对象已成功匹配的图像帧数；
[0033]
s7002、若已成功匹配的图像帧数达到第三设定数目，则停止对该对象的检测与跟踪。
[0034]
优选的，在上述方法中，所述s800在返回步骤s400之前，还包括下述步骤：
[0035]
s801、对当前没有匹配成功的第一对象，获取对其已进行预测过的总图像帧数；
[0036]
s802、当总图像帧数达到第二设定数目仍未成功匹配时；
[0037]
s803、判断该对象是否有两个目标，若是，则将该对象中的每个目标作为一个第一
对象；否则，停止对该对象的检测与跟踪。
[0038]
与现有技术相比，本发明具有下述优点：
[0039]
本发明在采用成对目标进行匹配，有效降低距离过近造成遮挡的两个目标产生的漏检，误检、跟踪目标身份转换问题；进一步地，通过采用轻量化网络和先进的激活函数，能够达到更快的计算速度，在网络参数大幅减小的同时，精度保持不变，并能够为后续的目标跟踪提供较为准确的初始化和观测值；进一步地，采用两对检测目标计算外观余弦矩阵，能够减少计算量，提高目标匹配速度；同时，对于没有匹配成功的目标对构成的对象，进一步通过单个目标进行匹配，从而提高匹配成功率，提高多目标跟踪精度。
附图说明
[0040]
为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
[0041]
图1、为本发明采用的轻量化目标检测网络结构示意图；
[0042]
图中：1、conv模块；2、bn模块；3、mish模块；4、down单元；5、block单元；6、root单元；7、ghostmodule模块；8、add模块；9、up模块；10、heatmap head模块；11、box size head模块；12、center offset head模块；13、re-id embeddings head模块；14、concat模块；15、pooling模块；
[0043]
图2、为一种基于深度学习的路侧视角多目标跟踪方法流程示意图。
具体实施方式
[0044]
下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本技术一部分实施例，而不是全部的实施例。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。基于本技术中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
[0045]
本技术的说明书和权利要求书的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或设备的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或设备，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或设备。
[0046]
多目标跟踪系统基本分为目标检测和目标跟踪两个部分，其中目标检测与目标跟踪中数据联合部分均需耗费大量计算资源，极大的影响了多目标跟踪技术应用于现实社会中的实时性。为了克服上述问题，在一个实施例中通过采用轻量化目标检测网络配合成对匹配策略，实现一体化多目标跟踪方法。
[0047]
所述轻量化目标检测网络结构采用dla34网络结构为主干网络，dla34网络结构中的block块采用ghostmodule模块进行图像多层特征提取与融合，并对ghostmodule模块的输出进行批归一化处理，以加快收敛。进一步地，采用mish函数进行非线性加强，从而增强梯度下降效果。
[0048]
具体地，如图1所示，轻量化目标检测网络结构的主干网为深层聚合网络结构，包括线性部分和树形结构部分。线性部分由一个base层，level0层、level1层组成，每层由一个卷积节点构成，每个卷积节点包括一个卷积单元，用于提高通道数，每个卷积单元由conv模块(1)、bn模块(2)和mish模块(3)构成，实现对图像进行卷积计算、批归一化处理，最后经过mish函数非线性加强处理后输出。树形结构部分依次由level2层～level5层连接构成。level2层由一个dbr节点构成，level3依次由一个dbr节点和bbr节点构成，level4依次由一个dbr节点和三个bbr节点构成，level5依次由1个dbr节点构成。各层之间的输入为上一层的输出，比如，level2层的输出为level3层的输入。各层之间经pooling模块(15)池化后进行地点深度聚合，同时各层之内也进行迭代深度聚合，逐级提炼分辨率和聚合尺度，一方面可以将特征结构在网络的不同深度上传播，让目标特征的深层与浅层的表达更好的融合，另一方面可以提高分辨率。
[0049]
dbr节点包括down单元(4)、block单元(5)和root单元(6)。down单元实现两级特征融合，一级经过pooling模块(15)池化后进行卷积运算，另一级经过两次卷积运算，将两级卷积后的结果进行叠加以提高分辨率，将叠加结果经过mish函数非线性加强处理后得到第一输出结果，将其输出给block单元。block单元通过两个ghostmodule模块(7)降低网络参数个数，使得神经网络的权重和每秒浮点运算次数减小，并对每个ghostmodule模块的计算结果进行批归一化处理，经mish函数运算后输出，将第二次输出的结果作为第二输出结果，输出给a节点，a节点由一个add模块(8)构成。add模块将第一输出结果和第二输出结果进行值的叠加后，输出给mish函数以进行非线性加强处理后得到第三输出结果。root单元将第一输出结果和第三输出结果经concat模块(14)进行通道叠加，经卷积单元后输出给下一个节点。bbr节点包括两个block单元和一个root单元。
[0050]
轻量化目标检测网络结构还包括u节点，u节点包括一个up模块(9)，用于将各层融合后的特征再次逐级融合。最后两次融合时，增加add模块对值进行叠加处理后，经卷积单元处理后输出。为了加速收敛和防止梯度过饱和，增大梯度下降效果，在这两次卷积计算中同样进行归一化处理和将输出结果经过mish函数的非线性计算。
[0051]
更优的，在轻量化目标检测网络结构的输出端，耦合连接预测节点，构成无锚框检测联合跟踪端到端网络。所述预测节点包括heatmap head模块(10)、box size head模块(11)、center offset head模块(12)与re-id embeddings head模块(13)。
[0052]
heatmap head模块用于输出热力图，用于直观判断目标检测的中心点位置情况。如果热力图中的某个位置与真实目标中心位置重合，则该位置的响应最大；如果某个位置与真实目标中心位置距离变大，则响应呈指数衰减。该图用响应来表示预测的目标中心点准确率，如果预测点越接近实际目标中心，则该点的概率值越大，否则呈指数衰减。
[0053]
box size head模块用于估计目标检测框的宽度和高度，检测框也为包围框。
[0054]
center offset head模块用于定位对象位置，降低下采样引起的良好误差。其中，对象为1个目标或1个目标对。
[0055]
re-id embeddings head模块用于生成区分不同对象的特征。在实施例中，采用128个核的卷积层来提取对象的外观特征。
[0056]
接下来对轻量化目标检测网络进行训练和验证。训练和验证的数据集的获取方式有多种，比如通过路侧相机拍摄真实道路交通视频，对交通视频每一帧进行手工标注，建立
真实场景数据集。然后对数据集进行增加处理，包括但不限于随机裁剪、多尺度缩放、仿射变换、反转等，通过采用一种或多种组合操作增加样本难度。
[0057]
更优的，通过与已有的标准多目标跟踪数据集进行混合，扩充样本量。已有的标准多目标跟踪数据集包括但不限于ua-detrac，kitti等。在这种方式下，所述待检测数据集通过下述步骤获得：
[0058]
s101、获取真实道路交通视频图像，对每一帧图像进行手工标注；
[0059]
s102、将手工标注后的图像和现有的标注多目标跟踪数据集进行混合；
[0060]
s103、对混合数据集中的图像统一数据格式，并进行数据增强，得到待检测数据集；
[0061]
所述数据增强通过随机裁剪、多尺度缩放、仿射变换、反转中的任一待操作或多个操作组合实现。
[0062]
训练好的轻量化目标检测网络，能够应用于各种交通环境下，对路侧视角多目标跟踪。
[0063]
上述轻量化目标检测网络为本发明方法中涉及目标检测和特征提取时优选的工具，但本发明方法涉及目标检测和特征提取时不限于上述工具，可以为其它深度学习神经网络。
[0064]
本发明方法流程示意图，如图2所示，具体实现步骤如下：
[0065]
s100、对待检测数据集中的每一帧图像进行目标检测，获取每个目标中心点位置；
[0066]
s200、基于目标中心点位置，计算一帧图像上两两目标之间的欧式距离，依次取出距离最小的两个目标组成一个对象；若剩下1个目标，则将该目标作为一个对象；
[0067]
s300、获取第一帧待检测图像上的对象，将其作为第一对象；
[0068]
s400、为第一对象建立轨迹集合，集合中的每个元素包括位置信息；
[0069]
s500、判断是否存在下一帧图像；如果存在下一帧图像，则利用卡尔曼滤波器模型，预测第一对象在下一帧图像上的位置，执行步骤s600；
[0070]
s600、获取下一帧图像上的对象，将其作为第二对象，对每个第一对象，计算预测位置上第二对象所占面积与每个实际位置上第二对象所占面积的交并比；将取得最大交并比的第二对象，作为这个第一对象的待匹配对象；
[0071]
s700、对待匹配对象进行外观匹配，若成功匹配，更新第一对象对应的轨迹；
[0072]
s800、将没有被匹配的第二对象，更新为第一对象，返回步骤s400。
[0073]
在上述s200中的，欧式距离计算公式如下：
[0074][0075]
其中，(x
im
，y
im
)为当前帧m个目标中的第i个目标的中心点坐标，(x
jn
，y
jn
)为当前帧m个目标中的第j个目标的中心点坐标，d
ijm
为当前帧m个目标中的第i个目标与第j个目标之间的欧式距离。
[0076]
将距离最近的两个目标组成一个对象，依次将目标组成对象后，最后可能会没有目标，表示这帧图像上的所有目标都组成了对象；可能会剩下1个目标不，此时直接将该目标作为一个对象。
[0077]
在上述方法中，采用成对目标进行匹配，有效的降低了距离过近造成遮挡的两个
目标产生的身份跳变。
[0078]
在目标检测和跟踪时，优选采用上述轻量化目标检测网络，能够达到更快的计算速度，更高的每秒传输帧数，在网络参数大幅减小的同时，精度保持不变，并能够为后续的目标跟踪提供较为准确的初始化和观测值。所述目标检测包括下述步骤：
[0079]
s110、利用轻量化目标检测网络获取每个目标的置信度、目标种类概率；
[0080]
s111、基于每个目标的置信度、目标种类概率，计算每个目标的置信度分数；
[0081]
s112、对高于第一阈值的置信度分数，将其对应目标进行保留，并保留相应的目标状态向量和外观特征；
[0082]
所述目标的状态向量表示为：
[0083][0084]
其中xc为目标中心点的横坐标；，yc为目标中心点纵坐标；w为目标包围框的宽；h为目标包围框的高；为目标在横轴方向上的移动速度，初始值为0；为目标在横轴方向上的移动速度，初始值为0；为目标的宽变化率，初始值为0；为目标的高变化率，初始值为0。
[0085]
本发明中涉及的目标种类包括行人、车辆、骑车人。
[0086]
在进行外观匹配时，优选采用下述步骤：
[0087]
s701、对待匹配对象，计算其与跟踪器上存储的第一设定数目的对象的外观特征的余弦距离矩阵；所述跟踪器为每个对象创建一个存储库，用于存储该目标中不同帧的外观特征；
[0088]
s702、对待匹配对象，计算其通过卡尔曼滤波预测位置与检测位置之间的马氏距离矩阵；
[0089]
s703、将余弦距离矩阵和马氏距离矩阵输入匈牙利算法，返回卡尔曼滤波预测得到的轨迹和待匹配对象的匹配结果。
[0090]
通过采用外观余弦距离矩阵，能够减少计算量，提高目标匹配速度。
[0091]
为了提高匹配成功率，提高多目标跟踪精度，对于没有匹配上的第一对象，将该对象中的目标单独作为一个对象来重新进行匹配。在实现时，可以将这一步骤放在步骤s800的返回步骤s400之前，具体为：
[0092]
s801、对当前没有匹配成功的第一对象，获取对其已进行预测过的总图像帧数；
[0093]
s802、当总图像帧数达到第二设定数目仍未成功匹配时；
[0094]
s803、判断该对象是否有两个目标，若是，则将该对象中的每个目标作为一个第一对象；否则，停止对该对象的检测与跟踪。
[0095]
上述过程对始终没有跟踪到的目标，停止检测和跟踪。可以提高检测和跟踪效率。
[0096]
在目标跟踪过程中，第一对象作为跟踪对象，会慢慢增多，为了提高后续跟踪速度，通过下述步骤，适时释放存储空间：
[0097]
s7001、获取当前第一对象已成功匹配的图像帧数；
[0098]
s7002、若已成功匹配的图像帧数达到第三设定数目，则停止对该对象的检测与跟踪。
[0099]
这一过程为对s700的优化处理，即在更新第一对象轨迹时，就对其进行判断，是否需要停止对其检测和跟踪。
[0100]
通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本发明方法可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用cpu、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本公开而言更多情况下，软件程序实现是更佳的实施方式。
[0101]
尽管以上结合附图对本发明的实施方案进行了描述，但本发明并不局限于上述的具体实施方案和应用领域，上述的具体实施方案仅仅是示意性的、指导性的，而不是限制性的。本领域的普通技术人员在本说明书的启示下和在不脱离本发明权利要求所保护的范围的情况下，还可以做出很多种的形式，这些均属于本发明保护之列。

转载请注明原文地址:https://tc.8miu.com/read-1195.html

专利

最新回复(0)