一种用于城市环境中的目标检测方法

专利查询2026-02-10 24

本发明属于目标检测，具体涉及城市环境中的目标检测。

背景技术：

1、在城市环境中，由于建筑、障碍物、植被和设施等遮挡物较多，检测目标常常会在其后机动、躲避和隐藏，如何在复杂的城市环境中快速准确地识别检测目标，已成为近年来的研究热点。

2、在城市环境中，“瞬时目标”往往导致识别效果差和检测准确性低，目标通常快速移动呈现模糊状态，或者躲避在遮挡物后。虽然探测器识别出框架中的物体，但由于物体的模糊性和有限的特征，其置信度很低，例如，识别出人的置信度为0.11。这样的目标大量存在于城市环境中，给目标检测任务带来了巨大的挑战。为了识别这些模糊的物体，人类首先会根据图像中其他清晰物体的类别信息以及位置信息建立一个“物体位置图”。

3、例如，如果可识别的人的置信度分别为0.78和0.62，而附近有一辆清晰的车，置信度为0.93，那么得出的结论是，模糊的物体很可能是一个“人”，这表明置信度远高于0.11。面对同样模糊、遮挡的复杂情景，人类却能够判断检测器给出的结果是否正确，这是因为人类具有目前检测系统所不具备的结合上下文信息的推理能力。

4、当前，基于深度学习的目标检测算法主要分为两类。第一类是两阶段算法，例如faster r-cnn、fast r-cnn和r-cnn。这些算法虽然准确度高，但由于计算量大，速度较慢。第二类是一阶段算法，如ssd和yolo，这些算法尽管准确度较低，但提供了更快的检测速度。在对城市目标识别的需求中，由于需要高实时性能，因此一阶段算法因其卓越的速度和广泛的应用而更受青睐。

5、目前的研究往往将检测图像中的物体视为独立的任务，忽视了丰富的上下文和语义关系。为了解决这个问题，通过模仿人类识别来增强检测器显得尤为重要。现有的技术主要采取如下做法：引入一种全局与局部注意力机制 (gal)，用于结合局部特征分析与全局上下文；提出一个上下文依赖挖掘网络 (cdmn)，用于低成本特征构建；增加了一种额外的浅层特征 (esf) 映射，以增强上下文；也有许多的研究是通过添加具有上下文感知能力的模块来提升模型聚合信息的能力。

6、我们可以从研究进展中看到，图网络结构与目标检测结合的潜力。这种结合不仅能模拟对象关系，还能利用全局和局部上下文信息提高检测准确性。目前，大多数研究专注于一般场景的物体检测，虽然这些方法在日常环境中表现良好，但在特定应用场景（如密集的城市中），通用模型可能无法满足准确性要求。

7、此外，大多数视觉推理任务采用两阶段检测器，因为它将检测过程分为类别检测和预测框检测两个阶段，这有助于融入常识知识和上下文，从而改善预测效果。然而，单阶段检测器将分类和检测回归合并为一个阶段，使得类似的改进变得困难。

技术实现思路

1、为了解决单阶段检测器将分类和检测回归合并为一个阶段比较困难，从而导致在城市中进行目标检测时结果不精确的问题，本发明提供一种用于城市环境中的目标检测方法，所述方法包括如下步骤：

2、s1、采用改进yolov7模型对含有目标的图片进行检测，得到目标坐标、目标类别和置信度；

3、s2、对每一个检测到的目标进行编号，得到目标唯一编号；

4、s3、设定可信阈值和模糊阈值，根据置信度与可信阈值和模糊阈值的关系将目标分为可信目标和模糊目标；

5、s4、对于每个模糊目标，将其检测框与原始数据中的真实目标框进行对比，计算交并比；

6、s5、根据所述交并比和置信度，计算每个模糊目标的真实置信度；

7、s6、生成节点文件，其中包括目标唯一编号、目标类别、置信度和真实置信度；

8、s7、目标关系计算，跟据目标类别和目标坐标，计算目标之间的空间关系，空间关系包括相交、接近和远离；

9、s8、生成边文件，记录目标之间的空间关系，其中，不记录远离关系；

10、s9、将节点文件和边文件输入改进的sehgnn网络，并得出最终的目标检测结果。

11、进一步，改进yolov7模型中，对yolov7模型的具体改进包括：

12、对yolov7模型中的sppfpc模块进行改进，将maxpool层之前的两个cbs模块删除，将剩余的一个cbs模块替换为卷积核大小为1×1的cbs模块，将maxpool层的窗口大小改为（5，9，13），将relu函数改为silu函数；

13、将yolov7模型中的upsample模块替换为carafe模块；

14、将yolov7模型主干网络中elan模块内卷积核为3×3的卷积层替换为dsconv层；

15、将yolov7模型中的iou替换为shape-iou。

16、进一步，所述目标坐标具体为检测框中心点坐标（x，y）以及检测框的宽w和高h。

17、进一步，当置信度大于等于可信阈值时，目标为可信目标，当置信度小于可信阈值且大于等于模糊阈值时，目标为模糊目标。

18、进一步，所述原始数据中的真实目标框为通过人工对含有目标的图片进行标注得到的目标框。

19、进一步，根据所述交并比和置信度，计算每个模糊目标的真实置信度具体为：

20、如果交并比为零，则s =penalty1 * d_score，其中，s表示每个模糊目标的真实置信度，penalty1表示当交并比为0时施加的惩罚系数，d_score表示置信度，“*”表示乘积；

21、如果目标类别与真实类别不匹配，则s =penalty2 * d_score，其中，penalty2表示当目标类别与真实类别不匹配时施加的惩罚系数；

22、如果交并比大于设定交并比阈值且目标类别与真实类别相匹配，则s = d_score+ k * (iou - threshold) ，其中， k为一个系数，用来增强交并比在大于设定交并比阈值时的影响；threshold为设定交并比阈值。

23、进一步，所述真实类别为通过人工对含有目标的图片进行分类得到的目标所属类别。

24、进一步，所述跟据目标类别和目标坐标，计算目标之间的空间关系，空间关系包括相交、接近和远离，具体为：当两个目标坐标表示的检测框存在重叠部分，则认为目标之间的空间关系为相交，当两个目标坐标表示的检测框不存在重叠部分，且两个目标坐标表示的检测框中心点的距离小于设定的距离阈值时，则认为目标之间的空间关系为接近；其他情况则认为目标之间的空间关系为远离。

25、进一步，对sehgnn网络的具体改进为对sehgnn网络的数据集加载代码做出更改，具体为：

26、对于函数定义：引入load_custom_dataset 函数，用于从指定路径读取和处理自定义数据集；

27、对于文件路径：节点和边数据文件的路径使用os.path.join()函数构建；

28、对于读取数据：使用 pd.read_csv函数读取节点和边数据，指定空格为分隔符，并分配自定义列名；

29、对于处理边：通过交换边数据中的源和目标列来创建反向边，并将其与原始边数据连接；

30、对于张量转换：将test_conf 特征转换为 pytorch 张量，test_conf 表示置信度；使用torch.isnan()函数创建用于real_conf 的掩码，以识别有效节点，real_conf表示真实置信度；

31、对于边索引转换：将边索引转换为张量格式，以兼容 pytorch 操作；

32、对于数据对象创建：创建一个数据对象，包括：

33、x：test_conf特征；

34、edge_index：边连接；

35、mask：基于 real_conf 指示有效节点的掩码；

36、node_id：转换后的节点 id 张量；

37、对于预测保存：引入一个新函数 save_predictions，用于将每个节点的预测写入指定输出文件，每行包含节点 id 及其对应的推理置信度。

38、本发明所述方法的有益效果为：

39、针对城市环境中目标检测的难题，对yolov7模型进行了改进，以提升对城市目标的检测效率，通过引入sppfpc结构、carafe结构与dsconv，降低了模型的复杂度并实现了轻量化，同时采用最新的shape-iou方法优化了回归框的准确性，显著减少了模型的定位损失。这些改进使得模型相较于原始yolov7模型，map50在pascal voc2012数据集上提升1.1%，计算量减少了25.3%，fps达到156.6。然后，利用城市图片对实际环境下的检测任务进行了模拟，测试结果显示检测器对模糊物体的检测效果存在不足，主要是由于物体模糊导致的置信度过低。为了解决这一问题，提出利用物体间的空间位置信息来进行置信度的重计算。通过对数据进行处理和改进异构图神经网络架构，来进行置信度的重计算，具体实施方式中进行的实验验证了这一构想的可行性和显著的改进效果。表明本发明的方法可以在城市图片中进一步提升0.7%的map50，效果显著。

40、本发明所述方法可以应用在目标探测技术领域以及复杂城市环境下的目标追踪技术领域。

技术特征：

1.一种用于城市环境中的目标检测方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的用于城市环境中的目标检测方法，其特征在于，改进yolov7模型中，对yolov7模型的具体改进包括：

3.根据权利要求2所述的用于城市环境中的目标检测方法，其特征在于，所述目标坐标具体为检测框中心点坐标（x，y）以及检测框的宽w和高h。

4.根据权利要求3所述的用于城市环境中的目标检测方法，其特征在于，所述原始数据中的真实目标框为通过人工对含有目标的图片进行标注得到的目标框。

5.根据权利要求4所述的用于城市环境中的目标检测方法，其特征在于，根据所述交并比和置信度，计算每个模糊目标的真实置信度具体为：

6.根据权利要求5所述的用于城市环境中的目标检测方法，其特征在于，所述真实类别为通过人工对含有目标的图片进行分类得到的目标所属类别。

7.根据权利要求6所述的用于城市环境中的目标检测方法，其特征在于，所述跟据目标类别和目标坐标，计算目标之间的空间关系，空间关系包括相交、接近和远离，具体为：当两个目标坐标表示的检测框存在重叠部分，则认为目标之间的空间关系为相交，当两个目标坐标表示的检测框不存在重叠部分，且两个目标坐标表示的检测框中心点的距离小于设定的距离阈值时，则认为目标之间的空间关系为接近；其他情况则认为目标之间的空间关系为远离。

8.根据权利要求7所述的用于城市环境中的目标检测方法，其特征在于，对sehgnn网络的具体改进为对sehgnn网络的数据集加载代码做出更改，具体为：

技术总结
一种用于城市环境中的目标检测方法，属于目标检测技术领域，具体涉及城市环境中的目标检测技术领域。其解决了单阶段检测器将分类和检测回归合并为一个阶段比较困难，从而导致在城市中进行目标检测时结果不精确的问题。本发明所述方法对YOLOv7模型进行改进，降低模型复杂度，实现模型的轻量化。当通过改进YOLOv7模型获得目标坐标、目标类别和置信度后，将这些数据处理，重新计算其置信度，得到真实置信度，将所有信息整理成用于构建异构图神经网络（SeHGNN网络）的训练数据集。最后，将异构图神经网络得到的推理置信度用来替换改进YOLOv7模型得到的置信度，从而提高目标检测精度。

技术研发人员：张丽娟,王晓宇,李芝贻,李东明,李富
受保护的技术使用者：无锡学院
技术研发日：
技术公布日：2024/11/26

转载请注明原文地址:https://tc.8miu.com/read-34161.html

专利

最新回复(0)