1.本技术涉及图像处理技术领域,特别是涉及一种目标检测方法及相关装置、电子设备、存储介质。
背景技术:
2.目标检测是计算机视觉领域的核心任务之一,是实现目标跟踪、行为识别的基础。现有的目标检测方式主要包括:基于手工设计特征的目标检测方式以及基于神经网络的目标检测方式。
3.经研究发现,现有的目标检测方式在类别的多少对于检测精度的高低存在直接影响。通常而言,类别一旦增多,检测精度也会随之降低,在实际应用过程中,对于一些相近的类别也会较难分清。有鉴于此,如何提升目标检测精度成为亟待解决的问题。
技术实现要素:
4.本技术主要解决的技术问题是提供一种目标检测方法及相关装置、电子设备、存储介质,能够提升目标检测精度。
5.为了解决上述技术问题,本技术第一方面提供了一种目标检测方法,包括:获取待检测图像的特征图中各像素位置的第一特征表示,并获取若干预设对象的第二特征表示和若干预设类别的第三特征表示;将预设对象的第二特征表示和预设类别的第三特征表示进行融合,得到融合特征表示;基于第一特征表示和融合特征表示进行预测,得到目标对象关于目标类别的检测结果;其中,目标对象和目标类别分别表征融合特征表示对应的预设对象和预设类别。
6.为了解决上述技术问题,本技术第二方面提供了一种目标检测装置,包括:获取模块、融合模块和预测模块,获取模块,用于获取待检测图像的特征图中各像素位置的第一特征表示,并获取若干预设对象的第二特征表示和若干预设类别的第三特征表示;融合模块,用于将预设对象的第二特征表示和预设类别的第三特征表示进行融合,得到融合特征表示;预测模块,用于基于第一特征表示和融合特征表示进行预测,得到目标对象关于目标类别的检测结果;其中,目标对象和目标类别分别表征融合特征表示对应的预设对象和预设类别。
7.为了解决上述技术问题,本技术第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面的目标检测方法。
8.为了解决上述技术问题,本技术第四方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面的目标检测方法。
9.上述方案,获取待检测图像的特征图中各像素位置的第一特征表示,并获取若干预设对象的第二特征表示和若干预设类别的第三特征表示,基于此将预设对象的第二特征表示和预设类别的第三特征表示进行融合,得到融合特征表示,再基于第一特征表示和融
合特征表示进行预测,得到目标对象关于目标类别的检测结果,且目标对象和目标类别分别表征融合特征表示对应的预设对象和预设类别,故在目标检测过程中,通过融合预设对象的第二特征表示和预设类别的第三特征表示,得到融合特征表示,再基于第一特征表示和融合特征表示进行预测,能够针对性地对各预设类别分别感知并检测,以得到目标对象关于目标类别的检测结果,从而能够将多分类任务转换为二分类任务,进而即使类别再繁多,也能够准确检测,有利于提升目标检测精度。
附图说明
10.图1是本技术目标检测方法一实施例的流程示意图;
11.图2是特征提取一实施例的过程示意图;
12.图3是本技术目标检测方法一实施例的过程示意图;
13.图4是编码网络一实施例的框架示意图;
14.图5是融合特征表示一实施例的过程示意图;
15.图6是解码网络一实施例的框架示意图;
16.图7是待检测图像一实施例的示意图;
17.图8是训练目标检测模型一实施例的流程示意图;
18.图9是本技术目标检测装置一实施例的框架示意图;
19.图10是本技术电子设备一实施例的框架示意图;
20.图11是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.下面结合说明书附图,对本技术实施例的方案进行详细说明。
22.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
23.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
24.请参阅图1,图1是本技术目标检测方法一实施例的流程示意图。具体而言,可以包括如下步骤:
25.步骤s11:获取待检测图像的特征图中各像素位置的第一特征表示,并获取若干预设对象的第二特征表示和若干预设类别的第三特征表示。
26.在一个实施场景中,为了提升目标检测效率,可以预先训练一个目标检测模型,且该目标检测模型可以进一步包括特征提取网络,用于提取待检测图像的特征图。当然,也可以单独训练一个特征提取网络,用于提取待检测图像的特征图,在此不做限定。需要说明的是,特征提取网络可以包括但不限于卷积神经网络,在此对特征提取网络的网络结构不做限定。此外,特征提取网络可以包括若干层特征提取层,如可以包含1层特征提取层,也可以包含2层特征提取层,还可以包含3层特征提取层,在此对特征提取网络所包含的特征提取层的层数不做限定。
27.在一个具体的实施场景中,可以取特征提取网络最后一层特征提取层所输出的特征图,作为待检测图像的特征图,用于后续基于该特征图获取第一特征表示。请结合参阅图2,图2是特征提取一实施例的过程示意图。如图2所示,特征提取网络包含4层特征提取层,经特征提取之后,分别降采样为原待检测图像的4倍、8倍、16倍、32倍。在此基础上,可以取降采样为原待检测图像32倍的特征图(即第4层特征提取层所输出的特征图)作为待检测图像的特征图,用于后续基于该特征图获取第一特征表示。其他情况可以以此类推,在此不再一一举例。
28.在一个具体的实施场景中,也可以融合特征提取网络各层特征提取层分别提取到的特征图,得到融合特征图,作为待检测图像的特征图,用于后续基于该特征图获取第一特征表示。示例性地,可以将各层特征提取层分别提取到的特征图按照降采样倍数由高到低的顺序进行排序,并依次选择一个特征图作为当前特征图,并将当前特征图上采样,得到当前特征图的上采样特征图,以及选择排在当前特征图后一位置的特征图作为待融合特征图,再将当前特征图的上采样特征图与待融合特征图进行融合,得到已融合特征图;在此基础上,将已融合特征图作为当前特征图,再依次选择一个未被选择的特征图作为待融合特征图,将当前特征图进行上采样,得到当前特征图的上采样特征图,以及将当前特征图的上采样特征图和待融合特征图进行融合,得到新的已融合特征图,基于此重复执行上述将已融合特征图作为当前特征图的步骤以及后续步骤,直至特征图全部融合为止。以图2为例,可以先选择32倍降采样的特征图作为当前特征图,并将其上采样为16倍降采样(即进行两倍上采样)的特征图作为上采样特征图,再将该上采样特征图和第3层特征提取层输出的16倍降采样特征图进行融合,得到16倍降采样的已融合特征图;在此基础上,可以将16倍降采样的已融合特征图作为当前特征图,并进行上采样,得到8倍降采样(即进行两倍上采样)的特征图作为上采样特征图,再将该上采样特征图和第2层特征提取层输出的8倍降采样特征图进行融合,得到8倍降采样的已融合特征图;在此基础上,可以将8倍降采样的已融合特征图作为当前特征图,并进行上采样,得到4倍降采样(即进行两倍上采样)的特征图作为上采样特征图,再将该上采样特征图和第1层特征提取层输出的4倍降采样特征图进行融合,得到最终的已融合特征图,作为待检测图像的特征图,用于后续基于该特征图获取第一特征表示。其他情况可以以此类推,在此不再一一举例。
29.在一个实施场景中,各像素位置的第一特征表示可以包含像素位置的图像特征信息和位置特征信息。为了便于描述,待检测图像的特征图的尺寸可以记为w*h*c,即通道数为c,宽度为w,高度为h,则特征图中每一像素位置可以视为具有一个维度为c的特征向量。示例性地,c可以为256等,在此不做限定。此外,对于各像素位置,可以基于其在长度方向的第一位置pos
x
,得到第一位置特征表示,并基于其在宽度方向的第二位置posy,得到第二位置特征表示,再将第一位置特征表示和第二位置特征表示进行拼接,得到表征像素位置的位置特征信息的特征向量,最终将特征图中每个像素位置所具有的特征向量,以及表征该像素位置的位置特征信息的特征向量相加,即可得到该像素位置的第一特征表示。
30.在一个具体的实施场景中,以表征像素位置的位置特征信息的特征向量的维度为256为例,前128维可以代表宽度方向的位置编码,后128维可以代表高度方向的位置编码,其中每一维的特征可以由下式计算:
31.[0032][0033][0034][0035]
上述公式(1)至(4)中,i的取值范围为0至63,故对于像素位置(pos
x
,posy)而言,可以通过公式(1)和(2),得到宽度方向上128维的位置编码,并通过公式(3)和(4),得到高度方向上128维的位置编码,将两个128维的位置编码拼接,即可得到表征像素位置(pos
x
,posy)的位置特征信息的特征向量。
[0036]
在一个实施场景中,为了进一步提升目标检测的准确性,在通过上述方式得到各像素位置的第一特征表示之后,还可以将各像素位置的第一特征表示输入至语义编码网络,以提取深层语义,并将各像素位置分别提取到的语义特征,更新为对应像素位置新的第一特征表示。请结合参阅图3,图3是本技术目标检测方法一实施例的过程示意图。如图3所示,在融合位置编码的位置特征信息之后,经编码网络提取深层语义,即可更新得到各像素位置的第一特征表示。需要说明的是,编码网络的网络结构在此不做限定。示例性地,请参阅图4,图4是编码网络一实施例的框架示意图。如图4所示,编码网络具体可以采用基于transformer的网络架构。编码网络具体可以包括n个具有相同结构的层组成,每层又包含两个子层,分别为多头注意力层和前馈网络层,每个子层进行残差连接后再进行归一化处理。编码网络的具体处理过程,可以参阅transformer的相关技术细节,在此不再赘述。
[0037]
在一个实施场景中,可以将各像素位置的第一特征表示,按照像素位置的先后顺序进行排序,从而可以将各像素位置的第一特征表示展平为一个特征序列。示例性地,可以将第一行第一列的第一特征表示、第一行第二列的第一特征表示、第一行第三列的第一特征表示、
……
、第i行第j列的第一特征表示等展平,作为特征序列。
[0038]
在一个实施场景中,若干预设对象的第一总数可以基于目标检测的使用场景设置。示例性地,对于家庭监控场景而言,需要进行检测的对象数量一般较少,则第一总数可以设置地适当小一些,如可以设置为5、6、7、8、9等;或者,对于车站监控而言,需要进行检测的对象数量一般较多,则第一总数可以设置地适当大一些,如可以设置为100、101、102等。其他场景可以以此类推,在此不再一一举例。上述方式,基于目标检测的使用场景来设置预设对象的第一总数,能够提升对不同使用场景的适应能力。
[0039]
在一个实施场景中,若干预设类别的第二总数可以基于目标检测的使用场景设置。示例性地,对于自动驾驶场景而言,需要检测的对象种类一般较多,如可以包括但不限于:行人、机动车、非机动车、路牌、信号灯、指示线(如,停止线、人行道、车道线、左转弯线、右转弯线、直行线等)等等,在此不做限定,故第二总数可以设置地适当大一些,如可以设置为20、21、22、23等;或者,对于包裹安检场景而言,需要检测的对象种类一般较少,如可以包括但不限于:衣物、食品、危险物品等等,在此不做限定,故第二总数可以设置地适当小一些,如可以设置为5、6、7、8等。其他场景可以以此类推,在此不再一一举例。上述方式,基于目标检测的使用场景来设置预设类别的第二总数,能够提升对不同使用场景的适应能力。
[0040]
在一个实施场景中,如前所述,为了提升目标检测效率,可以预先训练一个目标检测模型,则第二特征表示和第三特征表示可以基于训练目标检测模型得到,具体训练过程,
可以参阅下述相关描述,在此暂不赘述。
[0041]
步骤s12:将预设对象的第二特征表示和预设类别的第三特征表示进行融合,得到融合特征表示。
[0042]
具体地,可以将各预设对象的第二特征表示分别和各预设类别的第三特征表示进行拼接,得到融合特征表示。示例性地,以目标检测过程中,设有m个预设对象以及n个预设类别为例,请结合参阅图5,图5是融合特征表示一实施例的过程示意图。如图5所示,则对于每个预设对象而言,可以将其第二特征表示分别与第1至第n个预设类别的第三特征表示进行拼接,得到n个融合特征表示,也就是说,最终可以得到m*n个融合特征表示。请继续结合参阅图3,在设有两个预设对象和两个预设类别的情况下,这两个预设对象的第二特征表示和这两个预设类别的第三特征表示可以两两拼接,得到四个融合特征表示,以在目标检测过程中实现类别感知。其他情况可以以此类推,在此不再一一举例。上述方式,将各预设对象的第二特征表示分别和各预设类别的第三特征表示进行拼接,得到融合特征表示,即能够将第二特征表示和第三特征表示两两拼接,从而能够在后续预测过程中,得到各预设对象关于各预设类别的检测结果,进而有利于提升目标检测的完整性。
[0043]
步骤s13:基于第一特征表示和融合特征表示进行预测,得到目标对象关于目标类别的检测结果。
[0044]
本公开实施例中,目标对象和目标类别分别表征融合特征表示对应的预设对象和预设类别,以家庭监控场景为例,若干预设对象的第一总数可以设置为3,为了便于区分,可以分别称为“第一对象”、“第二对象”、“第三对象”,若干预设类别的第二总数可以设置为2,如“人”、“宠物”,则可以将预设对象“第一对象”的第二特征表示与预设类别“人”的第三特征表示进行融合,得到融合特征表示,在基于该融合特征表示和第一特征表示进行预测时,目标对象即为“第一对象”,目标类别即为“人”;或者,可以将预设对象“第一对象”的第二特征表示和预设类别“宠物”的第三特征表示进行融合,得到融合特征表示,在基于该融合特征表示和第一特征表示进行预测时,目标对象即为“第一对象”,目标类别即为“宠物”。其他情况可以以此类推,在此不再一一举例。
[0045]
在一个实施场景中,如前所述,为了提升目标检测效率,可以预先训练一个目标检测模型,从而可以利用该目标检测模型执行目标检测。请结合参阅图3,目标检测模型可以进一步包括解码网络和预测网络,则可以将融合特征表示和各像素位置的第一特征表示输入该解码网络进行解码,得到解码特征表示,再将该解码特征表示输入预测网络,得到该融合特征表示对应的检测结果。
[0046]
在一个具体的实施场景中,解码网络的网络结构在此不做限定。示例性地,请结合参阅图6,图6是解码网络一实施例的框架示意图。如图6所示,解码网络具体可以采用基于transformer的网络架构。解码网络具体可以包括l个具有相同结构的层组成,每层又包含三个子层,分别为两个多头注意力层和一个前馈网络层,每个子层进行残差连接后再进行归一化处理。如图4所示的编码网络,解码网络与编码网络的网络结构类似,主要不同在于,解码网络中第二个多头注意力层的三个特征q、k、v并非来自同一特征,其中,k和v特征来自于编码网络的输出特征(即第一特征表示),而q特征来自于融合特征表示。
[0047]
在一个具体的实施场景中,预测网络可以包括分别用于对各个解码特征表示进行预测处理的子网络,且每个子网络可以包括前馈网络层和全连接层,前馈网络层用于对解
码特征表示进行处理,得到新的特征表示,从而将该新的特征表示输入全连接层,即可得到对应的检测结果。
[0048]
在一个实施场景中,检测结果具体可以包括:目标对象在待检测图像中的预测位置,以及预测位置是否存在目标类别的目标对象。以融合预设对象“第一对象”的第二特征表示与预设类别“人”的第三特征表示为例,其检测结果具体可以包括:“第一对象”在待检测图像中的预测位置,以及该预测位置是否存在“人”;或者,以融合预设对象“第一对象”的第二特征表示和预设类别“宠物”的第三特征表示为例,其检测结果具体可以包括:“第一对象”在待检测图像中的预测位置,以及该预测位置是否存在“宠物”。其他情况可以以此类推,在此不再一一举例。
[0049]
在一个具体的实施场景中,检测结果具体可以包括预测位置存在目标类别的目标对象的概率值。示例性地,请结合参阅图7,图7是待检测图像一实施例的示意图。仍以若干预设对象包括“第一对象”和“第二对象”,若干预设类别包括“人”和“宠物”为例,如图7所示,“第一对象”关于“人”的检测结果包括“第一对象”在待检测图像中的预测位置(如图7虚线框a所示),以及该预测位置处存在类别为“人”的“第一对象”的概率值0.99,“第一对象”关于“宠物”的检测结果包括“第一对象”在待检测图像中的预测位置(如图7虚线框a所示),以及该预测位置处存在类别为“宠物”的“第一对象”的概率值0.01。此外,“第二对象”关于“人”的检测结果包括“第二对象”在待检测图像中的预测位置(如图7虚线框b所示),以及该预测位置处存在类别为“人”的概率值0.02,“第二对象”关于“宠物”的检测结果包括“第二对象”在待检测图像中的预测位置(如图7虚线框b所示),以及该预测位置处存在类别为“宠物”的“第二对象”的概率值0.98。需要说明的是,上述概率值以及预测位置仅仅实际应用过程中一种可能的情况,并不因此而限定实际的检测结果。此外,在若干预设对象以及若干预设类别为其他情况时,可以以此类推,在此不再一一举例。
[0050]
在一个具体的实施场景中,如前所述,检测结果具体可以包括预测位置存在目标类别的目标对象的概率值,在此基础上,可以基于目标对象关于各预设类别的概率值,确定目标对象的最终类别和在待检测图像中的目标位置。示例性地,作为实际应用过程中一种可能的实施方式,可以预先设置检测阈值(如,0.8、0.85等),在此基础上,可以判断目标对象关于各预设类别的概率值中的最大值是否大于检测阈值,若是,则可以确定目标对象的最终类别为最大概率值所对应的预设类别,目标对象在待检测图像中的目标位置为最终类别所属检测结果中的预测位置。请继续结合参阅图7,由于“第一对象”关于“人”、“宠物”的概率值分别为0.99、0.01,其中的最大值大于检测阈值,故可以将最大概率值对应的预设类别“人”作为“第一对象”的最终类别,并将该最终类别所属检测结果中的预测位置(即虚线框a)作为“第一对象”的目标位置;类似地,由于“第二对象”关于“人”、“宠物”的概率值分别为0.02、0.98,其中的最大值大于检测阈值,故可以将最大概率值对应的预设类别“宠物”作为“第二对象”的最终类别,并将该最终类别所属检测结果中的预测位置(即虚线框b)作为“第二对象”的目标位置。需要说明的是,若目标对象关于各预设类别的概率值中的最大值不大于检测阈值,则可以认为待检测图像中不存在该目标对象(即图3预测网络所输出的no object)。上述方式,检测结果包括预测位置存在目标类别的目标对象的概率值,并基于目标对象关于各预设类别的概率值,确定目标对象的最终类别和在待检测图像中的目标位置,能够通过尽可能简单的后处理得到最终类别和目标位置,有利于降低目标检测的复杂
度。
[0051]
上述方案,获取待检测图像的特征图中各像素位置的第一特征表示,并获取若干预设对象的第二特征表示和若干预设类别的第三特征表示,基于此将预设对象的第二特征表示和预设类别的第三特征表示进行融合,得到融合特征表示,再基于第一特征表示和融合特征表示进行预测,得到目标对象关于目标类别的检测结果,且目标对象和目标类别分别表征融合特征表示对应的预设对象和预设类别,故在目标检测过程中,通过融合预设对象的第二特征表示和预设类别的第三特征表示,得到融合特征表示,再基于第一特征表示和融合特征表示进行预测,能够针对性地对各预设类别分别感知并检测,以得到目标对象关于目标类别的检测结果,从而能够将多分类任务转换为二分类任务,进而即使类别再繁多,也能够准确检测,有利于提升目标检测精度。
[0052]
请参阅图8,图8是训练目标检测模型一实施例的流程示意图。如前所述,为了提升目标检测效率,可以预先训练目标检测模型,且前述第二特征表示和第三特征表示可以基于目标检测模型训练得到,而目标检测模型可以利用样本图像训练得到,样本图像可以标记有若干样本对象的标注信息。具体而言,本公开实施例可以包括如下步骤:
[0053]
步骤s81:获取样本图像的样本特征图中各像素位置的样本特征表示,并将预设对象的对象特征表示和预设类别的类别特征表示进行融合,得到样本融合表示。
[0054]
具体可以参阅前述公开实施例中关于获取第一特征表示,以及融合第二特征表示和第三特征表示的相关描述,在此不再赘述。此外,在首次训练时,可以初始化各预设对象的对象特征表示,并初始化各预设类别的类别特征表示。示例性地,可以随机初始化m个预设对象的对象特征表示,并随机初始化n个预设类别的类别特征表示。
[0055]
步骤s82:基于样本特征表示和样本融合表示进行预测,得到样本目标对象关于样本目标类别的预测结果。
[0056]
本公开实施例中,样本目标对象和样本目标类别分别表征样本融合表示对应的预设对象和预设类别,具体可以参阅前述公开实施例中关于“基于第一特征表示和融合特征表示进行预测,得到目标对象关于目标类别的检测结果”的相关描述,在此不再赘述。
[0057]
步骤s83:基于标注信息和预测结果之间的差异,调整对象特征表示、类别特征表示和目标检测模型的网络参数。
[0058]
在一个实施场景中,可以基于预测结果和标注信息两两之间的差异,获取若干组比对组合,再基于各组比对组合中预测结果和标注信息之间的差异,调整对象特征表示、类别特征表示和目标检测模型的网络参数。上述方式,通过先匹配组合再计算差异的方式,能够提升损失度量的准确性,从而有利于提升后续调整特征表示和网络参数的准确性。
[0059]
在一个具体的实施场景中,样本对象的标注信息可以包括样本对象在样本图像中的实际位置,以及样本对象的实际类别,预测结果可以包括样本目标对象在样本图像中的预测位置,以及预测位置处是否存在样本目标类别的样本目标对象。在此基础上,可以采用匈牙利算法对标注信息和预测结果进行双边匹配,为每个预测结果匹配最佳的标注信息,如为预测结果匹配与其所含预测位置最为接近的实际位置所属的标注信息。需要说明的是,在实际应用过程中,可能存在标准信息的数量少于预测结果的数量的情况,在此情况下,可以虚构标注信息,且虚构的标注信息不包含的具体的对象类别。具体匹配过程,可以参阅匈牙利算法的技术细节,在此不再赘述。
[0060]
在一个具体的实施场景中,在每组比对组合中,对于预测结果中预测位置处是否存在样本目标类别的样本目标对象,以及标注信息中样本对象的实际类别之间的差异(即二分类损失),可以采用诸如交叉熵等损失函数度量得到第一损失,而对于预测结果中样本目标对象在样本图像中的预测位置,以及标注信息中样本对象在样本图像中的实际位置之间的差异(即回归损失),即可采用诸如iou(intersection over union,交并比)、l1、l2等损失函数度量得到第二损失,并结合第一损失和第二损失,即可得到该组比对组合对应的子损失,从而可以将各组比对组合分别对应的子损失进行融合(如,相加、加权等),得到总损失,进而可以基于总损失,采用诸如梯度下降等优化方式调整对象特征表示、类别特征表示和目标检测模型的网络参数。差异度量的具体过程,可以参阅前述交叉熵损失、iou损失、l1损失、l2损失等损失函数的技术细节,而特征表示以及参数调整的具体过程,可以参阅梯度下降等优化方式的技术细节,在此不再赘述。
[0061]
在一个实施场景中,如前所述,目标检测模型可以包括特征提取网络、编码网络、解码网络和预测网络,各网络的作用可以参阅前述公开实施例中相关描述,在此不再赘述。在此基础上,在调整目标检测模型的网络参数的过程中,可以调整各个网络的网络参数。
[0062]
步骤s84:重新执行获取样本图像的样本特征图中各像素位置的样本特征表示的步骤以及后续步骤,直至训练收敛,将对象特征表示作为第二特征表示,并将类别特征表示作为第三特征表示。
[0063]
具体地,可以在训练尚未收敛的情况下(如,训练迭代次数仍少于某一设定阈值,或者,总损失仍然大于某一设定阈值等),则可以重新执行上述获取样本图像的样本特征图中各像素位置的样本特征表示的步骤以及后续步骤,以对目标检测模型进行再次训练,直至训练收敛为止。在训练收敛之后,即可将最新的对象特征表示,作为第二特征表示,并将最新的类别特征表示,作为第三特征表示。
[0064]
上述方案,获取样本图像的样本特征图中各像素位置的样本特征表示,并将预设对象的对象特征表示和预设类别的类别特征表示进行融合,得到样本融合表示,再基于样本特征表示和样本融合表示进行预测,得到样本目标对象关于样本目标类别的预测结果,且样本目标对象和样本目标类别分别表征样本融合表示对应的预设对象和预设类别,在此基础上,基于标注信息和预测结果之间的差异,调整对象特征表示、类别特征表示和目标检测模型的网络参数,以及重新执行获取样本图像的样本特征图中各像素位置的样本特征表示的步骤以及后续步骤,直至训练收敛,将对象特征表示作为第二特征表示,并将类别特征表示作为第三特征表示,故能够在目标检测模型训练过程中,一并调整对象特征表示和类别特征表示,有利于使网络有先验地学习各类别对象的特征,从而能够降低训练难度,进而能够有利于提升收敛速度。
[0065]
请参阅图9,图9是本技术目标检测装置90一实施例的框架示意图。目标检测装置90包括:获取模块91、融合模块92和预测模块93,获取模块91,用于获取待检测图像的特征图中各像素位置的第一特征表示,并获取若干预设对象的第二特征表示和若干预设类别的第三特征表示;融合模块92,用于将预设对象的第二特征表示和预设类别的第三特征表示进行融合,得到融合特征表示;预测模块93,用于基于第一特征表示和融合特征表示进行预测,得到目标对象关于目标类别的检测结果;其中,目标对象和目标类别分别表征融合特征表示对应的预设对象和预设类别。
[0066]
上述方案,在目标检测过程中,通过融合预设对象的第二特征表示和预设类别的第三特征表示,得到融合特征表示,再基于第一特征表示和融合特征表示进行预测,能够针对性地对各预设类别分别感知并检测,以得到目标对象关于目标类别的检测结果,从而能够将多分类任务转换为二分类任务,进而即使类别再繁多,也能够准确检测,有利于提升目标检测精度。
[0067]
在一些公开实施例中,检测结果包括:目标对象在待检测图像中的预测位置,以及预测位置是否存在目标类别的目标对象。
[0068]
因此,将检测结果设置为包括:目标对象在待检测图像中的预测位置,以及预测位置是否存在目标类别的目标对象,故在融合第二特征表示和第三特征表示实现类别感知的目标检测的基础上,将多分类任务转换为二分类任务,从而检测结果中包含目标对象关于目标类别的二分类结果,有利于尽可能地降低后续处理的复杂度。
[0069]
在一些公开实施例中,检测结果包括预测位置存在目标类别的目标对象的概率值;目标检测装置90还包括后处理模块,用于基于目标对象关于各预设类别的概率值,确定目标对象的最终类别和在待检测图像中的目标位置。
[0070]
因此,检测结果包括预测位置存在目标类别的目标对象的概率值,并基于目标对象关于各预设类别的概率值,确定目标对象的最终类别和在待检测图像中的目标位置,能够通过尽可能简单的后处理得到最终类别和目标位置,有利于降低目标检测的复杂度。
[0071]
在一些公开实施例中,融合模块92具体用于将各预设对象的第二特征表示分别和各预设类别的第三特征表示进行拼接,得到融合特征表示。
[0072]
因此,将各预设对象的第二特征表示分别和各预设类别的第三特征表示进行拼接,得到融合特征表示,即能够将第二特征表示和第三特征表示两两拼接,从而能够在后续预测过程中,得到各预设对象关于各预设类别的检测结果,进而有利于提升目标检测的完整性。
[0073]
在一些公开实施例中,检测结果基于目标检测模型检测得到,第二特征表示和第三特征表示基于目标检测模型训练得到,且目标检测模型是利用样本图像训练得到的,样本图像标记有若干样本对象的标注信息。
[0074]
因此,在训练目标检测模型过程中,一并训练得到第二特征表示和第三特征表示,有利于提升第二特征表示和第三特征表示的准确性。
[0075]
在一些公开实施例中,目标检测装置90包括样本获取模块,用于获取样本图像的样本特征图中各像素位置的样本特征表示,并将预设对象的对象特征表示和预设类别的类别特征表示进行融合,得到样本融合表示;目标检测装置90包括样本预测模块,用于基于样本特征表示和样本融合表示进行预测,得到样本目标对象关于样本目标类别的预测结果;其中,样本目标对象和样本目标类别分别表征样本融合表示对应的预设对象和预设类别;目标检测装置90包括优化调整模块,用于基于标注信息和预测结果之间的差异,调整对象特征表示、类别特征表示和目标检测模型的网络参数;目标检测装置90包括特征获取模块,用于重新执行获取样本图像的样本特征图中各像素位置的样本特征表示的步骤以及后续步骤,直至训练收敛,将对象特征表示作为第二特征表示,并将类别特征表示作为第三特征表示。
[0076]
因此,能够在目标检测模型训练过程中,一并调整对象特征表示和类别特征表示,
有利于使网络有先验地学习各类别对象的特征,从而能够降低训练难度,进而能够有利于提升收敛速度。
[0077]
在一些公开实施例中,优化调整模块包括匹配子模块,用于基于预测结果和标注信息两两之间的差异,获取若干组比对组合;优化调整模块包括优化子模块,用于基于各组比对组合中预测结果和标注信息之间的差异,调整对象特征表示、类别特征表示和目标检测模型的网络参数。
[0078]
因此,通过先匹配组合再计算差异的方式,能够提升损失度量的准确性,从而有利于提升后续调整特征表示和网络参数的准确性。
[0079]
在一些公开实施例中,目标检测装置90包括特征初始化模块,用于初始化各预设对象的对象特征表示,并初始化各预设类别的类别特征表示。
[0080]
因此,在正式训练之前先通过初始化得到各预设对象的对象特征表示和各预设类别的类别特征表示,而无需特别设计特征表示,有利于进一步降低模型训练复杂度。
[0081]
在一些公开实施例中,第一特征表示包含像素位置的图像特征信息和位置特征信息;和/或,若干预设对象的第一总数、若干预设类别的第二总数中至少一者基于目标检测的使用场景设置。
[0082]
因此,第一特征表示设置为包含像素位置的图像特征信息和位置特征信息,故能够在目标检测过程中同时参考图像特征信息和位置特征信息,有利于提升目标检测的准确性;而若干预设对象的第一总数、若干预设类别的第二总数中至少一者基于目标检测的使用场景设置,能够提升对不同使用场景的适应性。
[0083]
请参阅图10,图10是本技术电子设备100一实施例的框架示意图。电子设备100包括相互耦接的存储器101和处理器102,存储器101中存储有程序指令,处理器102用于执行程序指令以实现上述任一目标检测方法实施例中的步骤。具体地,电子设备100可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0084]
具体而言,处理器102用于控制其自身以及存储器101以实现上述任一目标检测方法实施例中的步骤。处理器102还可以称为cpu(central processing unit,中央处理单元)。处理器102可能是一种集成电路芯片,具有信号的处理能力。处理器102还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器102可以由集成电路芯片共同实现。
[0085]
上述方案,在目标检测过程中,通过融合预设对象的第二特征表示和预设类别的第三特征表示,得到融合特征表示,再基于第一特征表示和融合特征表示进行预测,能够针对性地对各预设类别分别感知并检测,以得到目标对象关于目标类别的检测结果,从而能够将多分类任务转换为二分类任务,进而即使类别再繁多,也能够准确检测,有利于提升目标检测精度。
[0086]
请参阅图11,图11是本技术计算机可读存储介质110一实施例的框架示意图。计算机可读存储介质110存储有能够被处理器运行的程序指令111,程序指令111用于实现上述任一目标检测方法实施例中的步骤。
[0087]
上述方案,在目标检测过程中,通过融合预设对象的第二特征表示和预设类别的第三特征表示,得到融合特征表示,再基于第一特征表示和融合特征表示进行预测,能够针对性地对各预设类别分别感知并检测,以得到目标对象关于目标类别的检测结果,从而能够将多分类任务转换为二分类任务,进而即使类别再繁多,也能够准确检测,有利于提升目标检测精度。
[0088]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0089]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0090]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0091]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0092]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0093]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
转载请注明原文地址:https://tc.8miu.com/read-1032.html