1.本技术涉及目标检测技术领域,尤其涉及一种目标检测方法及图片检测模型的训练方法。
背景技术:
2.detr(detection transformer,检测变化器)是一种端到端的目标检测器。
3.在相关技术中,detr包括cnn(convolutional neural networks,卷积神经网络)骨干(backbone)网络,其中,cnn骨干网络用于提取(输入到detr的)图片的特征信息,并向detr中除cnn骨干网络之外的其他网络提供特征信息,以使其他网络基于特征信息对图片中的目标进行检测。
4.在上述相关技术中,通过cnn骨干网络提取图片的特征信息,使得特征信息的准确性较低,进而导致对图片中的目标进行检测的精度较低。
技术实现要素:
5.本技术实施例提供一种目标检测方法及图片检测模型的训练方法,用以解决对图片中的目标进行检测的精度较低问题。
6.第一方面,本技术实施例提供一种目标检测方法,包括:
7.将待检测图片输入图片检测模型中的swin网络中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息;
8.将第二特征信息输入图片检测模型中的transformer编码网络中,得到编码信息;
9.将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。
10.在一种可能的设计中,将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的位置信息,包括:
11.将编码信息输入图片检测模型中的transformer解码网络中,得到目标的边框的坐标信息;
12.通过加权边界框融合方法对边框的坐标信息进行处理,得到目标的位置信息。
13.在一种可能的设计中,swin网络中的分块合并模块的数量为多个,多个分块合并模块对应的分辨率参数不同。
14.在一种可能的设计中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,包括:
15.通过线性变换模块,将待检测图片转换为张量信息;
16.通过第一swin transformer模块提取张量信息中的多个第一特征信息。
17.第二方面,本技术实施例提供一种图片检测模型的训练方法,包括:
18.将样本图片输入初始图片检测模型中的初始swin网络中,通过初始swin网络中的初始线性变换模块和与初始线性变换模块对应的第一初始swin transformer模块,提取待检测图片中的多个第一样本特征信息,并通过初始swin网络中的至少一个初始分块合并模块以及与各初始分块合并模块对应的第二初始swin transformer模块,对多个第一样本特征信息进行合并与提取,得到第二样本特征信息;
19.对第二样本特征信息和样本图片中目标的标注信息进行特征融合处理,得到融合特征;
20.根据融合特征,调整初始图片检测模型中的模型参数,得到图片检测模型。
21.在一种可能的设计中,根据融合特征,调整初始图片检测模型中的模型参数,得到图片检测模型,包括:
22.将融合特征输入初始图片检测模型中的初始transformer编码网络中,得到样本编码信息;
23.将样本编码信息输入初始图片检测模型中的初始transformer解码网络中,得到样本图片中目标的类别和位置信息;
24.根据标注信息、样本图片中目标的类别和位置信息,调整初始图片检测模型中的模型参数,得到图片检测模型。
25.第三方面,本技术实施例提供一种目标检测装置,包括:
26.第一特征提取模块,用于将待检测图片输入图片检测模型中的swin网络中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息;
27.第一编码模块,用于将第二特征信息输入图片检测模型中的transformer编码网络中,得到编码信息;
28.第一解码模块,用于将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。
29.在一种可能的设计中,第一解码模块用于:
30.将编码信息输入图片检测模型中的transformer解码网络中,得到目标的边框的坐标信息;
31.通过加权边界框融合方法对边框的坐标信息进行处理,得到目标的位置信息。
32.在一种可能的设计中,swin网络中的分块合并模块的数量为多个,多个分块合并模块对应的分辨率参数不同。
33.在一种可能的设计中,第一特征提取模块用于:
34.通过线性变换模块,将待检测图片转换为张量信息;
35.通过第一swin transformer模块提取张量信息中的多个第一特征信息。
36.第四方面,本技术实施例提供一种图片检测模型的训练装置,包括:
37.第二特征提取模块,用于将样本图片输入初始图片检测模型中的初始swin网络中,通过初始swin网络中的初始线性变换模块和与初始线性变换模块对应的第一初始swin transformer模块,提取待检测图片中的多个第一样本特征信息,并通过初始swin网络中的
至少一个初始分块合并模块以及与各初始分块合并模块对应的第二初始swin transformer模块,对多个第一样本特征信息进行合并与提取,得到第二样本特征信息;
38.第一融合模块,用于对第二样本特征信息和样本图片中目标的标注信息进行特征融合处理,得到融合特征;
39.第一参数更新模块,用于根据融合特征,调整初始图片检测模型中的模型参数,得到图片检测模型。
40.在一种可能的设计中,第一参数更新模块具体用于:
41.将融合特征输入初始图片检测模型中的初始transformer编码网络中,得到样本编码信息;
42.将样本编码信息输入初始图片检测模型中的初始transformer解码网络中,得到样本图片中目标的类别和位置信息;
43.根据标注信息、样本图片中目标的类别和位置信息,调整初始图片检测模型中的模型参数,得到图片检测模型。
44.第五方面,本技术实施例提供一种电子设备,包括:处理器,以及与处理器通信连接的存储器;
45.存储器存储计算机执行指令;
46.处理器执行存储器存储的计算机执行指令,以实现如第一方面任一项的方法。
47.第六方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,计算机执行指令被处理器执行时用于实现如第一方面任一项的方法。
48.第七方面,本技术实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面任一项的方法。
49.本技术实施例提供一种目标检测方法及图片检测模型的训练方法,目标检测方法包括:将待检测图片输入图片检测模型中的swin网络中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息;将第二特征信息输入图片检测模型中的transformer编码网络中,得到编码信息;将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。在上述方法中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息,可以使得第二特征信息的准确性较高,提高待检测图片中目标的类别和位置信息的准确性,进而提高对图片中的目标进行检测的精度。
附图说明
50.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
51.图1为本技术实施例提供的目标检测方法的应用场景示意图;
52.图2为本技术实施例提供的目标检测方法的流程图;
53.图3为本技术实施例提供的swin网络的一种结构示意图;
54.图4为本技术实施例提供的transformer编码网络的一种结构示意图;
55.图5为本技术实施例提供的transformer解码网络的一种结构示意图;
56.图6为本技术实施例提供的图片检测模型的训练方法的流程图;
57.图7为本技术实施例提供的初始图片检测模型的一种结构示意图;
58.图8为本技术实施例提供的目标检测装置的结构示意图;
59.图9为本技术实施例提供的图片检测模型的训练装置的结构示意图;
60.图10为本技术实施例提供的电子设备的硬件示意图。
61.通过上述附图,已示出本技术明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本技术的概念。
具体实施方式
62.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本技术相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本技术的一些方面相一致的装置和方法的例子。
63.首先对本技术所涉及的名词进行解释:
64.大尺度场景:眼睛可以看到的视野较为宽广的场景。
65.小目标:在大尺度场景中看到的、缩小后的目标的一部分。
66.在车辆自动驾驶的过程中,通常需要对目标(例如禁止左转标识、禁止右转标识、禁止停车标识等)进行检测,以保障车辆正常行驶。
67.在相关技术中,通过detr中的cnn骨干网络提取(输入到detr的)图片的特征信息,并向detr中除cnn骨干网络之外的其他网络提供特征信息,以使其他网络基于特征信息对图片中的目标进行检测。在上述相关技术中,cnn骨干网络在大尺度场景下对小目标的特征提取效果较差,因此通过cnn骨干网络提取图片的特征信息,使得特征信息的准确性较低,进而导致对图片中的目标进行检测的精度较低。
68.在本技术中,为了提高对目标进行检测的精度,发明人想到,设计一种swin网络,其中,swin网络包括线性变换模块、线性变换模块对应的第一swin transformer模块、分块合并模块、分块合并模块对应的第二swin transformer模块,依次通过线性变换模块、线性变换模块对应的第一swin transformer模块、分块合并模块、分块合并模块对应的第二swin transformer模块,对待检测图片进行处理,得到特征信息,进而基于特征信息对待检测图片中的目标进行检测,从而提高对图片中的目标进行检测的精度。
69.下面结合图1,对本技术实施例提供的目标检测方法的应用场景进行说明。
70.图1为本技术实施例提供的目标检测方法的应用场景示意图。如图1所示,应用场景包括:电子设备、图片检测模型、图像采集装置和待检测图片。
71.图片检测模型和图像采集装置设置在电子设备中。
72.图像采集装置用于进行图像采集得到的待检测图片。
73.图片检测模型用于对待检测图片中的目标进行检测,得到目标的类别和位置信息,从而实现对目标的检测。
74.下面以具体地实施例对本技术的技术方案以及本技术的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本技术的实施例进行描述。
75.图2为本技术实施例提供的目标检测方法的流程图。如图2所示,该方法包括:
76.s201,将待检测图片输入图片检测模型中的swin网络中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息。
77.可选地,本技术实施例的执行主体为电子设备,也可以为设置在电子设备中的目标检测装置,该目标检测装置可以通过软件和/或硬件的结合来实现。
78.电子设备可以设置在具有自动驾驶功能的车辆上,例如实现对禁止左转、禁止右转、禁止停车等目标进行检测。
79.可选地,当目标检测装置通过软件和硬件的结合来实现时,目标检测装置包括图片检测模型和图像采集装置。
80.下面结合图3对本技术提供的swin网络进行说明。
81.图3为本技术实施例提供的swin网络的一种结构示意图。如图3所示,swin网络包括:线性变换模块、线性变换模块对应的第一swin transformer模块、至少一个分块合并模块和各分块合并模块对应的第二swin transformer模块。
82.在一些实施例中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,包括:通过线性变换模块,将待检测图片转换为张量信息;通过第一swin transformer模块提取张量信息中的多个第一特征信息。
83.待检测图片的颜色格式可以为rgb格式,也可以为其他格式。
84.例如,当待检测图片的颜色格式为rgb格式时,通过线性变换模块将待检测图片转换为三维数据,每一维数据中包括张量信息(tensor)。待检测图片转换成的张量信息中包括三维数据中每一维数据中包括的张量信息。
85.例如,当待检测图片的颜色格式为其他颜色格式时,可以将待检测图片的颜色格式转换为rgb格式,再通过线性变换模块将待检测图片转换为三维数据。
86.第一swin transformer模块包括至少一个ln层、至少一个w-msa层、至少一个sw-msa层、至少一个mlp层。图3是以ln层的数量为4、w-msa层的数量为1、sw-msa层的数量为1、mlp层的数量为2进行示例性说明的。
87.可选地,4个ln层的结构相同,参数可以相同、或者存在不同。
88.可选地,2个mlp层的结构相同,参数可以相同、或者存在不同。
89.可选地,多个第一特征信息包括三维数据中各维数据中包括的张量信息各自对应的第一特征信息。
90.针对每个第一特征信息,下面结合图3对通过第一swin transformer模块提取张量信息中的多个第一特征信息进行说明。
91.ln(layer normalizaiton,层标准化)层c31,用于对张量信息中某一维维数据包括的张量信息进行归一化处理,得到第一标准信息。
92.w-msa(window based self-attention,基于窗口的自注意力)层c32,用于对第一标准信息进行特征提取处理,得到第一提取特征信息。
93.ln层c33,用于对第一提取特征信息进行归一化处理,得到第二标准信息。
94.mlp(multilayer perceptron,多层感知机)c34,用于对第二标准信息进行神经节点的展开处理,得到第一输出信息。
95.ln层c35,用于对第一输出信息进行归一化处理,得到第三标准信息。
96.sw-msa(shifted window based multi-head self-attention,基于滑动窗口的自注意力)层c36,用于对第三标准信息进行滑动特征提取处理,得到第二提取特征信息。
97.ln层c37,用于对第二提取特征信息进行处理,得到第四标准信息。
98.mlp层c38,用于对第四标准信息进行神经节点的展开处理,得到与上述某一维维数据包括的张量信息对应的第一特征信息。
99.至少一个分块合并模块的数量可以为多个,多个分块合并模块对应的分辨率参数不同(例如分辨率分别为1/4、1/8、1/16、1/32等)。
100.图3是以至少一个分块合并模块的数量为3、第二swin transformer模块的数量也为3进行示例性说明的。3个分块合并模块对应的分辨率参数不同,例如从左到右分辨率参数依次为分别为1/4、1/8、1/16。
101.分块合并模块,用于在分辨率参数下进行信息分块合并。
102.第二swin transformer模块,用于在与分块合并模块对应的分辨率参数下,对分块合并模块输出的信息进行特征提取。
103.其中,第二swin transformer模块的结构与第一swin transformer模块的结构相同。
104.需要说明的是,针对一个分块合并模块,该分块合并模块对应的第二swin transformer模块的输出信息还可以重复输入至分块合并模块,进行重复处理,以提高对特征信息进行合并与提取的精度。
105.s202,将第二特征信息输入图片检测模型中的transformer编码网络中,得到编码信息。
106.transformer编码网络用于对第二特征信息进行特征整合,以得到编码信息。
107.首先结合图4对transformer编码网络进行说明。
108.图4为本技术实施例提供的transformer编码网络的一种结构示意图。如图4所示,transformer编码网络包括:多头注意力检测模块、合并与归一化层、mlp层。
109.可选地,transformer编码网络中多头注意力检测模块、合并与归一化层、以及mlp层的数量可以为1个、也可以为多个。
110.需要说明的是,图4是以多头注意力检测模块、合并与归一化层、mlp层的数量均为1个为例进行说明的。
111.下面在图4的基础上,对将第二特征信息输入transformer编码网络中,得到编码信息的过程进行说明。
112.多头注意力检测模块,用于对第二特征信息进行多头注意力检测处理,得到第一
编码输出信息.
113.合并与归一化层c41,用于对第一输出信息拼接融合、归一化处理,得到第二编码输出信息。
114.mlp层,用于对第二输出信息进行神经节点的展开处理,得到第三编码输出信息。
115.合并与归一化层c42,用于对第三编码输出信息进行处理,得到编码信息。
116.在一些实施例中,电子设备可以重复多次(例如2次、6次、7次等)执行s202。例如,当重复2次执行s202时,将第二特征信息输入图片检测模型中的transformer编码网络中,得到第一编码信息,将第一编码信息输入图片检测模型中的transformer编码网络中,得到编码信息。
117.s203,将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。
118.transformer解码网络用于将编码信息中包括的有用信息和无用信息进行区分,以便基于有用信息得到目标的类别和位置信息。
119.首先结合图5对transformer解码网络进行说明。
120.图5为本技术实施例提供的transformer解码网络的一种结构示意图。如图5所示,transformer解码网络包括:多头注意力检测模块、合并与归一化层、mlp层。
121.多头注意力检测模块、合并与归一化层、mlp层的数量可以为1个、也可以为多个。
122.需要说明的是,图5是以多头注意力检测模块、合并与归一化层、mlp层的数量均为2个为例进行说明的。
123.下面结合图5,对将编码信息输入transformer解码网络,得到待检测图片中目标的类别和位置信息的过程进行说明。
124.多头注意力检测模块c51,用于对编码信息进行多头注意力检测处理,输出第一解码输出信息。
125.合并与归一化层c52,用于对第一解码输出信息进行合并与归一化处理,得到第二解码输出信息。
126.多头注意力检测c53,用于对第二解码输出信息进行多头注意力检测处理,输出第三解码输出信息。
127.合并与归一化层c54,用于对第三解码输出信息进行合并与归一化处理,得到第四解码输出信息。
128.mlp层c55,用于对第四解码输出信息进行神经节点的展开处理,得到第五编码输出信息。
129.合并与归一化层c56,用于对第五编码输出信息进行合并与归一化处理,得到待检测图片中目标的类别和位置信息。
130.需要的说明的是,图4中的多头注意力检测模块与图5中的多头注意力检测模块c51和c53的模型参数不同;图4中的合并与归一化层c41和c42与图5中的合并,与归一化层c52、c54以及c56的模型参数不同;图4中的mlp层与图5中的mlp层的模型参数不同。进一步地,在图5中,多头注意力检测模块c51和c53的参数(即视野范围)可能存在不同、结构相同;合并与归一化层c52、c54、c56的参数可能存在不同、结构相同。
131.在一些实施例中,电子设备可以重复多次(例如2次、6次、7次等)执行s203。例如,
当重复2次执行s203时,将编码信息输入图片检测模型中的transformer解码网络中,得到第一解码信息,将第一编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。
132.在图2实施例提供的目标检测方法中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息,在大尺度场景下对小目标的特征提取效果较好,可以使得第二特征信息的准确性较高,提高待检测图片中目标的类别和位置信息的准确性,进而提高对图片中的目标进行检测的精度。
133.在一种可能的设计中,将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的位置信息,包括:将编码信息输入图片检测模型中的transformer解码网络中,得到目标的边框的坐标信息;通过加权边界框融合(weighted boxes fusion,wbf)方法对边框的坐标信息进行处理,得到目标的位置信息。
134.目标的位置信息为标注目标的边框在待检测图片中的位置信息。
135.在实际应用中,transformer解码网络输出的目标的边框的坐标信息可能不准确,例如一个目标存在多个边框(即多个坐标信息),因此在本技术中,通过wbf方法对边框的坐标信息进行处理,可以消除多个边框的位置信息中准确率较低的边框的位置信息,从而得到准确率较高的边框的位置信息(即目标的位置信息),进而提高目标的位置信息的准确性。
136.与现有技术不同,在现有技术中,通常采用工业质检相机对小目标进行瑕疵检测,其检测精度高度依赖稳定的环境,无法实现对复杂的场景进行相关的检测,而且工业质检相机在大尺度场景的远距离条件下对小目标进行检测的精度较差。而在本技术中,通过swin网络进行特征提取,其检测精度高度无需依赖稳定的环境,可以对复杂的场景进行相关的检测,能够在大尺度场景的远距离条件下对小目标进行检测的精度。
137.与现有技术不同,在现有技术中,工业质检相机以及cnn卷积网络算法对高密集度的小目标检测进行检测时,解耦效果较差。而且在本技术中,第一swin transformer模块和第二swin transformer模块中包括ln层,因此可以对高度耦合的信息进行解耦处理,从而提高对高密集度的小目标检测时的解耦效果。
138.此外,传统的transformer网络在进行图像检测时,对多个目标的检测能力较差,并且对小目标的检测回归率较低。而在本技术中,通过transformer编码网络和transformer解码网络进行重叠信息的解耦,从而提高对多个目标的检测能力、以及对小目标的检测回归率。
139.本技术还提供一种图片检测模型的训练方法,下面结合图6对图片检测模型的训练方法进行说明。
140.图6为本技术实施例提供的图片检测模型的训练方法的流程图。如图6所示,该方法包括:
141.s601,将样本图片输入初始图片检测模型中的初始swin网络中,通过初始swin网络中的初始线性变换模块和与初始线性变换模块对应的第一初始swin transformer模块,提取待检测图片中的多个第一样本特征信息,并通过初始swin网络中的至少一个初始分块
合并模块以及与各初始分块合并模块对应的第二初始swin transformer模块,对多个第一样本特征信息进行合并与提取,得到第二样本特征信息。
142.s602,对第二样本特征信息和样本图片中目标的标注信息进行特征融合处理,得到融合特征。
143.目标的标注信息包括目标的标注类别和标注位置信息(即标注位置编码信息)。
144.具体的,对第二样本特征信息和样本图片中目标的标注信息进行特征融合处理,包括:对第二样本特征信息和目标的标注位置信息进行特征融合处理。
145.s603,根据融合特征,调整初始图片检测模型中的模型参数,得到图片检测模型。
146.在一种可能的设计中,根据融合特征,调整初始图片检测模型中的模型参数,得到图片检测模型,包括:
147.将融合特征输入初始图片检测模型中的初始transformer编码网络中,得到样本编码信息;
148.将样本编码信息输入初始图片检测模型中的初始transformer解码网络中,得到样本图片中目标的类别和位置信息;
149.根据标注信息、样本图片中目标的类别和位置信息,调整初始图片检测模型中的模型参数,得到图片检测模型。
150.初始图片检测模型中的模型参数包括:初始swin网络、初始transformer编码网络、初始transformer解码网络各自对应的模型参数。
151.具体的,调整初始图片检测模型中的模型参数,包括:
152.确定标注信息中的标注位置信息与样本图片中目标的位置信息的交并比(intersection-over-union,iou);
153.确定标注信息中的标注类别与样本图片中目标的类别的差异信息;
154.基于交并比和差异信息,调整初始图片检测模型中的模型参数。
155.图7为本技术实施例提供的初始图片检测模型的一种结构示意图。如图7所示,初始图片检测模型包括:初始swin网络、初始transformer编码网络、初始transformer解码网络。
156.初始swin网络的结构与图3中的swin网络的结构相同,初始transformer编码网络的结构与图3中的transformer编码网络的结构相同,初始transformer解码网络的结构与图3中的transformer解码网络的结构相同。
157.图7中还包括特征融合处理模,该特征融合处理模用于对第二样本特征信息和样本图片中目标的标注信息进行特征融合处理,得到融合特征。
158.图8为本技术实施例提供的目标检测装置的结构示意图。如图8所示,目标检测装置10包括:
159.第一特征提取模块101,用于将待检测图片输入图片检测模型中的swin网络中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息;
160.第一编码模块102,用于将第二特征信息输入图片检测模型中的transformer编码
网络中,得到编码信息;
161.第一解码模块103,用于将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。
162.本技术实施例提供的目标检测装置10可以执行上述目标检测方法,其实现原理以及有益效果类似,此处不再进行赘述。
163.在一种可能的设计中,第一解码模块103具体用于:
164.将编码信息输入图片检测模型中的transformer解码网络中,得到目标的边框的坐标信息;
165.通过加权边界框融合方法对边框的坐标信息进行处理,得到目标的位置信息。
166.在一种可能的设计中,swin网络中的分块合并模块的数量为多个,多个分块合并模块对应的分辨率参数不同。
167.在一种可能的设计中,第一特征提取模块101具体用于:
168.通过线性变换模块,将待检测图片转换为张量信息;
169.通过第一swin transformer模块提取张量信息中的多个第一特征信息。
170.本技术实施例提供的目标检测装置10可以执行上述目标检测方法,其实现原理以及有益效果类似,此处不再进行赘述。
171.图9为本技术实施例提供的图片检测模型的训练装置的结构示意图。如图9所示,图片检测模型的训练装置20包括:
172.第二特征提取模块201,用于将样本图片输入初始图片检测模型中的初始swin网络中,通过初始swin网络中的初始线性变换模块和与初始线性变换模块对应的第一初始swin transformer模块,提取待检测图片中的多个第一样本特征信息,并通过初始swin网络中的至少一个初始分块合并模块以及与各初始分块合并模块对应的第二初始swin transformer模块,对多个第一样本特征信息进行合并与提取,得到第二样本特征信息;
173.第一融合模块202,用于对第二样本特征信息和样本图片中目标的标注信息进行特征融合处理,得到融合特征;
174.第一参数更新模块203,用于根据融合特征,调整初始图片检测模型中的模型参数,得到图片检测模型。
175.本技术实施例提供的图片检测模型的训练装置20可以执行上述图片检测模型的训练方法,其实现原理以及有益效果类似,此处不再进行赘述。
176.在一种可能的设计中,第一参数更新模块203具体用于:
177.将融合特征输入初始图片检测模型中的初始transformer编码网络中,得到样本编码信息;
178.将样本编码信息输入初始图片检测模型中的初始transformer解码网络中,得到样本图片中目标的类别和位置信息;
179.根据标注信息、样本图片中目标的类别和位置信息,调整初始图片检测模型中的模型参数,得到图片检测模型。
180.本技术实施例提供的图片检测模型的训练装置20可以执行上述图片检测模型的训练方法,其实现原理以及有益效果类似,此处不再进行赘述。
181.图10为本技术实施例提供的电子设备的硬件示意图。如图10所示,电子设备30可
以包括:存储器302和处理器303。电子设备30还可以包括收发器301。其中,收发器301可以包括:发射器和/或接收器。发射器还可称为发送器、发射机、发送端口或发送接口等类似描述。接收器还可称为接收器、接收机、接收端口或接收接口等类似描述。
182.示例性地,收发器301、存储器302、处理器303各部分之间通过总线304相互连接。
183.存储器302用于存储计算机执行指令。
184.处理器303用于执行存储器302存储的计算机执行指令,使得处理器303执行本技术实施例提供的目标检测方法、以及图片检测模型的训练方法。
185.本技术实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当计算机执行指令被处理器执行时实现本技术实施例提供的目标检测方法、以及图片检测模型的训练方法。
186.本技术实施例还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时,可实现本技术实施例提供的目标检测方法、以及图片检测模型的训练方法。
187.实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一可读取存储器中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储器(存储介质)包括:rom(read-only memory,只读存储器)、ram(random access memory,随机存取存储器)、快闪存储器、硬盘、固态硬盘、磁带(magnetic tape)、软盘(floppy disk)、光盘(optical disc)及其任意组合。
188.本技术实施例是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理单元以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理单元执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
189.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
190.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
191.显然,本领域的技术人员可以对本技术实施例进行各种改动和变型而不脱离本技术的精神和范围。这样,倘若本技术实施例的这些修改和变型属于本技术权利要求及其等同技术的范围之内,则本技术也意图包含这些改动和变型在内。
192.在本技术中,术语“包括”及其变形可以指非限制性的包括;术语“或”及其变形可以指“和/或”。本本技术中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。本技术中,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单
独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
193.本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本技术的真正范围和精神由下面的权利要求书指出。
194.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求书来限制。
技术特征:
1.一种目标检测方法,其特征在于,包括:将待检测图片输入图片检测模型中的swin网络中,通过所述swin网络中的线性变换模块和与所述线性变换模块对应的第一swin transformer模块,提取所述待检测图片中的多个第一特征信息,并通过所述swin网络中的至少一个分块合并模块以及与各所述分块合并模块对应的第二swin transformer模块,对所述多个第一特征信息进行合并与提取,得到第二特征信息;将所述第二特征信息输入所述图片检测模型中的transformer编码网络中,得到编码信息;将所述编码信息输入所述图片检测模型中的transformer解码网络中,得到所述待检测图片中目标的类别和位置信息。2.根据权利要求1所述的方法,其特征在于,将所述编码信息输入所述图片检测模型中的transformer解码网络中,得到所述待检测图片中目标的位置信息,包括:将所述编码信息输入所述图片检测模型中的transformer解码网络中,得到所述目标的边框的坐标信息;通过加权边界框融合方法对所述边框的坐标信息进行处理,得到所述目标的位置信息。3.根据权利要求1或2所述的方法,其特征在于,所述swin网络中的分块合并模块的数量为多个,多个所述分块合并模块对应的分辨率参数不同。4.根据权利要求1或2所述的方法,其特征在于,所述通过所述swin网络中的线性变换模块和与所述线性变换模块对应的第一swin transformer模块,提取所述待检测图片中的多个第一特征信息,包括:通过所述线性变换模块,将所述待检测图片转换为张量信息;通过所述第一swin transformer模块提取所述张量信息中的多个第一特征信息。5.一种图片检测模型的训练方法,其特征在于,包括:将样本图片输入初始图片检测模型中的初始swin网络中,通过所述初始swin网络中的初始线性变换模块和与所述初始线性变换模块对应的第一初始swin transformer模块,提取所述待检测图片中的多个第一样本特征信息,并通过所述初始swin网络中的至少一个初始分块合并模块以及与各所述初始分块合并模块对应的第二初始swin transformer模块,对所述多个第一样本特征信息进行合并与提取,得到第二样本特征信息;对所述第二样本特征信息和所述样本图片中目标的标注信息进行特征融合处理,得到融合特征;根据所述融合特征,调整所述初始图片检测模型中的模型参数,得到图片检测模型。6.根据权利要求5所述的方法,其特征在于,所述根据所述融合特征,调整所述初始图片检测模型中的模型参数,得到图片检测模型,包括:将所述融合特征输入所述初始图片检测模型中的初始transformer编码网络中,得到样本编码信息;将所述样本编码信息输入所述初始图片检测模型中的初始transformer解码网络中,得到所述样本图片中目标的类别和位置信息;根据所述标注信息、所述样本图片中目标的类别和位置信息,调整所述初始图片检测
模型中的模型参数,得到图片检测模型。7.一种目标检测装置,其特征在于,包括:第一特征提取模块,用于将待检测图片输入图片检测模型中的swin网络中,通过所述swin网络中的线性变换模块和与所述线性变换模块对应的第一swin transformer模块,提取所述待检测图片中的多个第一特征信息,并通过所述swin网络中的至少一个分块合并模块以及与各所述分块合并模块对应的第二swin transformer模块,对所述多个第一特征信息进行合并与提取,得到第二特征信息;第一编码模块,用于将所述第二特征信息输入所述图片检测模型中的transformer编码网络中,得到编码信息;第一解码模块,用于将所述编码信息输入所述图片检测模型中的transformer解码网络中,得到所述待检测图片中目标的类别和位置信息。8.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至6任一项所述的方法。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至6任一项所述的方法。10.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至6任一项所述的方法。
技术总结
本申请实施例提供一种目标检测方法及图片检测模型的训练方法,包括:将待检测图片输入图片检测模型中的swin网络中,通过swin网络中的线性变换模块和与线性变换模块对应的第一swin transformer模块,提取待检测图片中的多个第一特征信息,并通过swin网络中的至少一个分块合并模块以及与各分块合并模块对应的第二swin transformer模块,对多个第一特征信息进行合并与提取,得到第二特征信息;将第二特征信息输入图片检测模型中的transformer编码网络中,得到编码信息;将编码信息输入图片检测模型中的transformer解码网络中,得到待检测图片中目标的类别和位置信息。本申请提供的目标检测方法及图片检测模型的训练方法能够提高对图片中的目标进行检测的精度。够提高对图片中的目标进行检测的精度。够提高对图片中的目标进行检测的精度。
技术研发人员:张玥 徐鹏 谈晟 盛国军
受保护的技术使用者:海尔数字科技(青岛)有限公司 青岛海尔工业智能研究院有限公司
技术研发日:2022.02.18
技术公布日:2022/5/25
转载请注明原文地址:https://tc.8miu.com/read-8350.html