查验物品检测方法、装置及电子设备与流程

    专利查询2022-08-30  66



    1.本发明涉及图像识别技术领域,尤其涉及一种查验物品检测方法、装置及电子设备。


    背景技术:

    2.随着经济的发展,国际航班逐年增加,海关部门对到港行李物品查验目前还是人为抽检方式。通常靠工作人员的经验来进行抽查,工作难度大,效率低,且不能对每一件到港行李进行查验。为了提高机场的服务水平与工作效率,创造一个安全、高效、方便的机场营运环境,特别是借助人工智能手段的智能海关、智慧口岸运营模式,成为一种新的发展趋势,但目前的智能检测方案仍存在诸多不足,检测任意角度摆放的多个物品时,存在大面积无效背景噪音,无法精准定位的问题。


    技术实现要素:

    3.本发明实施例提供一种查验物品检测方法、装置及电子设备,用以改善现有技术中口岸工作人员采用人工或传统智能检测方法对物品进行检测中存在的效率低下和准确性不足的问题。
    4.根据本发明实施例的一个方面,提供了一种查验物品检测方法,包括如下步骤:拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;根据所述各个查验物品的旋转坐标绘制并展示结果图像;根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;所述物品检测模型为具有botnet网络结构的神经网络模型,所述botnet网络结构由将resnet网络结构中最后一个阶段的3个瓶颈层中的3*3卷积替换为多头注意力机制形成。
    5.作为一种可选的示例,所述方法中,各个查验物品的旋转坐标包括五个值,分别为x、y、w、h及θ,其中x和y表示该查验物品对应的检测框的中心点的横纵坐标,w和h表示所述该查验物品对应的检测框的宽和高,θ表示该查验物品对应的检测框的长边顺时针转到水平方向的夹角。
    6.作为一种可选的示例,所述方法中,各个查验物品的旋转坐标包括八个值,分别为x1、y1、x2、y2、x3、y3、x4及y4,其中x1、x2、x3及 x4表示该查验物品对应的检测框四个角的横坐标,y1、y 2、y 3及 y 4表示该查验物品对应的检测框的四个角的纵坐标。
    7.作为一种可选的示例,所述方法中,所述物品检测模型的位置编码采用绝对位置编码与相对位置编码相结合方式进行编码,所述物品检测模型的位置编码的公式为:z
    i,t
    =(x
    i’w)p
    tt
    ,t∈{i(i,j)|i,j∈[0,n)};y
    ij
    =z
    i,i(i,j) ;
    其中,x
    i’=xi pi,xi为物品检测模型第i个位置的输入,pi为物品检测模型第i个位置的绝对位置编码,xi’ꢀ
    为经过绝对位置编码后第i个位置的输入,w表示权重参数矩阵,i(i,j)表示二维相对位置,yij表示2d相对位置编码,i、j和n为自然数。
    8.作为一种可选的示例,所述方法中,所述物品检测模型的训练过程包括:收集多种不同类型的物品,将多种不同类型的物品分散摆放于图像采集设备的视野区域内;图像采集设备采集所述不同类型物品在不同的拍摄条件下的图像,得到训练图像集;将训练图像集,按照预设的比例划分为第一训练集、第二训练集及第三训练集;对第一训练集进行人工标注,标注出第一训练集中的图像的物品类型标签及旋转坐标标签;用标注后的第一训练集,对所述物品检测模型进行训练,得到初始模型;将第二训练集输入到初始模型,通过初始模型对所述第二训练集中的图像进行自动标注,并对自动标注后的第二训练集中的图像的物品类型标签及旋转坐标标签进行人工核校;用标注后的第一训练集和第二训练集对所述初始模型进行训练,得到过渡模型;将第三训练集输入到过渡模型,通过过渡模型对所述第三训练集中的图像进行自动标注,并对自动标注后的第三训练集中的图像的物品类型标签及旋转坐标标签进行人工核校;将标注后的第一训练集、第二训练集及第三训练集重新组合得到标注后的训练图像集,将标注后的训练图像集按照预设的比例划分为第四训练集及第五训练集;用第四训练集对所述过渡模型进行训练,得到训练后的物品检测模型;将第五训练集输入训练后的物品检测模型,以对所述训练后的物品检测模型进行评估。
    9.作为一种可选的示例,所述方法中,所述不同的拍摄条件的包括不同的拍摄亮度、不同的拍摄角度及不同的拍摄距离。
    10.作为一种可选的示例,所述方法中,所述第一训练集中图像数量小于第二训练集中的图像数量,所述第二训练集中的图像数量小于第三训练集中的图像,所述第四训练集中的图像数量大于第五训练集中的图像数量。
    11.作为一种可选的示例,所述方法中,从结果图像中裁剪出各查验物品的图像同时还将裁剪出的各查验物品的图像进行旋转,使得该图像的检测框的一条边处于水平状态。
    12.根据本发明实施例的另一个方面,还提供了一种查验物品检测装置,包括:拍摄模块,用于拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;分析模块,用于利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;绘制模块,根据所述各个查验物品的旋转坐标绘制并展示结果图像;裁剪模块,根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;其中,所述物品检测模型为具有botnet网络结构的神经网络模型,所述botnet网
    络结构由将resnet网络结构中最后一个阶段的3个瓶颈层中的3*3卷积替换为多头注意力机制形成。
    13.根据本发明实施例的另一个方面,还提供了一种电子设备,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述方法的步骤。
    14.本发明的有益效果:本发明提供了一种查验物品检测方法,包括如下步骤:拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;根据所述各个查验物品的旋转坐标绘制并展示结果图像;根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;所述物品检测模型为具有botnet网络结构的神经网络模型,将botnet网络结构应用到查验物品检测任务中,能够在改善基线的同时减少参数,使延时最小化;将能够反应各查验物品的摆放角度的旋转坐标引入查验物品检测任务中,能够解决常规目标检测算法中存在大面积无效背景噪音和无法精准定位的问题;最终实现多物品按批次检测定位,通过一个工作人员管控一个查验设备,就可以实现查验物品检测的全流程操作,减少人力资源的耗费,提升检测的效率和实时性。
    附图说明
    15.图1为本发明的查验物品检测方法的流程示意图;图2为本发明的查验物品检测方法中使得的旋转坐标与传统的目标检测任务中使用的坐标的对比图;图3为本发明的查验物品检测方法中resnet bottleneck与bottleneck transformer的结构对比图;图4为本发明的查验物品检测方法中botnet网络结构为经典transformer网络结构的结构对比图;图5为本发明的查验物品检测方法中物品查验模型中多头注意力机制的结构示意图;图6为本发明的查验物品检测方法中结果图像及裁剪后的各检查物品图像的示意图;图7是本发明的查验物品检测装置的结构示意图;图8是本发明的电子设备的结构示意图。
    具体实施方式
    16.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
    17.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方
    法、装置、实现或者操作以避免模糊本公开的各方面。
    18.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
    19.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
    20.请参阅图1,图1示意了本发明的一个实施例提供的查验物品检测方法的流程图,所述查验物品检测方法包括如下步骤:步骤s1、拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;一般来说,所述步骤s1中的多个查验物品是摆放于查验台上的,每次摆放的查验物品的数量没有特殊限制,可以达到十几件乃至几十件,只要不超出拍摄的视野区域即可,查验物品可以用任意角度位置在查验台上分散摊开摆放,但不能将多个查验物品堆叠到一起。
    21.而对于拍摄动作,在本发明的一些实施例中,主要是通过图像采集设备来完成的,即通过图像采集设备对摆放了查验物品的查验台进行拍照,由此来得到第一图像,而所有摆放于所述查验台上的多个查验物品都会被第一图像记录下来,相应地,此时图像采集设备的镜头能够拍摄的范围即为步骤s1中所述的视野区域。
    22.进一步地,对于查验台来说,其需要保证落入视野区域内的部分应该具有纯色背景,如黑色或白色,以避免拍摄背景影响后续的查验物品检测。
    23.通常来说,所述图像采集设备可以是照相机、摄像机或者其他具有照相或摄像功能的电子设备,如平板电脑或智能手机等。
    24.步骤s2、利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度。
    25.具体地,对于旋转坐标的参数设置可以根据实际的检测需要进行选择,只要最终的旋转坐标能够正确的反应出各查验物品的摆放角度即可。
    26.举例来说,请参阅图2,在本发明的一些实施例中,各个查验物品的旋转坐标包括五个值,分别为x、y、w、h及θ,其中x和y表示该查验物品对应的检测框的中心点的横纵坐标,w和h表示所述该查验物品对应的检测框的宽和高,θ表示该查验物品对应的检测框的长边顺时针转到水平方向的夹角。
    27.而在本发明的另一些实施例中,各个查验物品的旋转坐标还可以包括八个值,分别为x1、y1、x2、y2、x3、y3、x4及y4,其中x1、x2、x3及 x4表示该查验物品对应的检测框四个角的横坐标,y1、y 2、y 3及 y 4表示该查验物品对应的检测框的四个角的纵坐标。
    28.作为对比,请参阅图2,传统的目标检测任务采用的检测框通常包括四个值,即检测框的中心点横纵坐标x,y和检测框的宽w和高h,在检测到目标时,若目标存在旋转/倾斜,只能通过增加检测框的宽和高来提取目标,导致检测框与目标的尺寸相差较大,最终得到的结果图像包含了大量无效的背景噪音,无法精准的定位目标。
    29.无论是,传统的目标检测任务采用的检测框还是本发明中采用的包含旋转坐标的检测框,均采用的是矩形检测框。
    30.而本发明中无论是上述的包括五个值或八个值的旋转坐标,均能够正确的反应出各查验物品的摆放角度,相应地,与这些旋转坐标对应的检测框也能够顺着查验物品的摆放角度准确的包围住查验物品,有效减少了检测框与查验物品之间的尺寸差,减少检测结果中的背景噪音,实现目标的精准定位。
    31.需要说明的是,在本发明的查验物品检测方法中,由于查验物品检测任务,需要高质量的全局信息,一般来说,输入物品检测模型的第一图像的尺度都是较大的,如对于2000万像素的图像采集设备而言,第一图像的尺度可达3000*5000,此时,若在检测任务中单纯使用自注意力机制(self-attention),则计算开销大,为此,本技术采用混合结构方式(卷积 transformer)解决这一技术难题,其中采用卷积提取能有效局部特征,降低分辨率,而采用自注意力机制能有效聚合全局信息。
    32.详细来说,本发明的物品检测模型的结构通过如下方式得到:在yolov5网络结构的基础上将其骨干网络(resnet50)更改为基于transformer的botnet网络结构,也即所述物品检测模型为具有botnet网络结构的神经网络模型。
    33.而botnet网络结构是将resnet bottleneck更改为bottleneck transformer(bot)得到的,即将resnet网络结构最后一个阶段(stage(c5 block))中的3个瓶颈层(bottleneck blocks)的 3*3卷积(convolution)替换为多头注意力机制(muti-head self-attention,mhsa),其他不进行改变。resnet bottleneck与bottleneck transformer的区别如图3所示,而所述botnet网络结构中的多头注意力机制的实现方式如图5所示。
    34.进一步地,如图4所示,botnet网络结构为经典transformer网络结构的变体,其经典transformer网络结构与存在如下差异,首先,对于归一化处理,transformer使用层归一化(layer normalization),而botnet采用resnet中常见的批归一化(batch normalization);对于非线性处理,transformer是在前馈神经网络(feed forward neural network,ffn)中采用1次非线性激活函数,而botnet中采用了3次非线性激活;对于输出预测,transformer的mhsa层中self-attention操作结束输出一个线性投影层,而botnet中self-attention结束后没有;对于优化器:transformer采用adam优化器,而botnet和resnet一样,采用随机梯度下降方法(stochastic gradient descent,sgd)优化器。
    35.需要说明的是,在本发明的一些实施例中,所述物品检测模型的训练过程包括:物品收集:收集多种不同类型的物品,将多种不同类型的物品分散摆放于图像采集设备的视野区域内;数据采集:图像采集设备采集所述不同类型物品在不同的拍摄条件下的图像,得到训练图像集;模型训练:用所述训练图像集对所述物品检测模型进行训练,得到训练后的物品检测模型。
    36.其中,收集多种不同类型的物品可以包括化妆品、烟酒、包、香水以及手表等各种查验场景下可能会出现的物品及其包装盒、瓶及袋。
    37.而所述的不同拍摄条件可以包括不同的拍摄亮度、不同的拍摄角度以及不同的拍摄距离等各种实际拍摄时可能会出现的影响检测结果的拍摄条件。
    38.通过对丰富的物品类型以及多样化的拍摄条件,尽可能采集符合实际查验场景的训练图像集,以保证最终的模型训练效果。
    39.具体地,所述模型训练:用所述训练图像集对所述物品检测模型进行训练,得到训练后的物品检测模型具体包括:数据划分:将训练图像集,按照预设的比例划分为第一训练集d0、第二训练集d1及第三训练集d2,例如:按照d0:d1:d2=1:2:7将训练图像集划分为第一训练集d0、第二训练集d1及第三训练集d2。
    40.人工标注:对第一训练集d0进行人工标注,标注出第一训练集d0中的图像的物品类型标签及旋转坐标标签。
    41.其中,所述物品类型标签是指手表、香水、香烟等等具体的物品类型,而旋转坐标标签可以已在上述的旋转坐标中进行了说明,此处不再赘述。
    42.第一次模型训练:用标注后的第一训练集d0,对所述物品检测模型进行训练,得到初始模型。
    43.其中,对于该初始模型,由于第一训练集d0样本较少,仅具备基本的检测能力,但检测结果的准确性上还有待提升。
    44.第一次半自动标注:将第二训练集d1输入到初始模型,通过初始模型对所述第二训练集d1中的图像进行自动标注,并对自动标注后的第二训练集d1中的图像的物品类型标签及旋转坐标标签进行人工核校。
    45.其中,在第一次半自动标注中由于初始模型的准确性不高,因此需要进行人工核校保证标签的准确性。
    46.第二次模型训练:用标注后的第一训练集d0和第二训练集d1对所述初始模型进行训练,得到过渡模型。
    47.其中,所述过渡模型相比于初始模型,训练量有所增加,因此检测结果的准确性上有所提升,但仍有不足。
    48.第二次半自动标注:将第三训练集d2输入到过渡模型,通过过渡模型对所述第三训练集d2中的图像进行自动标注,并对自动标注后的第三训练集d2中的图像的物品类型标签及旋转坐标标签进行人工核校。
    49.同样地,在第二次半自动标注中由于过渡模型的准确性仍有不足,因此仍需要进行人工核校保证标签的准确性。
    50.标注后的数据重划分:将标注后的第一训练集d0、第二训练集d1及第三训练集d2重新组合得到标注后的训练图像集,将标注后的训练图像集按照预设的比例划分为第四训练集d3及第五训练集d4;如,按照d3:d4 =8:2的比例将标注后的训练图像集划分为第四训练集d3及第五训练集d4。
    51.第三次模型训练,用第四训练集d3对所述过渡模型进行训练,得到训练后的物品检测模型。
    52.模型评估:将第五训练集d4输入训练后的物品检测模型,以对所述训练后的物品检测模型进行评估。
    53.其中,所述评估的指标主要是物品检测模型检测的结果与标签的一致性,也即评估物品检测模型的检测结果的准确率是否满足设计要求。
    54.进一步地,为了让注意力(attention)操作能感知位置,基于transformer的体系结构通常需要加入位置编码,在目标检测任务中,相对位置编码虽然可以提高模型精度,但
    是不能提供物体定位所需的绝对位置信息,故绝对位置编码是必须的,但仅加入绝对位置编码模型精度又显得不足,为此,本技术采用绝对位置编码与相对位置编码相结合的位置编码技术(arpe——absolute and relative position encoding),从而保证定位准确的同时提高模型精度。
    55.具体来说,本发明的物品检测模型中采用新的位置编码技术,即绝对位置编码与相对位置编码相结合的编码技术(absolute and relative position encoding method,所述apre编码技术的具体说明如下:首先,进行绝对位置编码,公式如下:x
    i’=xi pi,其中,xi为物品检测模型第i个位置的输入,pi为物品检测模型第i个位置的绝对位置编码,xi’ꢀ
    为经过绝对位置编码后第i个位置的输入接着,进行相对位置编码,本发明的一实施例中所述相对位置编码采用基于上下文模式的相对位置编码,上下文模式考虑了与输入token(query、key或value)之间的交互,其相对位置编码公式为:b
    ij
    =(xiwq)r
    ijt
    ,其中bij为2d相对位置编码,wq为权重参数矩阵,r
    ij
    是一个与query嵌入交互2d相对位置权重,为可学习的标量。
    56.而对于本发明中的查验物品场景,输入的图像属于高分辨率图像,需要依赖潜在的远程特征,因此引入一个分段函数g(x)来构造映射方法:r

    {y∈z|

    β≤y≤β},用于索引到相应编码的相对距离;进一步地,该函数基于一个假设,即较近的邻居比较远的邻居更重要,并通过相对距离来分配注意力,分段函数法g(x)相较于clip函数法,感知距离更长,并且对不同的距离分布施加了不同程度的注意力。
    57.该分段函数可表示为:其中,[
    ·
    ]是舍入运算,sign()为确定数字的符号,即正输入返回1,负输入返回-1,反之返回0。α确定分段点,β控制输出在[

    β,β]范围内,γ调整对数部分的曲率,x为输入,g(x)为输出。
    [0058]
    此外,为了衡量二维图像中两个点的相对距离,提高计算效率和包含更多的方向性信息,本技术采用乘积法(product method)的2d相对位置计算方法,其公式如下:其中,其中,i(i,j)表示二维相对位置,其中上标表示x轴或y轴,它们的组合是 p 的二维索引。
    [0059]
    最终,所述物品检测模型的位置编码的公式为:z
    i,t
    =(x
    i’w)p
    tt
    ,t∈{i(i,j)|i,j∈[0,n)};y
    ij
    =z
    i,i(i,j) ;其中,x
    i’=xi pi,xi为物品检测模型第i个位置的输入,pi为物品检测模型第i个位
    置的绝对位置编码,w表示权重参数矩阵,i(i,j)表示二维相对位置,yij表示2d相对位置编码,i、j和n为自然数。
    [0060]
    步骤s3、根据所述各个查验物品的旋转坐标绘制并展示结果图像。
    [0061]
    如图6所示,根据本发明的得到结果图像中检测框也能够顺着查验物品的摆放角度准确的包围住查验物品,有效减少了检测框与查验物品之间的尺寸差,减少检测结果中的背景噪音,实现目标的精准定位。
    [0062]
    步骤s4、根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;具体地,所述步骤s4中裁剪出各个查验物品的图像的同时还会将裁剪出的各查验物品的图像的进行旋转,使得检测框的一条边处于水平状态,以摆正所述查验物品。
    [0063]
    如图6所示,根据结果图像中的检测框,可以在原图中绘制出整个视野的物品位置并保存,便于后续回溯,同时裁剪获取各物品校正后图片,为物品查验的后续流程操作,提供了极大便利。
    [0064]
    进一步地,如图7所示,本发明的一实施例还提供一种查验物品检测装置,包括:拍摄模块10,用于拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;分析模块20,用于利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;绘制模块30,根据所述各个查验物品的旋转坐标绘制并展示结果图像;裁剪模块40,根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像。
    [0065]
    其中,所述物品检测模型为具有botnet网络结构的神经网络模型,所述botnet网络结构由将resnet网络结构中最后一个阶段的3个瓶颈层中的3*3卷积替换为多头注意力机制形成。
    [0066]
    如图8所示,本发明还提供一实施例还提供一种电子设备包括:存储器100和处理器200,所述存储器200存储有计算机程序,所述计算机程序被所述处理器100执行时,使得所述处理器100执行上述方法的步骤。
    [0067]
    综上所述,本发明提供了一种查验物品检测方法,包括如下步骤:拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;根据所述各个查验物品的旋转坐标绘制并展示结果图像;根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;所述物品检测模型为具有botnet网络结构的神经网络模型,将botnet网络结构应用到查验物品检测任务中,能够改善基线的同时减少参数,使延时最小化;将能够反应各查验物品的摆放角度的旋转坐标引入查验物品检测任务中,能够解决常规目标检测算法中存在大面积无效背景噪音和无法精准定位的问题;最终实现多物品按批次检测定位,通过一个工作人员管控一个查验设备,就可以实现查验物品检测的全流程操作,减少人力资源的耗费,提升检测的效率和实时性。

    技术特征:
    1.一种查验物品检测方法,其特征在于,包括如下步骤:拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;根据所述各个查验物品的旋转坐标绘制并展示结果图像;根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;所述物品检测模型为具有botnet网络结构的神经网络模型,所述botnet网络结构由将resnet网络结构中最后一个阶段的3个瓶颈层中的3*3卷积替换为多头注意力机制形成。2.如权利要求1所述的查验物品检测方法,其特征在于,所述各个查验物品的旋转坐标包括五个值,分别为x、y、w、h及θ,其中x和y表示该查验物品对应的检测框的中心点的横纵坐标,w和h表示所述该查验物品对应的检测框的宽和高,θ表示该查验物品对应的检测框的长边顺时针转到水平方向的夹角。3.如权利要求1所述的查验物品检测方法,其特征在于,所述各个查验物品的旋转坐标包括八个值,分别为x1、y1、x2、y2、x3、y3、x4及y4,其中x1、x2、x3及 x4表示该查验物品对应的检测框四个角的横坐标,y1、y 2、y 3及 y 4表示该查验物品对应的检测框的四个角的纵坐标。4.如权利要求1所述的查验物品检测方法,其特征在于,所述物品检测模型的位置编码采用绝对位置编码与相对位置编码相结合方式进行编码,所述物品检测模型的位置编码的公式为:z
    i,t
    =(x
    i’w)p
    tt
    ,t∈{i(i,j)|i,j∈[0,n)};y
    ij
    =z
    i,i(i,j) ;其中,x
    i’=x
    i
    p
    i
    ,x
    i
    为物品检测模型第i个位置的输入,p
    i
    为物品检测模型第i个位置的绝对位置编码,x
    i
    ’ꢀ
    为经过绝对位置编码后第i个位置的输入,w表示权重参数矩阵,i(i,j)表示二维相对位置,yij表示2d相对位置编码,i、j和n为自然数。5.如权利要求1所述的查验物品检测方法,其特征在于,所述物品检测模型的训练过程包括:收集多种不同类型的物品,将多种不同类型的物品分散摆放于图像采集设备的视野区域内;图像采集设备采集所述不同类型物品在不同的拍摄条件下的图像,得到训练图像集;将训练图像集,按照预设的比例划分为第一训练集、第二训练集及第三训练集;对第一训练集进行人工标注,标注出第一训练集中的图像的物品类型标签及旋转坐标标签;用标注后的第一训练集,对所述物品检测模型进行训练,得到初始模型;将第二训练集输入到初始模型,通过初始模型对所述第二训练集中的图像进行自动标注,并对自动标注后的第二训练集中的图像的物品类型标签及旋转坐标标签进行人工核校;用标注后的第一训练集和第二训练集对所述初始模型进行训练,得到过渡模型;将第三训练集输入到过渡模型,通过过渡模型对所述第三训练集中的图像进行自动标注,并对自动标注后的第三训练集中的图像的物品类型标签及旋转坐标标签进行人工核
    校;将标注后的第一训练集、第二训练集及第三训练集重新组合得到标注后的训练图像集,将标注后的训练图像集按照预设的比例划分为第四训练集及第五训练集;用第四训练集对所述过渡模型进行训练,得到训练后的物品检测模型;将第五训练集输入训练后的物品检测模型,对所述训练后的物品检测模型进行评估。6.如权利要求5所述的查验物品检测方法,其特征在于,所述不同的拍摄条件的包括不同的拍摄亮度、不同的拍摄角度及不同的拍摄距离。7.如权利要求5所述的查验物品检测方法,其特征在于,所述第一训练集中图像数量小于第二训练集中的图像数量,所述第二训练集中的图像数量小于第三训练集中的图像,所述第四训练集中的图像数量大于第五训练集中的图像数量。8.如权利要求1所述的查验物品检测方法,其特征在于,从结果图像中裁剪出各查验物品的图像同时还将裁剪出的各查验物品的图像进行旋转,使得该图像的检测框的一条边处于水平状态。9.一种查验物品检测装置,其特征在于,包括:拍摄模块,用于拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;分析模块,用于利用训练好的物品检测模型对所述第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,所述旋转坐标能反应各查验物品的摆放角度;绘制模块,根据所述各个查验物品的旋转坐标绘制并展示结果图像;裁剪模块,根据各个查验物品的旋转坐标从结果图像中裁剪出各查验物品的图像;其中,所述物品检测模型为具有botnet网络结构的神经网络模型,所述botnet网络结构由将resnet网络结构中最后一个阶段的3个瓶颈层中的3*3卷积替换为多头注意力机制形成。10.一种电子设备,其特征在于,包括:存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1-8中任一项所述方法的步骤。

    技术总结
    本发明提供一种查验物品检测方法、装置及电子设备。所述方法包括:拍摄视野区域内的分散摆放的多个查验物品,得到第一图像;利用训练好的物品检测模型对第一图像进行分析,得到第一图像中各个查验物品的旋转坐标,旋转坐标能反应各查验物品的摆放角度;根据各个查验物品的旋转坐标绘制并展示结果图像;从结果图像中裁剪出各查验物品的图像;物品检测模型为具有BotNet网络结构的神经网络模型,将BotNet网络结构应用到查验物品检测任务中,能够在改善基线的同时减少参数,使延时最小化;将旋转坐标引入查验物品检测任务中,能够解决常规目标检测算法中存在大面积无效背景噪音和无法精准定位的问题。准定位的问题。准定位的问题。


    技术研发人员:卢月红 张建安 闾凡兵
    受保护的技术使用者:长沙海信智能系统研究院有限公司
    技术研发日:2022.03.30
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-11873.html

    最新回复(0)