基于两阶段训练的Logo图像的低样本检测方法及系统

专利查询2022-07-07 178

基于两阶段训练的logo图像的低样本检测方法及系统
技术领域
1.本公开涉及图像识别相关技术领域，具体的说，是涉及基于两阶段训练的logo图像的低样本检测方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本公开相关的背景技术信息，并不必然构成在先技术。
3.在电子商务得到普及以后，各大品牌开始使用图像或视频来展示他们的商品信息，也在展示商品信息的过程中，加入能展现企业形象或产品形象的logo标识。由于logo标识的特殊性及其对企业文化的重要性，logo盗版侵权问题也随之而来。以深度学习为基础的目标检测算法，往往需要大量标注数据，对模型进行端到端的有监督训练，经过大量的迭代次数后才能达到较好的效果。但是由于一些实际应用中的局限性和特殊性，往往很难获得大规模的图像数据样本集合，比如某些新兴品牌，其在生活中出现的频率低，可收集的样本少。
4.发明人发现，目前低样本目标检测算法有基于元学习的方法，基于元学习的方法首先对样本进行n类别k样本的采样，即随机选取n个类别，每个类别随机选取k个样本，每次迭代使用这n
×
k个样本对网络进行训练，使其具有学会学习的能力。比如meta r-cnn算法和repmet算法等。除了低样本检测本身面临的训练样本量少、模型精度下降严重等问题，logo数据集的特点也给低样本logo的检测带来了比较大的挑战，比如logo数据集的类别多且各类别之间的数据量分布不均衡，logo图像的尺度变化大等。目前的算法模型直接用于logo图像识别，存在准确度低和鲁棒性差的问题。

技术实现要素：

5.本公开为了解决上述问题，提出了基于两阶段训练的logo图像的低样本检测方法及系统，采用rfp模块来加强传统的fpn(特征金字塔网络)，进一步增强提取的特征，增加分类准确率。并利用改进的balanced group softmax模块，对类别按样本量进行分组，分别进行softmax操作，减少对样本量少的类别的抑制。
6.为了实现上述目的，本公开采用如下技术方案：
7.一个或多个实施例提供了基于两阶段训练的logo图像的低样本检测方法，包括如下步骤：
8.对获取的logo图像通过特征提取网络和特征增强网络，进行特征提取和增强；
9.将增强后的特征图输入至区域生成网络生成锚框，通过边界框回归对正样本候选框进行修正，在特征图上生成感兴趣区域；
10.针对感兴趣区域输入至边界框目标分类及回归模块，对感兴趣区域样本类别按样本量进行分组，每组分别进行softmax操作，实现边界框目标分类及回归，得到最终的目标检测框。
11.一个或多个实施例提供了基于两阶段训练的logo图像的低样本检测系统，包括：
12.特征提取增强模块：被配置为对获取的logo图像通过训练好的特征提取网络和特征增强网络，进行特征提取和增强；
13.感兴趣区域提取模块：被配置为将增强后的特征图输入至区域生成网络生成锚框，通过边界框回归对正样本候选框进行修正，在特征图上生成感兴趣区域；
14.检测模块：被配置为针对感兴趣区域输入至边界框目标分类及回归模块，对感兴趣区域样本类别按样本量进行分组，每组分别进行softmax操作，进行边界框目标分类及回归，得到最终的目标检测框。
15.一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求上述方法所述的步骤。
16.与现有技术相比，本公开的有益效果为：
17.本公开中，在进行边界框目标分类及回归的步骤，通过将识别对象类别按样本量进行分组，分别进行softmax操作，减少对样本量少的类别的抑制，采用分组策略，减少微调网络后对基类类测的影响，提升检测精度。
18.本公开的优点以及附加方面的优点将在下面的具体实施例中进行详细说明。
附图说明
19.构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的限定。
20.图1是本公开实施例1的logo数据集样本量分布情况统计图；
21.图2是本公开实施例1的检测模型框架图；
22.图3是本公开实施例1的rfp模块示意图；
23.图4是本公开实施例1的rfp模块展开到顺序网络示意图；
24.图5是本公开实施例1的rfp模块的融合模块示意图；
25.图6是本公开实施例1的低样本检测方法流程图；
26.图7是本公开实施例1的balanced group softmax结构图。
具体实施方式：
27.下面结合附图与实施例对本公开作进一步说明。
28.应该指出，以下详细说明都是示例性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
29.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。需要说明的是，在不冲突的情况下，本公开中的各个实施例及实施例中的特征可以相互组合。下面将结合附图对实施例进行详细描述。
30.技术术语解释
31.rfp模块：递归特征金字塔模块。
32.rpn：区域生成网络。
33.fpn：特征金字塔网络。
34.faster r-cnn：faster r-cnn包括骨干网络、rpn、head等部分，是一种cnn网络目标检测方法。
35.softmax操作：归一化指数操作。
36.balanced group softmax：平衡分组归一化。
37.本公开提出了一种基于两阶段训练的低样本logo检测方法，充分考虑低样本检测所面临的挑战，并结合logo数据集类别多且各类别之间的数据量分布不均衡，logo图像的尺度变化大等特点，对传统检测算法进行改进。本公开采用rfp模块来加强传统的fpn(特征金字塔网络)，进一步增强提取的特征，增加分类准确率。并利用改进的balanced group softmax模块，对类别按样本量进行分组，分别进行softmax操作，减少对样本量少的类别的抑制。
38.本公开的目的是提供一种适用于logo图像的低样本目标检测方法，以提高对某些样本量少的品牌logo的检测能力，下面以具体的实施例进行说明。
39.实施例1
40.在一个或多个实施方式公开的技术方案中，如图1-7所示，基于两阶段训练的logo图像的低样本检测方法，具体的，可以包括如下步骤：
41.步骤1、对获取的logo图像通过训练好的特征提取网络和特征增强网络，进行特征提取和增强；
42.步骤2、将增强后的特征图输入至区域生成网络(rpn)生成锚框，通过边界框回归对正样本候选框进行修正，在特征图上生成感兴趣区域；
43.步骤3、针对感兴趣区域输入至边界框目标分类及回归模块，对感兴趣区域样本类别按样本量进行分组，每组分别进行softmax操作，实现边界框目标分类及回归，得到最终的目标检测框。
44.进一步地，所述特征提取网络、特征增强网络、区域生成网络、边界框目标分类及回归模块构成检测模型，分两阶段进行训练，第一个阶段整体训练，第二阶段单独对边界框目标分类及回归模块。
45.本实施例中，在进行边界框目标分类及回归的步骤，通过将识别对象类别按样本量进行分组，分别进行softmax操作，减少对样本量少的类别的抑制，采用分组策略，减少微调网络后对基类类测的影响，提升检测精度。
46.步骤1中，进行特征提取和增强的方法，输入图像到改进后的以faster r-cnn作为基础的检测器，使用残差网络resnet-101作为骨干网络进行特征提取，然后利用rfp模块融合金字塔的网络对提取的特征进行增强和融合。
47.本实施例中，如图3所示，rfp模块为自下而上多个主干层的主干网，主干网包括多层的结构，采用rfp模块来加强传统的fpn(特征金字塔网络)的网络结构具体为：包括一个自下而上的主干网和一个自上而下的特征金字塔网络，特征金字塔网络反馈连接回主干网的各层。特征金字塔网络fpn生成的特征反馈到主干网各层，并与主干网各层的相应特征进行相加。
48.本实施例，通过采用rfp模块来加强传统的fpn(特征金字塔网络)，进一步增强提取的特征，增加分类准确率，减小低样本的分类错误。
49.步骤1中，特征提取和增强可以包括如下步骤：
50.步骤1.1：图像以batch为单位，输入到resnet-101骨干网络中，通过卷积、池化、残差学习等操作提取图像特征，并逐渐丰富特征图的语义信息；
51.步骤1.2：将步骤1.1中提取的图像特征输入递归特征金字塔网络中，将递归特征金字塔网络(fpn)的输出反馈至自下而上的rfp模块主干网的每个阶段中，实现对图像的两次或多次查看，以此来增强提取的特征，提高网络对多尺度目标的检测效果，降低分类损失。
52.步骤2中，感兴趣区域生成的方法，包括如下步骤:
53.步骤2.1：将增强后的特征输入区域生成网络中，以特征图上每一个空间位置对应在原图上的坐标为中心，按照预定义的锚框尺寸及长宽比生成不同尺度的锚框；
54.步骤2.2：基于锚框与标注框之间的交并比，通过softmax函数对生成的锚框进行正负样本的判定，选取判断为正样本的锚框，并对其执行初步的边界框回归；
55.步骤2.3：对判断为正样本的锚框进行置信度排序，然后将锚框映射到原图中，剔除超出边界的锚框，再使用非极大值抑制，得到精确的候选框输入到roi align层中，将候选框统一为相同的尺寸。
56.步骤3中，目标分类和回归的方法，包括如下步骤：
57.步骤3.1：将提取的感兴趣区域作为样本，按照样本量分布情况，划分为几个不相交的组；
58.具体的，通过balanced group softmax模块将按样本量划分为几个不相交的组
59.步骤3.2：将实例数量相似的目标对象类别放在同一组中，并分别计算每一组的softmax交叉熵损失；利用边界框回归，获得最终的目标检测框。
60.对特征提取网络、特征增强网络、区域生成网络、边界框目标分类及回归模块构成检测模型的训练过程：第一阶段通过设定占比的数据进行整体训练，第二阶段固定特征提取网络、特征增强网络和区域生成网络，从数据中选取部分数据对边界框目标分类及回归模块单独训练，进行参数的微调。
61.训练的方法，包括如下步骤：
62.步骤s1:构建数据集，并将数据集数据按设定比例划分为基类和新类：
63.为了满足低样本检测的两阶段训练策略，首先对已有的logo数据集再次进行分类，可将所有类别按照3:1的比例随机划分为基类和新类，其中，所有基类数据用于第一阶段的训练。在所有类别中随机选取k个样本用于第二阶段的微调训练。
64.具体的，利用前期构造的带有完整注释的logo数据集，根据整体数据集的样本分布情况，如图2所示，选取100类作为低样本logo检测的数据集，并按照4:1的比例划分训练集和测试集。在训练集中，按3:1的比例将类别划分为基类和新类，其中新类选取样本量少的25类。在第二阶段的训练中，仅利用少量带标注的样本对边界框预测部分进行微调。为了平衡第二阶段训练过程中基类和新类的样本数量，在基类和新类的每个类别中随机选取k(k＝1,2,3,5,10)张图片，在训练过程中，每个类别随机选取k个边界框进行训练。
65.步骤s2：图像特征提取与增强，针对数据集的数据将faster r-cnn作为基础的检
测器，并使用残差网络resnet-101作为骨干网络进行特征提取，然后利用rfp模块融合递归特征金字塔的网络对提取的特征按照先后顺序进行增强，然后将增强后的特征进行融合。
66.(1)resnet提取特征
67.在第一阶段的训练中，利用骨干网络resnet-101进行特征提取，它通过卷积、池化、残差学习等操作逐渐丰富特征图的语义信息，得到的特征图表示为xi，其中i＝1,2,3,4。
68.(2)rfp特征增强
69.对于第(1)步生成的特征图，将其输入rfp网络中，rfp网络如图3所示。则rfp网络的输出fi被定义为：
70.fi＝fi(f
i 1
,xi),xi＝bi(x
i-1
,ri(fi))
ꢀꢀꢀꢀ
(1)
71.其中，fi表示第i个自上而下的fpn操作，f5＝0,x0表示输入图像，ri表示特征转换，然后再将它们连接回自下而上的主干操作。公式(1)使rfp成为一个递归操作。将rfp展开到一个顺序网络中，如图4所示，fi可被定义为：
[0072][0073]
使用上标t来表示展开步骤t处的操作和特征，t＝1,2。在每次迭代完成后，使用融合机制与之前的特征按层次融合。融合模块如图5所示，将当前特征与之前的特征按照设定权重的进行加权操作，生成新的特征：
[0074][0075]
其中，σ为设定数值。
[0076]
步骤s3：感兴趣区域生成：将增强融合后的特征输入到区域生成网络(rpn)，提取感兴趣区域，具体的：
[0077]
步骤s31：通过区域生成网络(rpn)生成锚框；
[0078]
步骤s32：判断生成的锚框属于正样本还是负样本；
[0079]
步骤s33：通过边界框回归对正样本候选框进行修正，在特征图上生成感兴趣区域(region of interest，roi)；
[0080]
步骤s34：通过roi align方法使得不同的区域采样至相同的尺寸大小。
[0081]
步骤s4：目标分类及回归：
[0082]
可选的，对于分类，可以采用balanced group softmax模块将类别按样本量划分为几个不相交的组，并分别执行softmax操作，以此来产生更准确的类别置信度。回归阶段与faster r-cnn一致，以产生较准确的边界框。
[0083]
balanced group softmax模块的具体结构，如图7所示，包括分组模块和softmax操作模块，分组模块按照分类方案分组后每一组数据包括others类和改组的基础类型，改进后的模块的组1用于第二阶段训练，此组中的others类为基类数据。改进后可以减少第二阶段训练对基类数据的影响，减小基类精度下降问题。
[0084]
具体的，本实施例的分类方案，具体的如下：
[0085]
对于balanced group softmax分类器，将类划分为几个不相交的组，并分别执行softmax操作，这样在每个组中只有训练实例数量相似的类相互竞争。通过这种方式，包含显著不同实例数量的类可以在训练过程中彼此隔离。balanced group softmax分类器的分
类方式如下：
[0086][0087]
其中，n(j)表示训练集中第j类的ground-truth边界框的数量，和是决定组n的最小和最大实例数的超参数。可以设置以确保组之间没有重叠，每个类别能且只能分配到一个组。
[0088]
对于感兴趣区域，所有组将用于预测，因为它的类别是未知的。因此，每组至少有一个类别将得到较高的预测分数，并且很难决定应该采用哪些类别的预测，从而导致大量的假阳性。
[0089]
为了解决这个问题，可以在每一组中添加一个others类别，以校准组之间的预测并抑制假阳性。others类别包含不包括在当前组中的类别，它们可以是其他组中的背景类别或前景类别。即：others类别是除当前组之外的其他组的背景类别或前景类别。
[0090]
步骤s5：模型训练与优化：第一阶段利用大量的带有标注的基类图像对整个网络架构进行训练。在第二阶段的训练中，固定特征提取部分，利用少量带标注的样本对边界框预测部分进行微调。应用测试集对上述最优网络模型进行测试，测试结果为矩形框标出每个logo所在的位置以及判定是否为当前类别的得分。
[0091]
第一阶段，利用大量的基类数据对整个网络进行训练，产生权重参数。为了使参数维度符合所有样本类别数，在微调训练阶段开始前，首先对新类数据的权重进行随机初始化，然后再利用对每个类别抽样的k个数据进行微调训练。其中，微调阶段只对部分网络进行训练，本实施例中只对边界框分类和回归部分进行微调训练。
[0092]
检测模型的损失函数包括rpn阶段产生的损失，以及由分类和回归阶段产生的损失，具体公式如下：
[0093]
l＝l
rpn
l
cla
l
reg
ꢀꢀ
(4)
[0094]
其中，l
rpn
是由rpn阶段产生的损失，l
cla
和l
reg
分别表示分类损失和回归损失。产生的损失函数通过反向梯度传播更新参数，进行多次重复发迭代后，得到最优的模型。
[0095]
实施例2
[0096]
基于实施例1，本实施例提供基于两阶段训练的logo图像的低样本检测系统，包括：
[0097]
特征提取增强模块：被配置为对获取的logo图像通过训练好的特征提取网络和特征增强网络，进行特征提取和增强；
[0098]
感兴趣区域提取模块：被配置为将增强后的特征图输入至区域生成网络生成锚框，通过边界框回归对正样本候选框进行修正，在特征图上生成感兴趣区域；
[0099]
检测模块：被配置为针对感兴趣区域输入至边界框目标分类及回归模块，对感兴趣区域样本类别按样本量进行分组，每组分别进行softmax操作，进行边界框目标分类及回归，得到最终的目标检测框。
[0100]
实施例3
[0101]
本实施例提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1的方法所述的步
骤。
[0102]
以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。
[0103]
上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

转载请注明原文地址:https://tc.8miu.com/read-966.html

专利

最新回复(0)