本发明涉及图像处理,具体涉及一种基于多专家动态协作的长尾图像分类方法。
背景技术:
1、长尾视觉识别是计算机视觉和图像处理领域中一项具有挑战性的任务,它关注如何准确识别现实世界中数量分布极不均衡的各类视觉对象。在长尾数据集中,少数的常见类别占据了大部分样本,而大量的不常见类别则样本稀少。这种不平衡性给图像分类任务带来了巨大的挑战,因为模型往往会对常见类别过度拟合,而对不常见类别的识别能力不足。但是这些不常见的类别可能比头部类别的识别更重要,例如疾病分类和危险驾驶识别等。因此,解决长尾问题对促进视觉任务的处理具有重要作用。
2、为了解决长尾识别中的不平衡问题,现有的方法通常采用再平衡策略,如重采样和重加权等技术,以缓解数据不平衡的负面影响。这些方法通过调整训练过程中的类别权重或样本分布,试图提高模型对尾部类别的识别性能。此外,一些方法还采用了多专家协作的框架,通过构建多个专注于不同数据子集的专家模型来提高整体识别能力。
3、然而,现有方法在处理长尾问题时仍存在显著的局限性。传统的方法往往简单地基于类别频率对数据集进行划分,没有充分考虑类别之间的复杂关系和样本的内在特性。这导致一些重要的尾部类别可能被忽视,而头部类别的过度表示可能会进一步加剧模型的不平衡问题。此外,简单的划分方法无法适应数据分布的动态变化,限制了模型对新类别或稀有类别的泛化能力。
技术实现思路
1、本发明提出了一种基于多专家动态协作的长尾图像分类方法,解决了现有的长尾视觉识别中的类别不平衡的问题,提高了模型对所有类别的识别能力。
2、为实现上述目的,本发明提供了一种基于多专家动态协作的长尾图像分类方法,包括以下步骤:
3、步骤s1:构建包括多个专家子网络的分类模型,对长尾图像训练集中的图像类别进行频率分析,根据所述图像类别的频率分布将所述图像类别划分为头部、中部和尾部类别;
4、步骤s2:将所述长尾图像训练集作为第一专家子网络的输入,将所述中部和尾部类别对应的长尾图像作为第二专家子网络的输入,将所述尾部类别对应的长尾图像作为第三专家子网络的输入;
5、步骤s3:根据各专家子网络的输出计算所述分类模型的损失函数,根据所述损失函数对各专家子网络的参数进行迭代优化,直到达到设定的最大迭代次数;
6、步骤s4:将待分类的长尾图像输入训练好的分类模型,得到图像分类结果。
7、优选地,步骤s1中所述头部、中部和尾部类别的频率满足以下表达式:
8、;
9、式中,表示头部、中部和尾部类别中频率最低的图像类别的频率,其中分别表示头部、中部和尾部类别;表示长尾图像训练集中频率最高的图像类别的频率。
10、优选地,步骤s3中通过以下步骤构造所述损失函数:
11、步骤s31:计算多个所述专家子网络的损失值,使用动态自适应权重调整各损失值,得到分类模型的动态自适应学习损失;
12、步骤s32:对所有专家子网络的输出进行加权平均得到融合向量,计算所述融合向量和各专家子网络输出的预测向量之间的kl散度,得到分类模型的kl散度损失;
13、步骤s33:结合所述动态自适应学习损失与所述kl散度损失,得到分类模型的损失函数。
14、优选地,步骤s31中计算多个所述专家子网络的损失值的表达式为:
15、;
16、;
17、式中,为专家子网络的损失值;为第 i个图像类别;为图像类别的总数量;为专家子网络输出的第 i个概率值;为专家子网络输出的第 i个预测向量。
18、优选地,步骤s31中所述动态自适应学习损失的表达式为:
19、;
20、式中,为分类模型的动态自适应学习损失;为动态自适应权重;、、分别为第一、第二和第三专家子网络的损失值。
21、优选地,步骤s32中所述融合向量的表达式为:
22、;
23、;
24、;
25、;
26、上式中,为融合向量;、和分别为代表头部、中部和尾部类别的项;为第一专家子网络针对头部类别的输出向量,其中 i表示头部类别的索引序号;为第一专家子网络针对头部类别的权重向量;表示第二范数;、分别为第一专家子网络和第二专家子网络针对中部类别的输出向量,其中 j表示中部类别的索引序号;、分别为第一专家子网络和第二专家子网络针对中部类别的权重向量;为中部类别的权重矩阵;、、分别为第一专家子网络、第二专家子网络和第三专家子网络针对尾部类别的输出向量,其中 k表示尾部类别的索引序号;、、分别为第一专家子网络、第二专家子网络和第三专家子网络针对尾部类别的权重向量;为尾部类别的权重矩阵。
27、优选地,步骤s32中所述kl散度损失的表达式为:
28、;
29、;
30、;
31、;
32、;
33、式中,为分类函数的kl散度损失;为kl散度函数;为专家子网络的理想概率分布;为专家子网络的实际概率分布。
34、优选地,步骤s33中所述分类模型的损失函数的表达式为:
35、;
36、式中,为分类模型的动态自适应学习损失;为分类函数的kl散度损失;为kl散度损失的权重。
37、优选地,步骤s3中迭代优化时,动态自适应权重的更新方式为:
38、;
39、式中,为当前迭代次数;为设定的最大迭代次数。
40、优选地,步骤s1中所述分类模型在训练和推理阶段均通过加权平均算法融合不同专家子网络的预测结果。
41、本发明的有益之处至少包括:
42、1、通过让第一专家子网络同时学习头部、中部和尾部类别,确保了模型对所有类别的全面覆盖,从而提高了对常见和不常见类别的识别能力;通过让第二专家子网络同时学习中部和尾部类别,模型能够更加专注于区分那些在频率上相近但又难以区分的类别,增强了模型对这些类别的判别能力;通过让第三专家子网络专注于尾部类别,有助于提升模型对样本量较少类别的识别能力;
43、2、通过为每个专家子网络计算损失函数并进行迭代优化,可以平衡不同类别对模型性能的影响,提高模型整体的泛化能力,通过迭代优化直到达到最大迭代次数,模型可以不断调整和改进,逐步减少预测误差,提高分类准确性。
1.一种基于多专家动态协作的长尾图像分类方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s1中所述头部、中部和尾部类别的频率满足以下表达式:
3.根据权利要求1所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s3中通过以下步骤构造所述损失函数:
4.根据权利要求3所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s31中计算多个所述专家子网络的损失值的表达式为:
5.根据权利要求3所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s31中所述动态自适应学习损失的表达式为:
6.根据权利要求3所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s32中所述融合向量的表达式为:
7.根据权利要求6所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s32中所述kl散度损失的表达式为:
8.根据权利要求3所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s33中所述分类模型的损失函数的表达式为:
9.根据权利要求3所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s3中迭代优化时,动态自适应权重的更新方式为:
10.根据权利要求3所述的一种基于多专家动态协作的长尾图像分类方法,其特征在于:步骤s1中所述分类模型在训练和推理阶段均通过加权平均算法融合不同专家子网络的预测结果。
