本发明涉及多模态数据处理,具体为多模态数据的融合分类方法、系统、存储介质及设备。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、多模态融合(multimodalfusion)是指将来自不同模态(如视觉、听觉、文本等)的数据进行结合,以提升信息处理和理解能力的技术方法。可以应用在多种场景中,例如:
3、图像描述生成:根据图像内容生成自然语言描述。
4、文本到图像生成:根据文本描述生成对应的图像。
5、自动驾驶:融合摄像头、雷达、激光雷达等多种传感器数据,提高自动驾驶的安全性和可靠性。
6、人机交互:结合语音、手势和面部表情,实现自然的人机交互。
7、推荐系统:结合用户的浏览历史、评论、图像和视频等多种模态数据,提供个性化和精准的推荐服务。
8、然而,在实际应用中,多模态融合常面临模态缺失的问题,即数据集缺少特定模态的数据。
9、而传统的多模态融合方法在处理模态缺失问题时,通常采用简单的填充或忽略处理,无法有效重建缺失模态数据,尤其在小样本条件下,难以取得令人满意的性能。并且在进行模态特征提取和融合时,传统方法往往需要建立多个独立的模型,导致模型结构复杂,难以优化和改进。
10、在对模态结构知识的利用方面,传统的多模态融合方法主要依靠统计模型和语义模型。这些方法通过统计分析和语义表示来学习和融合模态特征。然而,传统方法通常依赖于人工特征提取,模型表达能力有限,难以充分挖掘和利用模态内部的数据结构关系和模态间的类间关系,导致模型泛化能力较差。这些缺陷限制了传统方法在实际应用中的泛化能力和鲁棒性。
技术实现思路
1、为了解决上述背景技术中存在的技术问题,本发明提供多模态数据的融合分类方法、系统、存储介质及设备,结合了模态结构知识蒸馏和特征解耦的关键技术,深入挖掘和利用模态间的类间关系以及模态内类中心和样本的近邻关系等具有泛化性的知识,辅助在小样本条件下的缺失模态样本重建。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明的第一个方面提供多模态数据的融合分类方法,包括以下步骤:
4、获取完整模态a和缺失模态b的数据并提取相应的浅层特征,基于得到的浅层特征提取共享特征和专有特征;
5、将完整模态a的类间关系蒸馏到缺失模态b中,利用缩放因子和偏置因子校正缺失模态b的分布参数,使缺失模态b的分布参数在校正后和完整模态a的类间关系保持一致,确定缺失模态b的类间关系;
6、根据得到的缺失模态b的类间关系,利用完整模态a的样本特征和样本与类别中心的关系,重建缺失模态b的样本;
7、以约束损失最小,将两个模态的共享特征视为同等重要,通过加权求和将两个模态的共享特征和专有特征进行融合,融合权重中的通道注意力权重和空间注意力权重分别在对应的通道维度和空间维度上进行加权求和,得到的融合特征利用分类器进行多模态融合分类。
8、进一步的,获取完整模态a和缺失模态b的数据并提取相应的浅层特征,基于得到的浅层特征提取共享特征和专有特征,具体为:利用transfo rmer-cnn双分支网络结构来提取完整模态a和缺失模态b的浅层特征ra和rb,进一步得到共享特征ha和hb,以及专有特征pa和pb。
9、进一步的,得到共享特征ha和hb期间具有共享注意力机制,具体为:
10、通过线性变换将浅层特征ra和rb映射到低维向量空间,得到嵌入向量ea和eb;
11、对嵌入向量进行线性变换,生成查询向量qa和qb、键向量ka和kb以及值向量va和vb;
12、分别计算查询向量与所有模态的键向量的点积,得到注意力分数,将所有注意力分数除以进行softmax运算,得到注意力权重;
13、利用注意力权重对每个模态的值向量va和vb进行加权求和,得到最终的多模态注意力输出ha和hb;
14、将ha和hb输入到transformer编码器的下一层的共享注意力模块中,重复以上步骤进行迭代更新。
15、进一步的,将完整模态a的类间关系蒸馏到缺失模态b中,利用缩放因子和偏置因子校正缺失模态b的分布参数,使缺失模态b的分布参数在校正后和完整模态a的类间关系保持一致,确定缺失模态b的类间关系;具体为:
16、利用完整模态a的所有类的中心构建图和均方差构建图表示完整模态a中不同类之间的关系;根据同样的方式,构建模态b的图和将完整模态a的类间关系蒸馏到缺失模态b的模型中,使缺失模态b的类间关系和完整模态a的类间关系保持一致;
17、通过图匹配方法计算图和图和的相似度,将相似度的倒数作为模态间的类结构损失,用来衡量两个模态类中心构建的图之间的差异,以及协方差构建的图之间的差异;
18、通过最小化类结构损失,确定缺失模态b的缩放因子γ和偏置因子δ,使缺失模态b的分布参数在校正后与模态a的类结构保持一致,确定缺失模态b的类间关系。
19、进一步的,根据得到的缺失模态b的类间关系,利用完整模态a的样本特征和样本与类别中心的关系,重建缺失模态b的样本;具体为:利用输出层节点数与类中心数量一致的全连接网络作为学习器,以完整模态a的样本特征为输入,输出是对应每个类中心的权重,通过最小化重建损失和双向知识蒸馏损失训练学习器,使其输出的权重用于重建缺失模态b的样本。
20、进一步的,利用重建损失保证在同一模态内,所有类中心的加权之和与当前样本保持一致;利用双向知识蒸馏损失保证模态间的同一样本的类间关系保持一致。
21、进一步的,融合权重中的通道注意力权重和空间注意力权重分别在对应的通道维度和空间维度上进行加权求和,得到融合特征,具体为:
22、通道注意力对每个模态的特征进行通道维度上的加权求和,通过注意力机制计算通道注意力权重;
23、空间注意力对每个模态的特征进行空间维度上的加权求和,通过注意力机制计算空间注意力权重。
24、本发明的第二个方面提供多模态数据的融合分类系统,包括。
25、特征提取模块,被配置为:获取完整模态a和缺失模态b的数据并提取相应的浅层特征,基于得到的浅层特征提取共享特征和专有特征;
26、知识蒸馏模块,被配置为:将完整模态a的类间关系蒸馏到缺失模态b中,利用缩放因子和偏置因子校正缺失模态b的分布参数,使缺失模态b的分布参数在校正后和完整模态a的类间关系保持一致,确定缺失模态b的类间关系;
27、样本重建模块,被配置为:根据得到的缺失模态b的类间关系,利用完整模态a的样本特征和样本与类别中心的关系,重建缺失模态b的样本;
28、特征融合模块,被配置为:以约束损失最小,将两个模态的共享特征视为同等重要,通过加权求和将两个模态的共享特征和专有特征进行融合,融合权重中的通道注意力权重和空间注意力权重分别在对应的通道维度和空间维度上进行加权求和,得到的融合特征利用分类器进行多模态融合分类。
29、本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述多模态数据的融合分类方法中的步骤。
30、本发明的第四个方面提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现上述多模态数据的融合分类方法中的步骤。
31、与现有技术相比,以上一个或多个技术方案存在以下有益效果:
32、结合了模态结构知识蒸馏和特征解耦的关键技术,深入挖掘和利用模态间的类间关系以及模态内类中心和样本的近邻关系等具有泛化性的知识,能够在小样本条件下对缺失模态样本进行重建,并在多模态特征融合过程中,突破传统注意力机制的局限,利用基于特征解耦的双重注意力机制,充分考虑了共享特征和专有特征的自身特性,通过引入特征解耦的先验信息,确保两个模态共享特征的融合权重一致,并采用正交损失约束专有特征,有效提升了小样本条件下的多模态融合分类性能。
1.多模态数据的融合分类方法,其特征在于,包括以下步骤:
2.如权利要求1所述的多模态数据的融合分类方法,其特征在于,获取完整模态a和缺失模态b的数据并提取相应的浅层特征,基于得到的浅层特征提取共享特征和专有特征,具体为:利用transfor mer-cnn双分支网络结构来提取完整模态a和缺失模态b的浅层特征ra和rb,进一步得到共享特征ha和hb,以及专有特征pa和pb。
3.如权利要求2所述的多模态数据的融合分类方法,其特征在于,得到共享特征ha和hb期间具有共享注意力机制,具体为:
4.如权利要求1所述的多模态数据的融合分类方法,其特征在于,将完整模态a的类间关系蒸馏到缺失模态b中,利用缩放因子和偏置因子校正缺失模态b的分布参数,使缺失模态b的分布参数在校正后和完整模态a的类间关系保持一致,确定缺失模态b的类间关系;具体为:
5.如权利要求1所述的多模态数据的融合分类方法,其特征在于,根据得到的缺失模态b的类间关系,利用完整模态a的样本特征和样本与类别中心的关系,重建缺失模态b的样本;具体为:利用输出层节点数与类中心数量一致的全连接网络作为学习器,以完整模态a的样本特征为输入,输出是对应每个类中心的权重,通过最小化重建损失和双向知识蒸馏损失训练学习器,使其输出的权重用于重建缺失模态b的样本。
6.如权利要求1所述的多模态数据的融合分类方法,其特征在于,利用重建损失保证在同一模态内,所有类中心的加权之和与当前样本保持一致;利用双向知识蒸馏损失保证模态间的同一样本的类间关系保持一致。
7.如权利要求1所述的多模态数据的融合分类方法,其特征在于,融合权重中的通道注意力权重和空间注意力权重分别在对应的通道维度和空间维度上进行加权求和,得到融合特征,具体为:
8.多模态数据的融合分类系统,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-7任一项所述的多模态数据的融合分类方法中的步骤。
10.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如权利要求1-7任一项所述的多模态数据的融合分类方法中的步骤。