基于图结构学习的缺失多视图子空间聚类方法及系统

    专利查询2022-07-07  241



    1.本发明属于子空间聚类技术领域,尤其涉及一种基于图结构学习的缺失多视图子空间聚类方法及系统。


    背景技术:

    2.现实世界中的事物总是可以从不同的方面来探索,就像来自不同渠道或以多种模式发现的各种数据一样,例如,在精准的医学中,一个人的分子特征可以由多个组学数据集描述,如基因组学、蛋白质组学和转录组学数据等。每种组学数据可以在不同的层次上描述病人,因此可以被认为是同一个人的不同分子观点,这种数据称为多视图数据,其中一类特征集被视为视图。由于多视图数据包含事物的一致性和多样性信息,可以帮助我们更全面地理解事物,因此,利用多视图数据的特性来提高集群任务的性能是非常重要的。
    3.多视图聚类旨在利用多视图的特征将数据样本划分到不同的组中,使每个组中的样本具有比其他组更高的相似性,现有的缺失多视图聚类方法虽然在这方面取得了很大的进展,但仍然存在一些局限性。
    4.发明人发现,现多视图聚类工作大多是以缺失视图中至少有配对样本的条件为前提,因此,那些处理传统多视图聚类的工作在面对没有配对样本和缺少视图的情况下是失败的;由于缺失视图中样本的缺失将导致传统多视图聚类方法的失败,从而影响聚类性能。


    技术实现要素:

    5.本发明为了解决上述问题,提出了一种基于图结构学习的缺失多视图子空间聚类方法及系统,本发明将潜在表示学习、谱嵌入和图聚类整合到一个统一的学习框架中,联合低秩表示和多视图子空间聚类学习得到最优图结构的聚类结果。
    6.为了实现上述目的,本发明是通过如下的技术方案来实现:
    7.第一方面,本发明提供了一种基于图结构学习的缺失多视图子空间聚类方法,包括:
    8.获取训练缺失多视图的特征数据集;
    9.依据特征数据集,基于多视图谱聚类和低秩表示学习得到每个视图数据的潜在表示和伪标签矩阵,通过多视图子空间聚类学习得到统一的相似性矩阵,构造基于图结构学习的缺失多视图子空间聚类目标函数;
    10.求解基于图结构学习的缺失多视图子空间聚类目标函数,得到相似性矩阵;
    11.获得聚类缺失多视图的特征数据集,在所述相似性矩阵的基础上施加秩约束,得到块对角矩阵,得到聚类结果。
    12.进一步的,所述特征数据集包括每个视图的样本数据集和伪标签矩阵。
    13.进一步的,潜在表示和伪标签矩阵的目标函数为:
    [0014][0015]
    其中,λ表示第v个视图的误差矩阵的平衡参数,β表示平衡参数,f
    (v)
    ∈rn×c表示第v个视图的伪标签矩阵,n表示数据样本数,c表示聚类数,v表示视图序号,v=1,

    ,v,v表示视图总数,是第v个视图的拉普拉斯矩阵,g
    (v)
    表示未缺失样本的伪标签矩阵,表示每个视图的潜在表示,表示构造的潜在表示的误差矩阵,表示第v个试图的不缺失样本,(f
    (v)
    )
    tf(v)
    =ic表示f
    (v)
    为正交矩阵,表示对角线元素为0。
    [0016]
    进一步的,相似性矩阵的目标函数为:
    [0017][0018]
    其中,w表示统一的图结构,f
    (v)
    ∈rn×c表示第v个视图的伪标签矩阵,γ表示权重参数,rank(lw)=n-c表示对相似性矩阵w的秩约束。
    [0019]
    进一步的,基于图结构学习的缺失多视图子空间聚类的目标函数为:
    [0020][0021]
    进一步的,采用增广拉格朗日乘子和迭代优化方法求解基于图结构学习的缺失多视图子空间聚类目标函数。
    [0022]
    进一步的,得到相似性矩阵的过程为:
    [0023]
    对于目标函数,引入两个辅助目标变量;
    [0024]
    对目标函数中的潜在表示、辅助变量、误差矩阵、伪标签矩阵、相似性矩阵和拉格朗日乘子,固定任意多个变量后剩余一个变量,求解剩余变量。
    [0025]
    第二方面,本发明还提供了一种基于图结构学习的缺失多视图子空间聚类系统,包括:
    [0026]
    数据采集模块,被配置为:获取训练缺失多视图的特征数据集;
    [0027]
    目标函数构建模块,被配置为:依据所述特征数据集,基于多视图谱聚类和低秩表示学习得到每个视图数据的潜在表示和伪标签矩阵,通过多视图子空间聚类学习得到统一的相似性矩阵,构造基于图结构学习的缺失多视图子空间聚类目标函数;
    [0028]
    求解模块,被配置为:求解基于图结构学习的缺失多视图子空间聚类目标函数,得到相似性矩阵;
    [0029]
    聚类模块,被配置为:获得聚类缺失多视图的特征数据集,在所述相似性矩阵的基础上施加秩约束,得到块对角矩阵,得到聚类结果。
    [0030]
    第三方面,本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了第一方面所述的基于图结构学习的缺失多视图子空间聚类方
    法的步骤。
    [0031]
    第四方面,本发明还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了第一方面所述的基于图结构学习的缺失多视图子空间聚类方法的步骤。
    [0032]
    与现有技术相比,本发明的有益效果为:
    [0033]
    本发明将潜在表示学习、谱嵌入和图聚类整合到一个统一的学习框架中,联合低秩表示和多视图子空间聚类学习得到高质量的伪标签进而指导最终相似性矩阵学习的过程;采用低秩表示既能充分考虑数据的内在结构,又能降低数据噪声,利用谱聚类捕获每个视图的局部结构信息,利用基于最优图的学习方法,从各个视角探索一致图结构,加强不同视角之间的联系,并在秩的约束下得到理想的块对角相似性矩阵,即聚类结果,解决了在面对没有配对样本和缺少视图的情况下进行多视图聚类工作的问题。
    附图说明
    [0034]
    构成本实施例的一部分的说明书附图用来提供对本实施例的进一步理解,本实施例的示意性实施例及其说明用于解释本实施例,并不构成对本实施例的不当限定。
    [0035]
    图1为本发明实施例1的流程图;
    [0036]
    图2为本发明实施例1的基于最优图结构学习的缺失多视图子空间聚类方法流程图。
    具体实施方式:
    [0037]
    下面结合附图与实施例对本发明作进一步说明。
    [0038]
    应该指出,以下详细说明都是示例性的,旨在对本技术提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本技术所属技术领域的普通技术人员通常理解的相同含义。
    [0039]
    实施例1:
    [0040]
    如图1所示,本实施例提供了一种基于图结构学习的缺失多视图子空间聚类方法,具体包括以下步骤:
    [0041]
    s1,获取实验中常用的多视图数据集,并对获得的数据集进行成对样本的缺失和随机缺失,得到缺失数据集和伪标签矩阵;
    [0042]
    s2,对于多视图数据集和伪标签矩阵,基于多视图谱聚类和低秩表示学习得到每个视图数据的潜在表示和伪标签矩阵,通过多视图子空间聚类学习统一的相似性矩阵,构造基于最优图结构学习的缺失多视图子空间聚类目标函数;
    [0043]
    s2.1,低秩表示学习
    [0044]
    低秩表示是一种从数据样本中联合保持最低阶表示的方法,已经证明,低阶表示能够最大程度地恢复包含噪声、波纹等数据的原始空间,对于从误差数据中有效地寻找子空间结构具有重要意义;通过这种方式,低阶表示还可以增强学习潜在表征的鲁棒性,本实施例中,低阶表示学习的目标函数为:
    [0045][0046]
    其中,表示第v个试图的不缺失样本,n是数据样本数,m是特征维数,v代表视图序号,v=1,

    ,v,v表示视图总数。表示学习的第v个视图的潜在表示。表示构造的第v个潜在表示的误差矩阵。λ表示第v个视图的误差矩阵的平衡参数。表示矩阵的所有对角元素为0。
    [0047]
    s2.2,谱嵌入学习
    [0048]
    首先,潜在表示具有不同的大小,不能弥补缺失样本和未缺失样本之间的差距;其次,尽管可以直接用作每个视图的亲和度矩阵,但中元素值的大小在不同视图之间可能会有很大差异;因此,在本实施例中学习谱嵌入,谱嵌入的目标函数如下:
    [0049][0050]
    其中,f
    (v)
    ∈rn×c表示第v个视图的伪标签矩阵,g
    (v)
    表示记录每个视图中未丢失样本的索引的指标矩阵,是第v个视图中的拉普拉斯矩阵,是对角矩阵并且
    [0051]
    s2.3,图聚类。
    [0052]
    在伪标签矩阵和秩约束指导下学习统一的最优图结构,图聚类的目标函数为:
    [0053][0054]
    其中,f
    (v)
    ∈rn×c表示第v个视图的伪标签矩阵,n是数据样本数,c是聚类数,v代表视图序号,(f
    (v)
    )
    tf(v)
    =ic表示f
    (v)
    为正交矩阵,表示限制在0到1之间,表示对角线元素为0,g
    (v)
    表示记录每个视图中未丢失样本的索引的指标矩阵,是第v个视图中的拉普拉斯矩阵,是对角矩阵并且w1=1表示矩阵w的每一行元素之和为1并构成一个全为1的列向量,该约束可以避免任何样本在联合表示中没有贡献。
    [0055]
    s2.4,联合学习框架
    [0056]
    将潜在表示学习、谱嵌入和图聚类整合到一个统一的学习框架中,得到基于最优图结构学习的缺失多视图子空间聚类方法的整体目标函数如下所示:
    [0057][0058]
    其中,w表示统一的最优图结构,是由全部伪标签矩阵学习的统一的相似性矩阵,λ和β表示平衡参数,rank(lw)=n-c表示对相似性矩阵w的秩约束,表示矩阵的每一行元素之和为1并构成一个全为1的列向量,该约束可以避免任何样本在联合表示中没有贡献,使其成为理想的块对角矩阵;第一项和第二项表示潜在表示学习,第三项是谱嵌入学习,第四项为最优图结构学习;最小化目标函数可以在伪标签指导下学习一个统一的最优图结构。
    [0059]
    s3,采用增广拉格朗日乘子和迭代优化方法求解基于最优图结构学习的缺失多视图子空间聚类目标函数,得到相似性矩阵;具体包括:
    [0060]
    对目标函数,首先引入两个辅助变量t
    (v)
    和s
    (v)

    [0061]
    对目标函数中的十一个变量,潜在表示辅助变量t
    (v)
    和s
    (v)
    ,误差矩阵伪标签矩阵f
    (v)
    ,相似性矩阵w,拉格朗日乘子和ψ
    (v)
    ,固定任意十个变量,求解剩余变量。
    [0062]
    s3.1,引入两个辅助目标变量t
    (v)
    和s
    (v)
    ,目标函数改为:
    [0063][0064]
    进一步地,目标函数的增广拉格朗日函数如下所示:
    [0065][0066]
    其中,tr为矩阵的迹,为矩阵s
    (v)
    的拉普拉斯矩阵,μ为惩罚参数,和ψ
    (v)
    为拉格朗日乘子。
    [0067]
    s3.2,固定其他变量,求解潜在表示矩阵目标函数变为:
    [0068][0069]
    对上述等式求导得到如下图所示:
    [0070][0071]
    其中,
    [0072]
    s3.3,固定其他变量,求解辅助变量t
    (v)
    。目标函数变为:
    [0073][0074]
    其中使用奇异值阈值收缩运算符θ,可得:
    [0075][0076]
    s3.4,固定其他变量,求解辅助变量s
    (v)
    和拉格朗日乘子ψ
    (v)
    ,可得:
    [0077][0078]
    其中,表示矩阵中第i行元素之和为1,表示矩阵r
    (v)
    的第i行元素,表示矩阵h
    (v)
    第(i,j)个元素。
    [0079][0080]
    s3.5,固定其他变量,求解误差矩阵可得:
    [0081][0082]
    其中,θ为收缩运算符。
    [0083]
    s3.6,固定其他变量,求解伪标签矩阵f
    (v)
    ,目标函数变为:
    [0084][0085]
    其中,上式对每个视图是独立的,上式改为:
    [0086][0087]
    其中,f
    (v)
    的最优解为对应的c个最大特征值对应的特征向量。
    [0088]
    s3.7,固定其他变量,求解最优图结构w,目标函数变为:
    [0089][0090]
    假设λi是lw对应的第i个最小特征值,我们转变秩约束rank(lw)=n-c为目标函数变为:
    [0091][0092]
    其中,q定义为η为平衡参数。
    [0093]
    karush-kuhn-tucker(kkt)条件是非线性规划最佳解的必要条件,将拉格朗日乘数法所处理涉及等式的约束优化问题推广至不等式,是解决最优化问题时用到的一种方法。根据kkt条件,可以得到的最优解:
    [0094][0095]
    这里的表示矩阵w
    *
    的第j列,k
    :,j
    表示矩阵k的第j列,’ ’表示max(x,0)函数当取0,当取
    [0096]
    s3.8,固定其他变量,求解拉格朗日乘子和参数μ,可得:
    [0097][0098][0099][0100]
    μ=min(ρμ,μ0)
    ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
    (22)
    [0101]
    其中,ρ和μ0是常数。
    [0102]
    s4,根据图聚类得到的相似性矩阵w,在秩约束的条件下成为块对角矩阵,使得每一块聚成一类,进而得到理想的聚类结果;基于统一的相似性矩阵,根据拉普拉斯矩阵中特征值为0的重数与相似矩阵的连通分量个数相等这一特性,进而得到理想的聚类结果。
    [0103]
    s5,利用聚类任务评价特征选择方法的性能。采用常用的三个聚类评价指标:聚类准确度(acc)、归一化互信息(nmi)和纯度(purity)来评价聚类效果。其中,acc代表正确预测的数据样本的数量占数据样本总数的比例;nmi用来衡量两个随机变量之间的相关程度,即一个随机变量中有关另一个随机变量的信息量;纯度用来计算正确聚类的样本占总样本数的比例。这三个评价指标数值范围都在0和1之间,数值越大表示性能越好。
    [0104]
    实施例2:
    [0105]
    本实施例提供了一种基于图结构学习的缺失多视图子空间聚类系统,包括:
    [0106]
    数据采集模块,被配置为:获取训练缺失多视图的特征数据集;
    [0107]
    目标函数构建模块,被配置为:依据所述特征数据集,基于多视图谱聚类和低秩表
    示学习得到每个视图数据的潜在表示和伪标签矩阵,通过多视图子空间聚类学习得到统一的相似性矩阵,构造基于图结构学习的缺失多视图子空间聚类目标函数;
    [0108]
    求解模块,被配置为:求解基于图结构学习的缺失多视图子空间聚类目标函数,得到相似性矩阵;
    [0109]
    聚类模块,被配置为:获待聚类缺失多视图的特征数据集,在所述相似性矩阵的基础上施加秩约束,得到块对角矩阵,得到聚类结果。
    [0110]
    所述系统的工作方法与实施例1的基于图结构学习的缺失多视图子空间聚类方法相同,这里不再赘述。
    [0111]
    实施例3:
    [0112]
    本实施例基于实施例1提供的基于图结构学习的缺失多视图子空间聚类方法,提供了一种基于图结构学习的图像聚类方法,包括:
    [0113]
    获取训练图像数据集,包括多个图像;对每个图像提取多个图像特征,构成多视图数据集,对获得的数据集进行成对样本的缺失和随机缺失,得到缺失数据集和伪标签矩阵;
    [0114]
    获取每个视图的样本数据集和伪标签矩阵;
    [0115]
    对多视图特征数据集学习潜在表示、伪标签矩阵和统一的相似性矩阵,构造基于最优图结构学习的缺失多视图子空间聚类目标函数;
    [0116]
    采用增广拉格朗日乘子和迭代优化方法求解基于最优图结构学习的缺失多视图子空间聚类目标函数,得到相似性矩阵;
    [0117]
    对待聚类图像进行聚类时,对每个图像提取多个图像特征,构成待聚类图像的多视图数据集,然后在上述相似性矩阵的基础上施加秩约束使得相似性矩阵为理想的块对角矩阵,从而得到聚类结果。
    [0118]
    具体实施过程与实施例1的基于图结构学习的缺失多视图子空间聚类方法相同,这里不再赘述。
    [0119]
    实施例4:
    [0120]
    本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现了实施例1所述的基于图结构学习的缺失多视图子空间聚类方法的步骤。
    [0121]
    实施例5:
    [0122]
    本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现了实施例1所述的基于图结构学习的缺失多视图子空间聚类方法的步骤。
    [0123]
    以上所述仅为本实施例的优选实施例而已,并不用于限制本实施例,对于本领域的技术人员来说,本实施例可以有各种更改和变化。凡在本实施例的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本实施例的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-1137.html

    最新回复(0)