一种应用于人脸识别的自适应快速无监督特征选择方法

    专利查询2022-07-08  218



    1.本发明属于信号处理、数据分析等技术领域,具体涉及一种应用于人脸识别的自适应快速无监督特征选择方法。


    背景技术:

    2.随着信息爆炸时代的到来,大量的高维数据产生,例如人脸图像数据。直接处理这些大量的并且高维度的人脸图像数据不仅会显著增加算法和计算机硬件的计算时间和内存负担,而且由于人脸图像中背景、衣物等不相关性、噪声和冗余维度的特征存在会导致性能不佳。在人脸图像中特征即为图像的像素点,特征选择的目的是选择出图像中关键像素点,分析人脸图像数据时仅仅需要考虑特征选择出来的像素点即可,这样可以大大提高数据分析的效率。特征选择作为解决人脸图像数据的主要手段之一,是从原始人脸图像特征集合中选取少量特征构成子集,而特征子集能够映射人脸图像中主要信息与结构,可以达到提高人脸识别应用中的计算效率以及准确率的目的。通常情况下根据数据标签的可用性将特征选择方法分为两大类:有监督特征选择方法和无监督特征选择方法。在有监督特征选择方法中,特征的选择是基于特征与类标签之间的关联性进行的。它选择与类标签相关性强的特征,从而获得具有高性能的特征子集。在无监督特征选择方法,特征的选择是根据各特征的特点与特征之间关联性进行的,不需要额外的标签支持。而大多数真实人脸图像数据集都存在标签稀缺的情况,在此领域中无监督特征选择方法更受青睐。
    3.现有的应对人脸识别问题中的无监督特征选择(ufs)算法大多是在保持人脸图像特征之间结构性的同时构建稀疏矩阵来完成特征选择,而未完全考虑特征之间的冗余性。近年来,相关领域的学者提出了几种基于特征聚类的ufs方法有效地降低了特征间的冗余性,但这些ufs方法往往需要消耗更多的计算成本同时也需要大量的额外参数来构建特征子集。为了更好的解决特征之间的冗余性、时间消耗成本与大量参数问题,本发明设计了一种基于特征聚类的自适应快速无监督特征选择方法,方法主体包括两个步骤:(a)对人脸图像特征进行密度峰值聚类(b)在聚类形成的特征簇中选择代表性特征。首先提出了一种自适应参数的快速密度峰值聚类算法对数据进行特征聚类,然后定义特征重要性评价函数在每个特征簇中选择出最具代表性特征构成特征子集,完成特征选择。


    技术实现要素:

    4.本发明的目的是针对现有技术的缺陷,设计提供了一种基于自适应快速密度峰值聚类的无监督特征选择方法。此方法主要包括两个步骤:(a)对人脸图像特征进行密度峰值聚类,相较于现有的密度峰值聚类本发明提供了一种自适应快速密度峰值特征聚类方法,能够自适应的确定选择特征的个数与截断距离参数dc来解决数据集适配问题,(b)在聚类形成的特征簇中选择代表性特征,所以本发明定义特征重要性评价函数,通过计算每个特征的特征标准差与特征表达能力对特征进行打分,得分最高的特征加入特征子集,以此更加充分的考虑了特征之间的冗余性。为了实现以上目的,本发明采用以下技术方案:
    5.一种基于自适应快速密度峰值聚类的无监督特征选择方法,包括:
    6.s1.获取原始人脸图像数据矩阵d,并进行数据标准化处理,得到原始人脸图像特征;
    7.s2.对特征进行自适应快速密度峰值聚类,将相似度较高的特征聚类形成同类特征簇;
    8.s3.同类特征簇中通过特征重要性评价函数选择出最具代表性特征;
    9.s4.每个特征簇最具代表性特征加入特征子集,得到最优特征子集。
    10.进一步的,所述步骤s1中的标准化处理采用归一化方法对样本进行标准化,具体为:
    11.首先,对原始人脸图像数据矩阵d进行归一化处理,得到归一化后的人脸图像数据矩阵x,
    12.其中,原始人脸图像数据矩阵d∈rn×w×h,n为人脸图像数量,w为人脸图像的宽,h为人脸图像的高,d
    ij
    为单张人脸图像中(i,j)位置处的元素,将单张二维人脸图像拉平为一维行向量,数据矩阵变为d

    ∈rn×d,其中d=w
    ×
    h为人脸图像的特征数,d

    ij
    为数据矩阵(i,j)位置处的元素,d

    ij
    的归一化计算公式如下:
    [0013][0014]
    其中,d
    ′j=[d

    1j
    ,d

    2j
    ,

    ,d

    nj
    ]
    t

    [0015]
    然后,对归一化后的矩阵x={x
    ij
    }按行展开,记为:
    [0016]
    x=[x1,x2,

    ,xn]
    t
    ∈rn×d,
    [0017]
    其中,xi=[x
    i1
    ,x
    i2
    ,...,x
    id
    ];
    [0018]
    对归一化后的矩阵x={x
    ij
    }按列展开,记为:
    [0019]
    x=[f1,f2,

    ,fd]∈rn×d,
    [0020]
    其中,fi=[x
    1i
    ,x
    2i
    ,...,x
    ni
    ]
    t
    ,f1,f2,

    ,fd即为原始人脸图像的d个特征。
    [0021]
    进一步的,所述步骤s2为一种自适应快速密度峰值特征聚类方法,具体为:
    [0022]
    s21.计算特征的局部密度并自适应的确定截断距离参数dc:
    [0023]
    在密度峰值特征聚类中,局部密度为特征与其他特征之间距离小于截断距离dc的特征数目,截断距离参数dc的选取将直接影响算法的聚类性能,以往的密度峰值聚类算法按照经验人工选取参数,往往会造成聚类效果不理想数据集适配困难等问题,本发明通过构造局部密度信息熵求解最优化问题,来确定合适的参数dc。若所有特征局部密度相差越小,则局部密度信息熵越大。反之,若所有特征局部密度相差越大,则局部密度信息熵越小。当局部密度信息熵最大时,所有特征具有相同局部密度,此时无法利用局部密度来确定聚类中心。为了能够更好地利用局部密度确定聚类中心,则希望特征局部密度相差最大,即局部密度信息熵最小。
    [0024]
    通过最小化局部密度信息熵函数h(dc)来确定参数dc,模型表示如下:
    [0025][0026]
    其中,
    [0027]
    ρi表示第i个特征的局部密度,具体利用高斯函数计算得到,计算公式如下:
    [0028][0029]
    其中,d
    ij
    表示第i个特征与第j个特征之间的欧式距离;
    [0030]
    z表示所有特征局部密度之和,计算公式如下:
    [0031][0032]
    s22.计算特征距离δi:
    [0033]
    聚类中心的概念:类簇的中心是由一些局部密度较低的点所围绕,且这些点距离其他高密度点的距离都比较远。本发明使用特征距离δi来刻画这种关系而不是特征之间欧氏距离。当ρi最大时,第i个特征的特征距离为该特征与其他特征之间欧氏距离最大的欧式距离。当ρi不是最大时,第i个特征的特征距离定义为特征fi与其他所有局部密度大于ρi的特征之间欧氏距离最小的欧式距离,具体表示为:
    [0034][0035]
    s23.确定聚类中心:
    [0036]
    利用局部密度ρi和特征距离δi确定聚类中心,聚类最终目的是得到的类簇类内间距小、类间间距大,对应密度峰值聚类算法其衡量标准变更为局部密度越大越好且特征距离越大越好。在ρi~δi图中,靠近右上方的点具备这些性质,这些点就是聚类中心。为了更精准的确定聚类中心,按ρi*δi从大到小排序,得到n~γ图,其中γ为ρi*δi排序后结果,n为特征排名。图中点阵存在明显的阶跃现象,在阶跃之前的点就是聚类中心。为了确定聚类中心,本发明作与点阵拟合曲线相切的直线,切点即为所求“转折点”,通过求解最优函数得到转折点所对应的n值,最优化问题用于计算特征排名n,最优化问题表示如下:
    [0037][0038]
    其中,α为切线所对应的倾斜角。
    [0039]
    s24.确定特征所属类簇:
    [0040]
    将特征分配到不同类中,除聚类中心外的特征分配到欧式距离最近的聚类中心的所属类别中,完成全部特征的聚类。
    [0041]
    进一步的,所述步骤s3具体为:
    [0042]
    s31.计算特征标准差si:
    [0043]
    特征标准差能反映出该特征下数据的离散程度,不同类样本在一个有效特征下的取值往往差异很大,选择具有较大标准差的特征更加符合认知。例如,在区分斑马与马时,有无条纹这个特征为有效特征,而其他特征作用甚微,有无条纹这个特征的标准差必定大。
    [0044]
    同类特征簇中特征fi的特征标准差si表示为:
    [0045][0046]
    其中,m为与fi同类的特征簇中特征数量,f
    ij
    =x
    ji

    [0047]
    s32.计算特征表达能力corri:
    [0048]
    选择代表性特征仅靠特征标准差是不准确的,从另一方面考虑,高冗余性特征簇中有效且具有代表性的特征能够完整的表达整个特征簇中其他冗余特征,这种能力本发明
    称之为特征表达能力。pearson相关系数广泛用于度量两个变量之间的相关程度,两变量的pearson相关系数绝对值越大,其相关性越强。为了排除相关性很小却数量繁多的特征干扰,所以用特征之间的大于阈值t的pearson相关系数累加和来表示这种特征表达能力。
    [0049]
    特征fi的特征表达能力corri具体表示为:
    [0050][0051]
    其中δ(i,j)为特征fi、fj之间的pearson相关系数的绝对值大于阈值t的指示函数,表示为:
    [0052][0053]
    其中,
    [0054]
    阈值t取值为该特征与其他特征pearson相关系数上0.1分位点;
    [0055]
    特征fi、fj之间的pearson相关系数定义表示为:
    [0056][0057]
    其中,为特征平均值,计算公式为
    [0058][0059]
    s33.确定特征重要性评价函数:
    [0060]
    为了平衡特征标准差si与特征表达能力corri之间数量级的差异,引入自适应参数λ,λ取值为同特征簇中各特征的特征标准差与特征表达能力累加和之比,以特征标准差和特征相关系数定义特征重要性评价函数,表示为:
    [0061]
    scorei=si λcorri[0062]
    其中scorei表示的是特征fi的特征得分,自适应参数λ表示为:
    [0063][0064]
    s34.选择最具代表性特征:
    [0065]
    在各个特征簇中对特征进行重要性评价,从特征簇中选择得分最高的特征即最具代表性特征加入特征子集,完成特征选择。
    [0066]
    有益效果
    [0067]
    与现有技术相比,本发明提出了一种应用于人脸识别的自适应快速无监督特征选择方法(afdpcfs),与其他无监督特征选择算法相比,本发明为了更加充分地考虑了特征之间的冗余性,首先设计了一种自适应快速密度峰值特征聚类方法对特征进行聚类,在特征聚类方法中可以根据数据集自适应的确定参数,解决了在传统的密度峰值聚类中数据集适配困难的问题,并且不需要额外指定选择特征的个数,然后定义特征重要性评价函数,从特征标准差与特征表达能力两个角度出发,在每个类簇中选择出最具代表性的特征。同时,由于基于密度聚类的速度优势,加之本发明中的聚类方法针对特征选择场景的优化,afdpcfs使得特征选择的结果更优而且速度更快。
    附图说明
    [0068]
    图1为实施方式一提供的一种基于特征聚类的自适应快速无监督特征选择方法(afdpcfs)的算法框架图
    [0069]
    图2为实施方式一提供的一种自适应快速密度峰值特征聚类方法的流程图
    [0070]
    图3为实施方式一提供的一种自适应快速密度峰值特征聚类方法中的ρi~δi图与n~γ图
    [0071]
    图4为实验中提供的六个人脸图像数据集的统计资料示意图
    [0072]
    图5为实验中提供的不同的特征选择方法在各个人脸图像数据集上的对应knn分类器的分类结果(acc)示意图
    [0073]
    图6为实验中提供的不同的特征选择方法在各个人脸图像数据集上的对应svm分类器的分类结果(acc)示意图
    [0074]
    图7为实验中提供的不同的特征选择方法在各个人脸图像数据集上的对应cart分类器的分类结果(acc)示意图
    [0075]
    图8为实验中提供的不同的特征选择方法在各个人脸图像数据集上的总共时间消耗结果(time)示意图
    具体实施方式
    [0076]
    以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
    [0077]
    本发明针对现有缺陷,提供了一种基于特征聚类的自适应快速无监督特征选择方法。
    [0078]
    实施例一
    [0079]
    本实施例提供的一种应用于人脸识别的自适应快速无监督特征选择方法,如图1所示,包括:
    [0080]
    s1.获取原始人脸图像数据矩阵,并进行数据标准化处理,得到原始人脸图像特征;
    [0081]
    s2.对特征进行自适应快速密度峰值聚类,将相似度较高的特征聚类形成同类特征簇;
    [0082]
    s3.同类特征簇中通过特征重要性评价函数选择出最具代表性特征;
    [0083]
    s4.每个特征簇最具代表性特征加入特征子集,得到最优特征子集。
    [0084]
    进一步的,所述步骤s1中的标准化处理采用归一化方法对样本进行标准化,表示为:
    [0085]
    首先,对原始人脸图像数据矩阵d进行归一化处理,得到归一化后的人脸图像数据矩阵x,
    [0086]
    其中,原始人脸图像数据矩阵d∈rn×w×h,n为人脸图像数量,w为人脸图像的宽,h为人脸图像的高,d
    ij
    为单张人脸图像中(i,j)位置处的元素,将单张二维人脸图像拉平为一维行向量,数据矩阵变为d

    ∈rn×d,其中d=w
    ×
    h为人脸图像的特征数,d

    ij
    为数据矩阵(i,j)
    位置处的元素,d

    ij
    的归一化计算公式如下:
    [0087][0088]
    其中,d
    ′j=[d

    1j
    ,d

    2j
    ,

    ,d

    nj
    ]
    t

    [0089]
    然后,对归一化后的矩阵x={x
    ij
    }按行展开,记为:
    [0090]
    x=[x1,x2,

    ,xn]
    t
    ∈rn×d,
    [0091]
    其中,xi=[x
    i1
    ,x
    i2
    ,...,x
    id
    ];
    [0092]
    对归一化后的矩阵x={x
    ij
    }按列展开,记为:
    [0093]
    x=[f1,f2,

    ,fd]∈rn×d,
    [0094]
    其中,fi=[x
    1i
    ,x
    2i
    ,...,x
    ni
    ]
    t

    [0095]
    进一步的,所述步骤s2流程如图2所示,步骤s2具体为:
    [0096]
    s21.通过最小化局部密度信息熵函数h(dc)来确定参数dc,模型表示如下:
    [0097][0098]
    其中,
    [0099]
    ρi表示第i个特征的局部密度,具体利用高斯函数计算得到,计算公式如下:
    [0100][0101]
    其中,d
    ij
    表示第i个特征与第j个特征之间的欧式距离;
    [0102]
    z表示所有特征局部密度之和,计算公式如下:
    [0103][0104]
    s22.计算特征距离δi:
    [0105]
    当ρi最大时,第i个特征的特征距离为该特征与其他特征之间欧氏距离最大的欧式距离。当ρi不是最大时,第i个特征的特征距离定义为特征fi与其他所有局部密度大于ρi的特征之间欧氏距离最小的欧式距离,具体表示为:
    [0106][0107]
    为了更好理解特征距离的计算方式,在此举例说明:若d∈rn×3,即数据集有n个样本,3个特征,ρ1=1,ρ2=0.8,ρ3=0.6。则δ1等于f1与其他特征欧氏距离最大的欧式距离值,δ2等于f2与其他局部密度大于ρi的特征欧氏距离最小的欧式距离值,即与f1的欧式距离,δ3等于f3与特征f1、f2欧氏距离中较小的欧式距离值。
    [0108]
    s23.确定聚类中心:
    [0109]
    利用局部密度ρi和特征距离δi确定聚类中心,其中的ρi~δi图与n~γ图如图3所示。通过求解最优化问题得到转折点所对应的n值,聚类中心即为γ排名前n对应的特征,最优化问题表示如下:
    [0110][0111]
    其中γ为ρi*δi排序后的结果,n为特征排名,α为切线所对应的倾斜角,α=-20。。
    [0112]
    s24.确定特征所属类簇:
    [0113]
    将特征分配到不同类中,除聚类中心外的特征分配到欧式距离最近的聚类中心的所属类别中,完成全部特征的聚类。
    [0114]
    进一步的,所述步骤s3具体为:
    [0115]
    s31.计算特征标准差si:
    [0116]
    同类特征簇中特征fi的特征标准差si表示为:
    [0117][0118]
    其中,m为与fi同类的特征簇中特征数量,f
    ij
    =x
    ji

    [0119]
    s32.计算特征表达能力corri:
    [0120]
    特征fi的特征表达能力corri表示为:
    [0121][0122]
    其中δ(i,j)为特征fi、fj之间的pearson相关系数的绝对值大于阈值t的指示函数,表示为:
    [0123][0124]
    其中,
    [0125]
    阈值t取值为该特征与其他特征pearson相关系数上0.1分位点;
    [0126]
    特征fi、fj之间的pearson相关系数定义表示为:
    [0127][0128]
    其中,为特征平均值,计算公式为
    [0129][0130]
    s33.确定特征重要性评价函数:
    [0131]
    以特征标准差和特征相关系数定义特征重要性评价函数,计算公式为:
    [0132]
    scorei=si λcorri[0133]
    其中scorei表示的是特征fi的特征得分,自适应参数λ是为了平衡特征标准差si与特征表达能力corri之间数量级的差异而引入的,具体表示为:
    [0134][0135]
    s34.选择最具代表性特征:
    [0136]
    在各个特征簇中对特征进行重要性评价,从特征簇中选择得分最高的特征即最具代表性特征加入特征子集,完成特征选择。
    [0137]
    与现有技术相比,本发明提出了一种应用于人脸识别的自适应快速无监督特征选择方法(afdpcfs),与其他无监督特征选择算法相比,本发明为了更加充分地考虑了特征之间的冗余性,首先设计了一种自适应快速密度峰值特征聚类方法对特征进行聚类,在特征聚类方法中可以根据数据集自适应的确定参数,解决了在传统的密度峰值聚类中数据集适配困难的问题,然后定义特征重要性评价函数,从特征标准差与特征表达能力两个角度出发,在每个类簇中选择出最具代表性的特征。同时,由于基于密度聚类的速度优势,加之本
    发明中的聚类方法针对特征选择场景的优化,afdpcfs使得特征选择的结果更优而且速度更快。
    [0138]
    实验部分
    [0139]
    本发明中实验部分是为了充分验证本发明afdpcfs方法的高效性。
    [0140]
    在六个公开人脸图像数据集上(yale、yaleb、warpar10p、warppie10p、orl、coil20)测试afdpcfs方法的性能,同时与以下六种目前流行的无监督特征选择算法进行比较:
    [0141]
    (1)baseline:所有的原始特征都被采用。
    [0142]
    (2)ls:使用laplacian特征图谱的方法定义laplacian score来评估特征的重要度,是标准的filter式特征选择方法。
    [0143]
    (3)mcfs:多类簇的无监督特征选择算法,在衡量团簇的优度时,考虑其内在的流形结构进行谱分析,更好的保留了特征的多簇结构,同时优化了稀疏特征值问题和l1正则化最小二乘问题。
    [0144]
    (4)ndfs:非负判别无监督特征选择算法,算法利用非负判别信息来获取更精确的集群标签,同时将聚类标签和特征选择矩阵进行联合学习,能够选择出最具判别能力的特征。
    [0145]
    (5)udfs:l
    2,1-范式正则化判别特征选择,将判别分析和l
    2,1-范数最小化结合到无监督特征选择的联合框架中来优化算法,并能在批处理的模式下选择出最具辨别力的特征子集。
    [0146]
    (6)fssc-sd:基于谱聚类的无监督特征选择方法,通过自适应邻域的谱聚类对特征进行聚类,并定义特征区分度和特征独立性之积为特征重要度指标来选择具有强分类能力的特征子集。
    [0147]
    其中对比算法ls、mcfs和ndfs采用欧氏距离计算特征间距离,热核相似性度量特征相似性,近邻数k均设置为5,带宽参数t均设置为1;ndfs算法其他参数γ设置为108,α和β均设置为1;udfs算法正则化参数设置为0.1,类簇数设置为5,近邻数k设置为5。
    [0148]
    实验中,在六个公开人脸图像数据集上对afdpcfs方法与其他六种无监督特征选择方法就行对比实验。六个人脸图像实验数据集包括yale、yaleb、warpar10p、warppie10p、orl、coil20。这些人脸图像数据集的统计资料如图4所示。
    [0149]
    对所有的实验数据集,除afdpcfs方法外,其他的对比算法都需要额外确定选择特征的数量,其他对比算法被选择特征的数量设置为{2,4,6,...,100},afdpcfs可以自适应的确定被选择特征的数量,实验选用k-近邻(knn)、支持向量机(svm)和分类与回归树(cart)分类器使用挑选的特征对数据集进行分类,其中knn算法中参数设置k=5,p=1;knn其他参数、svm参数与cart参数均采用scikit-learnpython包中默认参数。实验采用最小-最大规范化对数据进行标准化,进行5次10折交叉验证实验,取5次结果的平均值为实验结果比较各算法的性能。
    [0150]
    评价准则采用acc和time两个指标,其中acc指的是分类准确率,所有样本中完全划分正确的比例,time指的是算法在特征选择阶段在所有实验数据集花费时间的总和。
    [0151]
    为了评估无监督特征选择算法的精度性能,本发明记录了特征选择算法在不同的特征子集中最优的结果,图5~图7所示分别为knn、svm和cart分类器下afdpcfs与其他5种
    监督特征选择算法fssc-sd、laplacian、mcfs、ndfs、udfs以及选择所有特征时在图4所示人脸图像数据集中的最大分类准确率acc。其中最优结果用粗体标注,次优用下划线标注,最后一行为各个算法在全部实验数据集上的平均结果排名。
    [0152]
    为了评估无监督特征选择算法的速度性能,本发明记录了各算法在特征选择阶段在所有实验数据集花费时间的总和,图8所示为afdpcfs与其他5种监督特征选择算法fssc-sd、laplacian、mcfs、ndfs、udfs在图4所示人脸图像数据集中的总共花费时间。
    [0153]
    结果显示无监督特征选择算法在大幅度降低特征维度的同时提高了分类精度,尤其是本发明提供的afdpcfs算法在各个分类器下的平均排名均达到了最高,而且在时间消耗方面,也可以看出afdpcfs算法有着明显的速度优势。表明afdpcfs选择的特征子集具有高效性与代表性。
    转载请注明原文地址:https://tc.8miu.com/read-2016.html

    最新回复(0)