基于最近邻KNN和改进波函数的量子聚类方法

    专利查询2022-08-17  101


    基于最近邻knn和改进波函数的量子聚类方法
    技术领域
    1.本发明属于聚类技术领域,涉及数据的分类,特别是一种基于最近邻knn和改进波函数的量子聚类方法。


    背景技术:

    2.量子聚类方法是一种以量子力学为基础所提出的聚类模型,该模型方法的核心思想是粒子都倾向于处于势能值最低处,而同一类粒子则会聚集于同一个势能极小值点附近,因此可通过计算粒子所处的势能面来进行聚类分析,每一个势能面的极小值点即代表着一个聚类的中心点,而势能值的极小值点个数即代表着聚类个数,最后通过势能值来判断粒子所归属的聚类中心点。相比于其他聚类方法,量子聚类不需要提前给出聚类的个数,对数据密度的变化更加敏感,自身输入的参数的微小变化不会影响分类结果,在给定参数下具有完全确定的分类结果。这些优势使得量子聚类自发明以来受到了广泛的关注。
    3.量子聚类中假设波函数服从高斯分布,然而在某些情况下,待分类的数据有可能不服从正态分布。此外,尽管量子聚类方法经常被认为是一个无参数聚类方法,然而量子聚类方法仍然需要输入模型参数,目前常用knn方法和“模式搜索”的方法计算输入模型参数。其中,最近邻knn方法不需要提供样本标签就可以计算得到输入参数,然而其计算依然需要人为给出近邻个数这一参数,这使得量子聚类很难真正意义上成为一个无参数聚类方法;“模式搜索”方法虽然不再需要人为给定参数,然而该方法需要提供样本分类标签,这又有悖于量子聚类作为无监督学习的核心特点。因此,为适合对服从工程上常见的威布尔分布的数据进行分类,同时使量子聚类方法成为真正意义上的一个无参数聚类方法,寻求一种基于最近邻knn和改进波函数的量子聚类方法,以在既不人为给定参数、又不提供样本数据分类标签的情况下确定量子聚类模型的输入参数,并为数据分类提供一种新的选择是十分迫切且必要的。


    技术实现要素:

    4.本发明针对上述现有技术中的缺陷,提出一种基于最近邻knn和改进波函数的量子聚类方法。该方法包括获取一组待分类样本点的原始数据并将其归一化,基于最近邻knn确定量子聚类模型的输入参数,计算所有样本点的波函数参数,所述波函数参数包括计算波函数所服从分布的尺度参数和形状参数,计算量子聚类的势能面,根据所计算的势能面来确定分类个数和分类边界。本发明所提方法继承了量子聚类方法的所有优点,且更适合对服从威布尔分布的数据进行分类,为数据分类提供了一种新的选择,同时既不需要人为给定任何输入参数,也不需要给出样本数据的分类标签,即可计算得到量子聚类模型的输入参数,实用性强且准确率高。
    5.本发明提供一种基于最近邻knn和改进波函数的量子聚类方法,其包括以下步骤:
    6.s1、获取一组待分类样本点的原始数据并将其归一化;
    7.s2、基于最近邻knn确定量子聚类模型的输入参数,所述输入参数为波函数所服从
    分布的方差s
    weibull

    8.s21、依次计算所有可能近邻个数k的最近邻knn结果
    9.s22、计算最近邻knn结果的增量
    10.s23、寻找最近邻knn结果的增量最大值对应的近邻个数:寻找最近邻knn结果增量的最大值并找到所对应的近邻个数k
    max

    11.s24、获取所求近邻个数对应的最近邻knn结果作为量子聚类模型的输入参数:基于步骤s21得到的所有最近邻knn结果根据步骤s23获得的k
    max
    获取相应的最近邻knn结果并以此作为量子聚类模型的输入参数
    12.s3、根据步骤s2所提供输入参数s
    weibull
    ,计算所有样本点的波函数参数,所述波函数参数包括计算波函数所服从分布的尺度参数和形状参数;
    13.s31、获得步骤s1中归一化后的第i个样本点和步骤s2中所提供的输入参数s
    weibull

    14.s32、计算第i个样本点和输入参数s
    weibull
    的商,利用两者的商和形状参数的关系公式获得第i个样本点所对应的形状参数βi:
    [0015][0016]
    其中,γ(
    ·
    )表示伽马函数;
    [0017]
    s33、计算第i个样本点所对应的尺度参数ηi:
    [0018][0019]
    s34、重复步骤s31到s33,计算所有样本点所对应的形状参数βi和尺度参数ηi;
    [0020]
    s4、计算量子聚类的势能面;
    [0021]
    s41、计算波函数ψ
    wei
    (x):
    [0022][0023]
    s42、计算势能面函数v
    wei
    (x):
    [0024][0025]
    其中,e表示量子聚类模型所设置的能量常数;
    [0026]
    s5、根据步骤s4所计算的势能面来确定分类个数和分类边界,所确定的分类个数等同于势能面函数v
    wei
    (x)的极小值点个数,所确定的分类边界由极小值点之间的势能鞍点和势能极大值点共同确定。
    [0027]
    进一步,所述步骤s21具体包括以下步骤:
    [0028]
    s211、针对第i个待分类样本点的归一化数据寻找距离该样本点最近的k个数据点
    [0029]
    s212、基于待分类样本点的归一化数据计算第i个待分类样本点和距离其最近的k个样本点的距离平均值y
    ik
    ,即
    [0030][0031]
    s213、重复执行步骤s211到s212,计算i=1到i=n的所有待分类样本点所对应的距离平均值其中n表示待分类样本点的个数;
    [0032]
    s214、计算所有待分类样本点的距离平均值的平均值,作为k个近邻个数下的最近邻knn结果即:
    [0033][0034]
    s215、重复执行步骤s211到s214,计算近邻个数为k=1到k=n-1的所有最近邻knn结果
    [0035]
    所述步骤s22具体包括以下步骤:
    [0036]
    s221、根据所计算得到的所有最近邻knn结果计算近邻个数为k下的最近邻knn结果增量即:
    [0037][0038]
    s222、重复执行步骤s221,计算近邻个数为k=1到k=n-2的所有最近邻knn结果增量
    [0039]
    进一步,所述步骤s1具体包括以下步骤:
    [0040]
    s11、获取一组待分类样本点的原始数据x=[x1,x2,x3,...,xn];
    [0041]
    s12、寻找待分类样本点的原始数据x中的最大值x
    max
    和最小值x
    min

    [0042]
    s13、设置所归一化后数据的最大值和最小值
    [0043]
    s14、基于最大最小值标准化的归一化方法,计算待分类样本点的归一化数据其中为:
    [0044][0045]
    可优选的,所述步骤s32中要求计算得到的形状参数βi>2。
    [0046]
    可优选的,所述步骤s2中所述量子聚类模型中波函数服从威布尔分布。
    [0047]
    可优选的,所述步骤s32中采用数值解获得第i个样本点所对应的形状参数βi。
    [0048]
    可优选的,所述步骤s14中归一化方法包括最大最小值标准化或零-均值z-score
    标准化。
    [0049]
    与现有技术相比,本发明的技术效果为:
    [0050]
    1、本发明设计的一种基于最近邻knn和改进波函数的量子聚类方法,与现有的其他聚类方法相比,所提方法继承了量子聚类方法的所有优点,即不需要提前给出聚类的个数即可实现分类,对数据密度的变化相比于其他聚类方法更加敏感,自身输入的参数的微小变化不会影响分类结果,在给定参数下具有完全确定的分类结果;与现有的量子聚类方法相比,所提方法作为量子聚类方法的一种补充,更适合对服从威布尔分布的数据进行分类,为数据分类提供了一种新的选择。
    [0051]
    2、本发明设计的一种基于最近邻knn和改进波函数的量子聚类方法,遍历可能近邻个数的最近邻knn结果,通过计算最近邻knn结果增量的最大值来确定近邻个数,并以此对应的最近邻knn结果作为量子聚类模型的输入参数,简单实用且准确率高;不需要人为给定任何输入参数即可计算得到量子聚类模型的输入参数,且不需要给出样本数据的分类标签,相比于已有的量子聚类的参数给定方法具有很大改进。
    附图说明
    [0052]
    通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本技术的其它特征、目的和优点将会变得更明显。
    [0053]
    图1是本发明的基于最近邻knn和改进波函数的量子聚类方法流程图;
    [0054]
    图2是本发明的确定量子聚类模型的输入参数流程图;
    [0055]
    图3是本发明的随机生成的三类一维样本数据示例图;
    [0056]
    图4是本发明的归一化后所随机生成的三类一维样本数据示例图;
    [0057]
    图5是本发明的不同的威布尔形状参数下所对应的样本数据除以输入参数的曲线图;
    [0058]
    图6是本发明所计算得到的量子聚类势能曲线示例图;
    [0059]
    图7是本发明的随机生成的两类一维样本数据示例图;
    [0060]
    图8是本发明的归一化后所随机生成的两类一维样本数据示例图;
    [0061]
    图9是本发明的不同近邻个数下的最近邻knn结果示例图;
    [0062]
    图10是本发明的不同近邻个数下的最近邻knn增量示例图;
    [0063]
    图11是本发明所提供的输入参数所计算得到的量子聚类势能曲线示例图。
    具体实施方式
    [0064]
    下面结合附图和实施例对本技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
    [0065]
    需要说明的是,在不冲突的情况下,本技术中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本技术。
    [0066]
    图1示出了本发明的基于最近邻knn和改进波函数的量子聚类方法,该方法包括以下步骤:
    [0067]
    s1、获取一组待分类样本点的原始数据并将其归一化。
    [0068]
    s11、获取一组待分类样本点的原始数据x=[x1,x2,x3,...,xn]。
    [0069]
    s12、寻找待分类样本点的原始数据x中的最大值x
    max
    和最小值x
    min

    [0070]
    s13、设置所归一化后数据的最大值和最小值步骤s212中要求计算得到的形状参数βi>2。
    [0071]
    s14、基于最大最小值标准化的归一化方法,计算待分类样本点的归一化数据其中为:
    [0072][0073]
    归一化方法包括但不仅限于最大最小值标准化或零-均值z-score标准化。
    [0074]
    s2、基于最近邻knn确定量子聚类模型的输入参数,量子聚类模型中波函数服从威布尔分布,输入参数为波函数所服从分布的方差s
    weibull
    。如图2所示。
    [0075]
    s21、依次计算所有可能近邻个数k的最近邻knn结果
    [0076]
    s211、针对第i个待分类样本点的归一化数据寻找距离该样本点最近的k个数据点
    [0077]
    s212、基于待分类样本点的归一化数据计算第i个待分类样本点和距离其最近的k个样本点的距离平均值y
    ik
    ,即
    [0078][0079]
    s213、重复执行步骤s211到s212,计算i=1到i=n的所有待分类样本点所对应的距离平均值其中n表示待分类样本点的个数。
    [0080]
    s214、计算所有待分类样本点的距离平均值的平均值,作为k个近邻个数下的最近邻knn结果即:
    [0081][0082]
    s215、重复执行步骤s211到s214,计算近邻个数为k=1到k=n-1的所有最近邻knn结果
    [0083]
    s22、计算最近邻knn结果的增量
    [0084]
    s221、根据所计算得到的所有最近邻knn结果计算近邻个数为k下的最近邻knn结果增量即:
    [0085][0086]
    s222、重复执行步骤s221,计算近邻个数为k=1到k=n-2的所有最近邻knn结果增量
    [0087]
    s23、寻找最近邻knn结果的增量最大值对应的近邻个数:寻找最近邻knn结果增量的最大值并找到所对应的近邻个数k
    max

    [0088]
    s24、获取所求近邻个数对应的最近邻knn结果作为量子聚类模型的输入参数:基于步骤s21得到的所有最近邻knn结果根据步骤s23获得的k
    max
    获取相应的最近邻knn结果并以此作为量子聚类模型的输入参数
    [0089]
    s3、根据步骤s2所提供输入参数s
    weibull
    ,计算所有样本点的波函数参数,波函数参数包括计算波函数所服从分布的尺度参数和形状参数。
    [0090]
    s31、获得步骤s1中归一化后的第i个样本点和步骤s2中所提供的输入参数s
    weibull

    [0091]
    s32、计算第i个样本点和输入参数s
    weibull
    的商,利用两者的商和形状参数的关系公式采用数值解获得第i个样本点所对应的形状参数βi:
    [0092][0093]
    其中,γ(
    ·
    )表示伽马函数。
    [0094]
    要求计算得到的形状参数βi>2。
    [0095]
    s33、计算第i个样本点所对应的尺度参数ηi:
    [0096][0097]
    s34、重复步骤s31到s33,计算所有样本点所对应的形状参数βi和尺度参数ηi。
    [0098]
    s4、计算量子聚类的势能面。
    [0099]
    s41、计算波函数ψ
    wei
    (x):
    [0100][0101]
    s42、计算势能面函数v
    wei
    (x):
    [0102][0103]
    其中,e表示量子聚类模型所设置的能量常数。
    [0104]
    s5、根据步骤s4所计算的势能面来确定分类个数和分类边界,所确定的分类个数等同于势能面函数v
    wei
    (x)的极小值点个数,所确定的分类边界由极小值点之间的势能鞍点和势能极大值点共同确定。
    [0105]
    下面结合具体的案例对本发明做进一步的详细说明。
    [0106]
    在一个具体实施例中,图3是根据三组不同的威布尔分布参数来随机生成的三类
    一维的数据样本,用来展示本方法的计算流程。图3中第一类样本包含50个数据点,第二类样本包含30个数据点,第三类样本包含20个数据点。
    [0107]
    s1、获取图3中的100个待分类数据并将数据归一化。
    [0108]
    设置所归一化后数据的最大值和最小值
    [0109]
    根据公式(1)计算归一化后的数据,归一化后的数据如图4所示。
    [0110]
    s2、提供量子聚类模型的输入参数s,所提供的输入参数s是波函数所服从的威布尔分布的方差s
    weibull

    [0111]
    最近邻knn法的k值设置为25,并以此确定所提供的输入参数。
    [0112]
    s3、根据步骤s2所提供输入参数s
    weibull
    ,计算所有样本点的波函数参数。
    [0113]
    其中步骤s3中的s32步骤需要使用数值解的方式求得样本点所对应的形状参数βi,其中要求计算得到的形状参数βi>2;若令则fi随xi的变化曲线如图5所示。
    [0114]
    s4、计算量子聚类的势能面,计算所得到的势能面函数随x的变化曲线如图6所示。
    [0115]
    s5、根据步骤s4所计算的势能面来确定分类个数和分类边界。如图6所示,可见势能曲线包含三个极小值,因此该组数据被分为三类。其中分类边界通过极小值之间的极大值点确定。图6中可看出第二类样本数据中有三个样本数据出现了错误归类的现象,而其他数据均分类准确。可见本方法具有较高的分类准确程度。
    [0116]
    在另外一个具体实施例中,图7是随机生成的两类一维的数据样本,用来展示本方法的步骤s2基于最近邻knn确定量子聚类模型输入参数的计算流程。图7中第一类样本包含50个数据点,第二类样本包含30个数据点。
    [0117]
    s1、获取图7中的所有数据样本的值并将其归一化。
    [0118]
    数据样本中的最大值5.7283,最小值0.6202;
    [0119]
    根据公式(1)计算归一化后的数据,归一化后的数据如图8所示。
    [0120]
    s21、依次计算近邻个数k从1到79时的knn结果。图9为计算所得到的不同近邻个数k下的最近邻knn结果。
    [0121]
    s22、计算最近邻knn结果的增量。图10为计算得到的最近邻knn增量随不同近邻个数k的变化曲线。
    [0122]
    s23、寻找最近邻knn增量的最大值,并找到所对应的近邻个数k
    max
    。根据图10可知在k=29时的最近邻knn结果增量达到最大值,即是所有不同近邻个数k下的最近邻knn结果增量的最大值。
    [0123]
    s24、根据步骤s23中所得到的k
    max
    =29,获得步骤s21中计算得到的相应的最近邻knn结果:以此作为量子聚类模型的输入参数s
    weibull
    =0.1108。
    [0124]
    图11展示的是根据该输入参数所计算得到的量子聚类势能曲线,势能曲线的极小值点个数代表分类的个数,样本数据归属于同一个极小值点就是量子聚类所分类得到的同一类样本。
    [0125]
    本发明设计的一种基于最近邻knn和改进波函数的量子聚类方法,与现有的其他聚类方法相比,所提方法继承了量子聚类方法的所有优点,即不需要提前给出聚类的个数即可实现分类,对数据密度的变化相比于其他聚类方法更加敏感,自身输入的参数的微小
    变化不会影响分类结果,在给定参数下具有完全确定的分类结果;与现有的量子聚类方法相比,所提方法作为量子聚类方法的一种补充,更适合对服从威布尔分布的数据进行分类,为数据分类提供了一种新的选择;遍历可能近邻个数的最近邻knn结果,通过计算最近邻knn结果增量的最大值来确定近邻个数,并以此对应的最近邻knn结果作为量子聚类模型的输入参数,简单实用且准确率高;不需要人为给定任何输入参数即可计算得到量子聚类模型的输入参数,且不需要给出样本数据的分类标签,相比于已有的量子聚类的参数给定方法具有很大改进。
    [0126]
    最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

    技术特征:
    1.一种基于最近邻knn和改进波函数的量子聚类方法,其特征在于,其包括以下步骤:s1、获取一组待分类样本点的原始数据并将其归一化;s2、基于最近邻knn确定量子聚类模型的输入参数,所述输入参数为波函数所服从分布的方差s
    weibull
    ;s21、依次计算所有可能近邻个数k的最近邻knn结果s22、计算最近邻knn结果的增量s23、寻找最近邻knn结果的增量最大值对应的近邻个数:寻找最近邻knn结果增量的最大值并找到所对应的近邻个数k
    max
    ;s24、获取所求近邻个数对应的最近邻knn结果作为量子聚类模型的输入参数:基于步骤s21得到的所有最近邻knn结果根据步骤s23获得的k
    max
    获取相应的最近邻knn结果并以此作为量子聚类模型的输入参数s3、根据步骤s2所提供输入参数s
    weibull
    ,计算所有样本点的波函数参数,所述波函数参数包括计算波函数所服从分布的尺度参数和形状参数;s31、获得步骤s1中归一化后的第i个样本点和步骤s2中所提供的输入参数s
    weibull
    ;s32、计算第i个样本点和输入参数s
    weibull
    的商,利用两者的商和形状参数的关系公式获得第i个样本点所对应的形状参数β
    i
    :其中,γ(
    ·
    )表示伽马函数;s33、计算第i个样本点所对应的尺度参数η
    i
    :s34、重复步骤s31到s33,计算所有样本点所对应的形状参数β
    i
    和尺度参数η
    i
    ;s4、计算量子聚类的势能面;s41、计算波函数ψ
    wei
    (x):s42、计算势能面函数v
    wei
    (x):其中,e表示量子聚类模型所设置的能量常数;
    s5、根据步骤s4所计算的势能面来确定分类个数和分类边界,所确定的分类个数等同于势能面函数v
    wei
    (x)的极小值点个数,所确定的分类边界由极小值点之间的势能鞍点和势能极大值点共同确定。2.根据权利要求1所述的基于最近邻knn和改进波函数的量子聚类方法,其特征在于,所述步骤s21具体包括以下步骤:s211、针对第i个待分类样本点的归一化数据寻找距离该样本点最近的k个数据点s212、基于待分类样本点的归一化数据计算第i个待分类样本点和距离其最近的k个样本点的距离平均值y
    ik
    ,即s213、重复执行步骤s211到s212,计算i=1到i=n的所有待分类样本点所对应的距离平均值其中n表示待分类样本点的个数;s214、计算所有待分类样本点的距离平均值的平均值,作为k个近邻个数下的最近邻knn结果即:s215、重复执行步骤s211到s214,计算近邻个数为k=1到k=n-1的所有最近邻knn结果所述步骤s22具体包括以下步骤:s221、根据所计算得到的所有最近邻knn结果计算近邻个数为k下的最近邻knn结果增量即:s222、重复执行步骤s221,计算近邻个数为k=1到k=n-2的所有最近邻knn结果增量3.根据权利要求1所述的基于最近邻knn和改进波函数的量子聚类方法,其特征在于,所述步骤s1具体包括以下步骤:s11、获取一组待分类样本点的原始数据x=[x1,x2,x3,...,x
    n
    ];s12、寻找待分类样本点的原始数据x中的最大值x
    max
    和最小值x
    min
    ;s13、设置所归一化后数据的最大值和最小值s14、基于最大最小值标准化的归一化方法,计算待分类样本点的归一化数据其中为:
    4.根据权利要求1所述的改进波函数的量子聚类模型,其特征在于,所述步骤s32中要求计算得到的形状参数β
    i
    >2。5.根据权利要求1所述的改进波函数的量子聚类模型,其特征在于,所述步骤s2中所述量子聚类模型中波函数服从威布尔分布。6.根据权利要求1所述的改进波函数的量子聚类模型,其特征在于,所述步骤s32中采用数值解获得第i个样本点所对应的形状参数β
    i
    。7.根据权利要求1所述的量子聚类模型输入参数确定方法,其特征在于,所述步骤s14中归一化方法包括最大最小值标准化或零-均值z-score标准化。

    技术总结
    本发明提供了一种基于最近邻KNN和改进波函数的量子聚类方法,其包括:获取一组待分类样本点的原始数据并将其归一化,基于最近邻KNN确定量子聚类模型的输入参数,计算所有样本点的波函数参数,波函数参数包括计算波函数所服从分布的尺度参数和形状参数,计算量子聚类的势能面,根据所计算的势能面来确定分类个数和分类边界。本发明所提方法继承了量子聚类方法的所有优点,且更适合对服从威布尔分布的数据进行分类,为数据分类提供了一种新的选择,同时既不需要人为给定任何输入参数,也不需要给出样本数据的分类标签,即可计算得到量子聚类模型的输入参数,实用性强且准确率高。实用性强且准确率高。实用性强且准确率高。


    技术研发人员:陈云霞 朱家晓 王聪 林坤松
    受保护的技术使用者:北京航空航天大学
    技术研发日:2022.02.14
    技术公布日:2022/5/25
    转载请注明原文地址:https://tc.8miu.com/read-8889.html

    最新回复(0)