一种粒子群模糊聚类的苹果近红外光谱分类方法

    专利查询2022-07-07  168



    1.本发明涉及食品科学与技术和人工智能领域,具体涉及一种粒子群模糊聚类的苹果近红外光谱分类方法,应用于苹果品种分类。


    背景技术:

    2.苹果是中国最常见的水果,也是世界四大水果之一。苹果富含营养,如多酚、有机酸、蛋白质和抗氧化剂。具有抗衰老和预防心血管疾病的功效;对肺癌有有效的预防作用。质量好的苹果在市场上的价格比较高,由于一些不同的苹果在成熟时具有相似的表面特征,有时优质苹果会被普通和低价苹果所取代,然后一些非法企业可能从中获利。因此,探索一种快速、方便、无损的苹果品种识别方法,对于促进苹果产业的发展具有十分重要的意义。
    3.近红外光(near infrared,nir)是介于可见光(vis)和中红外光(mir)之间的电磁波,按astm(美国试验和材料检测协会)定义是指波长在780~2526nm范围内的电磁波。近红外反射光谱是农业质量检测领域的有效工具,具有快速、无损、精度高、操作简单等优点。果实成分中含有h基团,这与近红外组合频率和倍频吸收区频率振动一致,因此,通过近红外技术,我们可以获得苹果有机分子的特征信息,即实现茶叶品种的分类。
    4.基于相似度粒子群(spso)算法结合可能模糊c均值(pfcm)算法是用pso算法来优化pfcm算法,以基本粒子群算法(pso)的粒子作为pfcm的聚类中心。当pso的粒子根据适应度函数(pfcm的目标函数作为pso的适应度函数)寻找个体最优粒子时,不需要其他聚类算法提供初始聚类中心。此外,为了避免标准粒子群算法提前收敛性,我们将粒子间的相似性加入到粒子群算法中。粒子间的相似性代表粒子的聚集程度。spso通过聚集程度控制粒子的变异,生成新的粒子以保持粒子的多样性。在一定程度上避免了粒子的过早收敛。


    技术实现要素:

    5.本发明是为了解决现有的可能性模糊c均值算法进行分类的时候存在的聚类中心依赖问题,而设计的一种可能性模糊分类方法,相比现有的可能性模糊分类方法,本发明一种粒子群模糊聚类的苹果近红外光谱分类方法,通过多元散色校正处对光谱数据进行预处理,通过主成分分析(pca)将光谱数据进行压缩,使用经过pca处理后的数据生成粒子群种群,然后使用相似度粒子群的评估函数演化经过pca处理后的数据,随机生成多个可能性模糊c均值的聚类中心,使用可能性模糊c均值的目标函数去评估多个粒子的,根据评估结果找到个体最优粒子与全局最优粒子,然后更新粒子的位置与速度,再计算粒子间的相似性,变异过于相似的粒子,重复迭代过程,解决了可能性模糊c均值算法的聚类中心依赖问题。本发明具有检测速度快、检测准确率高、不消耗化学试剂,不污染环境等优点。
    6.一种结合粒子群算法和模糊聚类算法的苹果近红外光谱分类方法,包括如下步骤:
    7.s1,苹果样本近红外光谱采集;用傅里叶近红外光谱仪对苹果样本进行检测,获取
    苹果样本近红外漫反射光谱数据,将光谱数据存储在计算机里。
    8.s2,采用多元散射校正(msc)对苹果近红外光谱数据进行预处理;
    9.s3,对苹果样本近红外光谱进行降维处理,利用主成分分析(pca)将s2中预处理后的苹果近红外光谱数据进行压缩;
    10.s4,对预处理后的苹果近红外光谱数据采用一种基于相似度粒子群算法结合可能模糊c均值算法进行苹果品种分类。具体步骤如下:
    11.s4.1初始化:设置苹果训练样本数为n;权重指数m;类别数c;最大迭代次数max_iter;其中m》1;设置粒子群种群大小popusize,加速系数c1,加速系数c2,种群位置矩阵种群速度矩阵个体最优解全局最优解相似度系数a。
    12.s4.2,更新粒子群的飞行速度与空间位置,计算方法分别如下:
    13.粒子群飞行速度更新公式为:
    [0014][0015]
    上式中,为第k次迭代的速度矩阵,为第k 1次迭代的速度矩阵,为粒子群种群位置数据,c1为自加速系数,c2为全局加速系数,rand是在范围[0,1]内取值的随机函数值,为第k次迭代粒子的个体最优解,第k次迭代粒子的全局最优解。粒子群位置更新公式为:
    [0016][0017]
    即每个新的粒子种群位置,都是通过将上一轮迭代时的粒子种群位置与本轮迭代的粒子飞跃速度相加得到的。
    [0018]
    s4.3计算更新后的粒子种群与全局最优粒子之间的相似度,两个粒子间相似度计算方法如下:
    [0019][0020]
    上式中表示粒子i与粒子在空间中的距离,本算法中采用euclid距离去计算参数d
    min
    与参数d
    max
    是正常数,可以根据目标函数的搜索区域确定。α也是一个正常数,初步可设置为1。如果两个粒子靠的越近,则粒子相似度值越大似,反之如果两个粒子靠的越远则粒子相似度值越小。对任何粒子i和j,有
    [0021]
    s4.4计算粒子种群的聚集度,如果有粒子符合条件则变异粒子。粒子种群的的聚集度c(t)计算方法如下:
    [0022]
    [0023]
    上式中m为粒子群的种群规模数,为两个粒子间的相似度。c(t)可以表示第t代粒子群的聚集度。如果某个粒子符合条件:
    [0024][0025]
    即随机数若小于聚集度与常数α以及该粒子的相似度三者的乘机则变异该粒子。变异规则为
    [0026]
    x
    id
    =random(ld,ud)
    [0027]
    上式中,random用来生成范围内的随机数,ld,ud位置分量的取值,由粒子种群决定。
    [0028]
    s4.5,计算所有粒子的适应度函数值即评估函数值,记录粒子的个体最优解和粒子的全局最优解在本算法中,相似度粒子群的评估函数使用可能模糊c均值的目标函数,即:
    [0029][0030]
    上述公式中,a为常数,表示隶属度的重要程度;b为常数,表示典型值的重要程度;m为权重指数,m∈(1, ∞);η为权重指数,p∈(1, ∞);γi表示的是第i个聚类的平均宽度,通常设置为给定常数;xk为第k(1≤j≤n)个样本;u
    ik
    为第k(1≤j≤n)个样本xk隶属于第i(1≤j≤c)类的模糊隶属度值,t
    ik
    为第k(1≤j≤n)个样本xk隶属于第i(1≤j≤c)类的典型值,vi是第i次的聚类中心。
    [0031]uik
    的计算公式为:
    [0032][0033]
    在上式中,对于给定的i和k:||x
    k-vi||2=d
    ik
    》0;d
    ik
    为聚类中心i与数据点k之间的欧几里得距离;d
    jk
    为聚类中心j与数据点k之间的欧几里得距离。
    [0034]
    t
    ik
    的计算公式为:
    [0035][0036]
    vi的计算公式为:
    [0037][0038]
    γi的计算公式为:
    [0039][0040]
    上式中k为常数,常设置为1。
    [0041]
    s4.6根据各粒子的适应度值,找到每个粒子的个体最优解找到粒子群本次迭代的全局最优解
    [0042]
    s4.7判断是否满足条件,若满足则跳出,若不满足则转到s4.2。条件为:达到最大迭代次数或评估函数误差小于阈值。
    [0043]
    本发明的有益效果为:
    [0044]
    解决了pfcm因算法自身存在初始化参数难以选取,参数依赖的问题。解决了基本粒子群算法在迭代过程中,容易过早收敛,导致结果为局部最优解而非全局最优解问题。
    附图说明
    [0045]
    图1是本发明的流程图;
    [0046]
    图2是苹果的近红外光谱图;
    [0047]
    图3是多元散射校正处理后的苹果近红外光谱图;
    [0048]
    图4是苹果外光谱经主成分分析后的样本数据图;
    [0049]
    图5是一种粒子群模糊聚类算法迭代流程图。
    [0050]
    图6是模糊隶属度值。
    具体实施方式
    [0051]
    下面结合附图和实施例对本发明作进一步说明。
    [0052]
    如图1所示,一种粒子群模糊聚类算法进行苹果品种分类方法。包括以下步骤:
    [0053]
    s1,苹果样本近红外光谱采集:用傅里叶近红外光谱仪对苹果样本进行检测,获取苹果样本近红外漫反射光谱数据,将光谱数据存储在计算机里。
    [0054]
    采集花牛,嘎啦,黄焦,富士四种品牌苹果,每种苹果的样本数为50,合计200个样本。实验室温度和相对湿度保持相对不变,antaris ii近红外光谱分析仪开机预热1个小时。采用反射积分球模式采集苹果近红外光谱,近红外光谱分析仪扫描每个样品32次以获取样品的漫反射光谱均值。光谱扫描的波数为10000~4000cm-1
    ,扫描间隔为3.857cm-1
    ,采集到每个苹果样品的光谱是1557维的数据。每个样本采样3次,取其平均值作为后续模型建立的实验数据。苹果近红外光谱图如图2所示。
    [0055]
    s2,用多元散射校正(msc)对苹果近红外光谱进行预处理。预处理后的光谱图如图3所示。
    [0056]
    s3,对苹果样本近红外光谱进行降维处理。利用主成分分析(pca)将s2中预处理后的苹果近红外光谱数据进行压缩。
    [0057]
    将s2中的光谱用主成分分析计算特征值和特征向量,将特征值从大到小排列,取前4个最大特征值(分别为:1778.87,87.42,13.23,1,12)对应的4个特征向量,将200个苹果样本的近红外光谱数据投影到这4个特征向量上,从而将近红外光谱从1557维压缩到4维。降维后得到的测试样本数据图如图4所示;
    [0058]
    s4,苹果品种分类采用一种基于相似度粒子群算法结合可能模糊c均值算法进行:采用s3中处理后的苹果近红外光谱数据。图5为算法的流程图,具体步骤如下:
    [0059]
    s4.1,初始化参数:设置苹果样本数为200;权重指数m=2;类别数c=4;最大迭代
    次数max_iter=100;粒子群种群大小popusize=50,粒子群的维度dim=16(分类数与聚类中心维数);粒子空间的下界lower_bounds=-10;粒子空间上界upper_bounds=10;相似度系数a=1;种群位置矩阵为粒子空间范围内的随机矩阵,规格为4*4*100;种群速度矩阵为粒子空间速度(-1~1)的随机矩阵,规格为4*4*100。
    [0060]
    s4.2更新粒子群的飞行速度与空间位置。
    [0061][0062]
    计算粒子飞行速度的更新:如上公式,第k 1代的速度由三部分相加得到的,第一部分是第k代的速度,第二部分是将自加速系数(自加速系数c1设置为1.414)乘以随机数(该随机数取值范围为[0,1])再乘以每个粒子的历史的个体最优解与第k代每个粒子的差得到的,第三部分是将全局加速系数(全局加速系数c2设置为1.414)乘以随机数(该随机数取值范围为[0,1])再乘以粒子的历史全局最优解与第k代每个粒子的差得到的。
    [0063]
    计算可得:第34代的为:
    [0064][0065][0066]
    计算位置更新:如上公式,第k 1代的位置由第k代的粒子位置和第k 1代的速度相加可以得到。
    [0067]
    计算可得:第34代的为:
    [0068][0069]
    s4.3计算更新后的粒子种群与全局最优粒子之间的相似度,两个粒子间相似度计算方法如下:
    [0070][0071]
    在计算相似度前,还需要计算每个粒子与全局最优粒子之间的距离本算法使用本算法中采用euclid距离去计算。如果某一粒子与全局最优粒子的空间距离小于最小距离d
    min
    ,则将该粒子与全局最优粒子的相似度定义为1;如果某一粒子与全局最优粒子的空间距离大于最大距离d
    max
    ,则将该粒子与全局最优粒子的相似度定义为0;如果某一粒子与全局最优粒子的空间距离在最大距离与最小距离之间,则将该粒子与全局最优粒子的相似度定义为其中α相似度常数,这里设置为1。其中s
    max
    为本轮迭代中,所有
    粒子与全局最优粒子之间的距离的最大值。对任何粒子i和j,有s(i,j)∈[0,1]。
    [0072]
    计算可得:第34代的为:[0.5099

    0.4564]
    [0073]
    s4.4变异粒子前,首先计算本代粒子的聚集度:
    [0074][0075]
    上式中m为粒子群的种群规模数即50,为两个粒子间的的相似度。c(t)可以表示第t代粒子群的聚集度。
    [0076]
    为种群中的每一个粒子生成一个随机数,然后将相似度系数α乘以本代粒子的聚集度后,继续乘以该种群中的每一粒子的相似度,比较每个随机数与刚才的连续两次乘法后的值进行比较,若是某一个粒子对应的随机数小于某个粒子的相似度与相似度系数α乘以本代粒子的聚集度的乘积即rand《α
    ×
    c(t)
    ×
    s(i,g),则变异该粒子,变异方法为在范围随机生成新的粒子,即x
    id
    =random(ld,ud)。
    [0077]
    计算可得:第34代的c(t)为:0.4341。
    [0078]
    s4.5,计算粒子的适应度函数值即评估函数值,记录粒子的个体最优解和粒子的全局最优解使用初始化历史个体最优解将中的每个粒子都使用评估函数计算一遍,得到评估函数值序列,序列个数为50,即粒子群数目。记录第一轮迭代的评估函数值中最小的粒子,赋值给全局最优解在本算法中,相似度粒子群的评估函数使用可能模糊c均值的目标函数,即:
    [0079][0080]
    在计算评估函数值(上式)时,将评估函数中常数a设置为1,常数b设置为25,权重指数m设置为2,权重指数η设置为2。
    [0081]uik
    的计算公式为:
    [0082][0083]
    在上式中,对于给定的i和k:||x
    k-vi||2=d
    ik
    》0;d
    ik
    为聚类中心i与数据点k之间的欧几里得距离;d
    jk
    为聚类中心j与数据点k之间的欧几里得距离。
    [0084]
    t
    ik
    的计算公式为:
    [0085][0086]
    vi的计算公式为:
    [0087][0088]
    γi的计算公式为:
    [0089][0090]
    上式中k为常数,常设置为1。
    [0091]
    s4.6根据s4.5计算的各粒子的适应度值,找到每个粒子的个体最优解(留给下一轮迭代使用),找到粒子群本次迭代的全局最优解(留给下一轮迭代使用)。
    [0092]
    s4.7看是否满足条件,若满足则跳出,若不满足则转到s4.2。条件为:达到最大迭代次数100次的时候或评估函数误差小于阈值的时候。
    [0093]
    根据计算得到的模糊隶属度值,实现苹果品种分类。在经过完整的100次迭代后,结束迭代,在经过第34次迭代后趋于稳定,此时的全局最优粒子(即聚类中心)为:
    [0094][0095]
    以上迭代计算结果:一种基于相似度粒子群算法结合可能模糊c均值算法进行苹果品种分类方法收敛后得到的模糊隶属度如图6所示,根据模糊隶属度可得苹果测试样本的分类准确率为96%。
    [0096]
    上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技术所创的等效方式或变更均应包含在本发明的保护范围之内。
    转载请注明原文地址:https://tc.8miu.com/read-1023.html

    最新回复(0)