1.本发明属于药材鉴别领域,具体涉及一种基于太赫兹光谱的用于鉴别白芷商品规格的系统。
背景技术:
2.白芷为伞形科植物白芷angelica dahurica(fisch.ex hoffm.)benth.et hook.f.或杭白芷angelica dahurica(fisch.ex hoffm.)benth.et hook.f.var.formosana(boiss.)shan et yuan的干燥根,其药用历史悠久,至今已有2200余年,在中医临床上具有祛风止痛,消肿排脓的功效,多用于各种痛症,目前也广泛应用于香料、调味品及日用化工等方面。
3.市场上流通的商品白芷按照产地分为不同的商品规格,白芷按产地主要分为杭白芷、川白芷、祁白芷、禹白芷、亳白芷五大类。杭白芷主产于浙江杭州等地,其种植历史最为悠久,宋朝就已有记载,但近年来随着城市建设的影响,产量和种植面积已大量锐减。川白芷主产于四川省遂宁市,安岳、泸州等地也有种植,川白芷一般认为是明朝自杭州引进杭白芷种子开始栽种,川白芷产量较大,占据白芷市场重要地位。禹白芷主产于河南省禹州市、孟州市、焦作市,自清朝开始种植;祁白芷主产于河北省安国市、定州市,20世纪30年代才开始栽种,禹白芷及祁白芷产量相对较小,主要在当地自产自销。亳白芷主产于安徽省亳州市,是近年来发展的新产地,其栽培历史据考证只有30多年,最早主要是从河北安国、河南禹州、浙江杭州等地引种,发展迅猛,产量已与川白芷相当。随着各地的引种及栽培,除了上述5种商品规格外,新的白芷商品也已形成,如产于山东菏泽的山东白芷以及产于甘肃华亭的甘肃白芷等。
4.由于产地及基原植物的不同,各商品规格白芷间的质量差异较大,因此有必要对不同商品规格的白芷进行鉴别。对于不同商品规格的白芷,传统的鉴别方法是根据白芷的形状、外部特征、质地、断面及气味等外观性状来鉴别(张庆芝,白芷的商品规格及经验鉴别,中国民族民间医药杂志,2000年总43期)。但是,这种鉴别方法的检测时长、准确度都取决于鉴定人的经验积累,其鉴定结果主观性较强。
5.为了提高鉴别准确度,文献(章军等,rp-hplc指纹图谱鉴别不同品种白芷药材的研究;中国实验方剂学杂志,2007年7月,第13卷第7期)报道了一种在特定的色谱条件下,通过rp-hplc指纹图谱来鉴别白芷和杭白芷的方法,其采用的色谱条件如下:色谱柱为zorbax(4.6innl x 250mm,5btm,agilient);流动相为a:0.1%冰醋酸乙腈,b:0.1%冰醋酸水,梯度洗脱;检测波长312nm;柱温30℃;流速1.0ml/min。该方法虽然能够有效鉴别2005版药典收载的白芷和杭白芷,但是,这种鉴别方法存在以下问题:(1)需要制备供试品、对照品溶液,前处理较为复杂;(2)单次检测时间较长;(3)需要对样品进行一定处理,检测后的样品不能进行回收;(4)该方法只能用于鉴别2005版药典收载的白芷和杭白芷,无法用于鉴别其它商品规格的白芷,例如川白芷、祁白芷、禹白芷、亳白芷。
6.开发出一种快速、简便、准确、无损的鉴别方法用来鉴别多种不同商品规格的白芷
具有重要意义。
技术实现要素:
7.本发明的目的在于提供一种基于太赫兹光谱的用于鉴别白芷商品规格的系统。
8.本发明提供了一种用于鉴别白芷商品规格的系统,所述系统包括以下部分:
9.第一部分:数据输入部分;用于输入白芷的太赫兹光谱;
10.第二部分:数据提取与预处理部分;用于提取太赫兹光谱的吸收系数谱,并进行预处理;
11.第三部分:降维处理部分:利用t-分布式随机邻域嵌入算法对预处理后的数据进行降维处理;
12.第四部分:模型训练部分;将第三部分降维处理后数据分为训练集数据和测试集数据,将训练集数据中降维处理后的前3个主成分输入机器学习模型,进行模型训练;
13.第五部分:鉴别部分;将测试集数据中降维处理后的前3个主成分输入第四部分训练后的模型,输出白芷的商品规格。
14.进一步地,第一部分中,所述白芷的商品规格为川白芷、祁白芷、亳白芷以及禹白芷中的一种或两种以上。
15.进一步地,第一部分中,所述太赫兹光谱是按照以下方法测试得到的:取白芷,打粉,压片,利用投射型太赫兹时域光谱系统测试,得到太赫兹光谱。
16.进一步地,第二部分中,所述吸收系数谱的范围为:0.2thz-2.0thz;所述预处理方法为:先进行卷积平滑处理,再进行归一化处理。
17.进一步地,第三部分中,所述降维处理的方法为:将预处理后的数据采用rtsne包进行分析,困惑度设置为10,将预处理后的数据降到三维。
18.进一步地,第四部分中,所述机器学习模型为随机森林模型或支持向量机模型。
19.进一步地,所述机器学习模型为随机森林模型,随机森林模型的参数设置如下:mtry值:3,决策树数目ntree值:1600。
20.进一步地,所述机器学习模型为支持向量机模型,支持向量机模型的参数设置入如下:建模类别:c分类器模型,核函数:多项式核函数。
21.本发明还提供了上述的系统在鉴别白芷的商品规格中的用途。
22.本发明还提供了一种计算机可读存储介质,其上存储有如上所述的系统。
23.本发明基于不同商品规格白芷的太赫兹时域光谱,采用化学计量学方法对太赫兹数据进行处理,结合t-分布式随机邻域嵌入法对数据进行降维可视化处理,并采用随机森林以及支持向量机建立白芷商品规格分类模型,提供了快速、准确、无损鉴别白芷商品规格的新方法。
24.与现有技术相比,本发明取得了以下有益效果:
25.1、本发明首次提出利用太赫兹时域光谱技术对不同商品规格的白芷进行鉴别,本发明建立的系统能够有效鉴别以下多种不同商品规格的白芷:川白芷、祁白芷、禹白芷、亳白芷。
26.2、本发明利用基于太赫兹光谱的模型来鉴别不同商品规格的白芷的方法前处理只需要打粉、压片即可,前处理十分简单;该方法检测时长很短,单次检测时长在20s以内;
该方法太赫兹检测过程中的光子能量很低,电离不会破坏物质本身的属性,因此该鉴别方法对样品没有损伤,在检测后可以回收样品,能做到无损鉴别。
27.3、本发明通过筛选实验发现,白芷样品经过pca降维后可视化结果较差,t-sne对数据进行降维后的可视化结果较好,不同商品白芷样品均能按照商品规格正确聚集分布,本发明采用t-sne降维建立的模型性能均优于pca降维建立的模型。与对照例1建立的pca-随机森林分类模型以及对照例2建立的pca-svm分类模型相比,本发明实施例1建立的t-sne-随机森林分类模型和实施例2建立的t-sne-svm分类模型的平均auc,平均准确率,平均精确率,平均召回率和宏f1值均明显提高;其中t-sne-随机森林分类模型最优,鉴别川白芷、祁白芷的准确率达100%,鉴别禹白芷、亳白芷的准确率达97.95%,鉴别上述4种商品规格白芷的平均准确率达98.97%。
28.显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
29.以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
30.图1:不同商品规格白芷药材(a)及断面(b)外观性状图。其中,1.川白芷;2.祁白芷;3.禹白芷;4.亳白芷。
31.图2:空气及不同商品规格白芷的太赫兹时域光谱图。
32.图3:四种商品规格白芷时域光谱叠加图。
33.图4:四种商品规格芷频域图。
34.图5:四个商品规格白芷吸收系数图。
35.图6:不同商品规格白芷t-sne降维可视化图。
36.图7:t-sne-随机森林分类模型roc曲线。
37.图8:t-sne-svm分类模型roc曲线。
38.图9:不同商品规格白芷样品主成分三维投影图。
39.图10:pca-随机森林分类模型roc曲线。
40.图11:pca-svm分类模型roc曲线。
具体实施方式
41.本发明所用原料与设备均为已知产品,通过购买市售产品所得。
42.仪器:tps 3000太赫兹时域光谱系统(thz-tds,英国teraview公司),thz-tds系统使用的激光器为飞秒光纤激光器(德国menlo systems公司),重复频率为100mhz,输出功率大于65mw。thz-tds系统由飞秒激光器、thz脉冲产生装置、thz脉冲探测系统、时间延迟控制系统四个部分组成。其工作原理是将皮秒量级的thz脉冲透射样品或者在样品上发生反射,测量透射或反射产生的thz电场,最终得到样品的信息。本发明实施例均采用透射型的thz-tds系统。
43.样品:4种商品规格白芷:川白芷、祁白芷、禹白芷、亳白芷。参照《中国药典》2020年
版、团体标准《中药材商品规格等级标准汇编》、部颁标准《七十六种药材商品规格标准》1984年版中白芷商品规格等级标准,将白芷按照产地划分为川白芷、祁白芷、亳白芷以及禹白芷4种商品规格,对4种商品规格白芷样品的形状、外部特征、质地、断面及气味等外观性状进行鉴别,白芷药材及断面特征图见图1,鉴别结果见表1。
44.表1:白芷样品性状鉴别结果
[0045][0046]
由表1可见,不同商品规格白芷间有一定差异,主要体现在表面颜色、形状、断面颜色、形成层环及油点颜色的不同。
[0047]
模型评估方法:
[0048]
(1)混淆矩阵
[0049]
混淆矩阵是一种误差矩阵,用于评价分类器性能。将测试集数据输入分类器得到预测分类结果后,可建立混淆矩阵,以衡量分类器的准确度。混淆矩阵中的每一行代表实际分类情况,每一列代表预测分类情况,每一行数据的总和为该分类的实际样本个数,每一列数据的总和这该分类的预测样本个数。对于一个二分类问题,其混淆矩阵由以下四个部分组成,真阳性(true positive,tp)、假阳性(false positive,fp)、假阴性(false negative,fn)、真阴性(true negative,tn),见表2。
[0050]
表2:混淆矩阵的构成
[0051][0052]
其中tp代表真实为positive测试结果也为positive,fp代表真实为positive测试结果为negative,fn代表真实为negative测试结果为positive,tn代表真实为negative测
试结果也为negative。对于多分类问题,建立混淆矩阵后可将其转化为二分类问题,如四分类可分为一种分类与其他三种分类的二分类问题。根据模型输出的混淆矩阵,可计算一些评价模型的指标。
[0053]
(2)roc曲线
[0054]
通过混淆矩阵能绘制受试者工作特征曲线(receiver operating characteristic curve,roc),roc曲线最初用于雷达图像的处理,后由spackman将roc曲线引入机器学习领域,用于分类器性能的评价及算法的优化。由多分类转化的二分类样本容易出现样本分布不均的问题,而roc曲线能很好的解决数据平衡性及错误分类的代价不一致等问题。roc曲线是横坐标为真阳性率纵坐标为假阳性率的二维图,其的评价指标为roc曲线下面积(areaundertheroccurve,auc),auc取值在0.5~1范围,数值越接近1表明分类器性能越优。
[0055]
(3)参数计算
[0056]
通过混淆矩阵能计算准确率(accuracy)、精准率(precision)、召回率(recall)、f1分数(f1score)等评价模型的指标,4个指标的取值均在0~1范围。准确率是评价模型最常用的指标,其值为分类模型中所有预测正确结果占总样本数量的比例,其值越接近1,表明模型总样本中预测正确的结果越多,准确率公式如下:
[0057][0058]
精确率代表真实为样本预测为positive的正确率,其值越接近1,表明模型预测positive的正确率越高,精确率公式如下:
[0059][0060]
召回率也称灵敏度,代表该分类预测的正确率,其值越接近1,表明模型对该分类的识别效果越好,召回率公式如下:
[0061][0062]
一般认为精准率、召回率的值越大分类器性能越高,但实际案例的分析中,精准率与召回率的取值常呈负相关,因此引入f1分数综合的评判p值与r值,平衡的两者的取值,f1-score公式如下:
[0063][0064]
针对多分类模型可用宏f1-score值衡量模型,公式如下:
[0065][0066]
通过这些指标的计算,可多方位的评价建立的模型。
[0067]
实施例1:建立基于太赫兹光谱的t-sne-随机森林鉴别系统
[0068]
1样品的制备
[0069]
白芷药材打粉后过三号筛,称取300mg白芷粉末采用单冲压片机压制成直径12mm,厚度约2mm的圆形薄片,每批样品制备60片,备用。
[0070]
2太赫兹光谱的建立
[0071]
为降低温度、湿度对thz-tds系统的影响,控制测试环境在温度24℃~25℃,湿度1.4%~2.0%条件下,将压片所得白芷圆片放入直径约12mm的环形金属圈内,并将其固定于thz-tds的样品池中。
[0072]
测量方式采用透射型,按照空气、白芷样品的顺序依次测定,每次测量时间不超过20s,每个样品转动3个角度并重复测量3次,记录它们的太赫兹(thz)光谱。为防样品磨损,在记录thz光谱后立刻用游标卡尺记录样片厚度。每个商品规格白芷获得1350条太赫兹光谱,共计获得5400条光谱,图2为空气及样品的太赫兹时域光谱图。
[0073]
3光谱信息的选择及预处理
[0074]
3.1光谱信息的选择
[0075]
样品在thz-tds系统测试后,将光谱信息导入origin2019b,得到四个商品规格白芷5400条太赫兹时域光谱的叠加图,见图3。时域信号经过傅里叶变换得到四个商品规格白芷的透射频域光谱,见图4。根据样品的厚度信息,从频域光谱中提取样品的吸收系数进行数据分析,四个商品规格白芷的吸收系数信息见图5。
[0076]
由图3可见,四种样品光谱的峰形十分相似,时域信号仅在幅值和相位上有差异,但差异不明显。
[0077]
由于白芷是复杂的混合物,因此没有明显的特征吸收峰,4种样品频谱的曲线走势基本一致,其透射能量在不同频率点有所差异,但差异不直观。
[0078]
由图5可见,吸收系数在0.2thz~1.5thz范围内基线差别不大,1.5thz~2.0thz范围内基线的趋势大体一致,但峰的幅度和位置有部分差异,因此选取0.2thz-2.0thz频段的频域光谱信息作为建模依据。
[0079]
3.2预处理
[0080]
为建立一个预测准确率高、泛化性好的模型,首先需将数据进行预处理,在origin2019b中采用savitzky-golay法对数据进行卷积平滑处理,窗口拟合点设为5,多项式阶设为2。为消除数据尺度不统一的影响,将平滑后的数据归一化处理,初步构造出光谱的特征空间。
[0081]
卷积平滑处理采用卷积平滑法(savitzky-golay,sg),sg是基于多项式和最小二乘法拟合的一种平均法,其核心思想是对窗口内的数据进行加权滤波,该法在滤波平滑的同时能较好保留有效的信息。
[0082]
归一化处理可以消除光程差异以及数据尺度不统一的影响,经过归一化处理的数据均在0到1范围内。
[0083]
4降维和可视化分析:t-分布式随机邻域嵌入
[0084]
t-分布式随机邻域嵌入(t-distributed stochastic neighbor embedding,t-sne)是基于邻域嵌入(stochastic neighbor embedding,sne)算法的一种非线性聚类降维方法,t-sne将高维数据间的条件概率转化为低维数据间的联合概率,能将高维数据降维后保持低维流形结构的特性,并得到与其相应的嵌入映射。t-sne能将复杂的数据降维到二维或三维从而便于可视化分析。
[0085]
将预处理的数据导入r 4.0.3,采用rtsne包对其进行分析,困惑度(perplexity)设置为10,将数据降维到三维,导入origin2019b中,构建三维可视化图,结果如图6所示。
[0086]
由t-sne降维可视化图可见,4种商品规格白芷的降维可视化结果较好,川白芷、祁白芷、禹白芷、亳白芷均能按照商品规格各自聚集分布,其中川白芷与祁白芷距离较近,禹白芷与亳白芷距离较近,而川白芷与亳白芷距离较远。
[0087]
5建立t-sne-随机森林分类模型
[0088]
随机森林(random forest,rf)的原理是在原始训练集的数据中放回、抽取多个采样集数据,其中每一个采样集数据能构造一个决策树,决策树之间互不相关共同构成了随机森林。随机森林算法能很好的改进模型的泛化性能,而在建模过程中只会抽取部分样本信息、特征,在不平衡的数据集中可以很好的平衡误差,可避免过拟合情况的发生。
[0089]
将t-sne聚类降维后的前3个主成分作为输入特征导入r 4.0.3,将数据集分层抽样分为训练集和测试集,比例为7:3,采用randomforest包构建随机森林模型。计算袋外错误率(oob error),遍历比较错误率确定mtry(构建策树分支时随机抽样的变量个数)取值,当mtry值设为3时,错误率最低;确定mtry值后,根据模型误差波动确定决策树数目(ntree)取值,当ntree设为1600时,误差基本稳定。根据上述参数建立模型,用训练集训练模型,并对测试集进行预测,记录模型输出的混淆矩阵,见表3。
[0090]
表3:t-sne-随机森林模型输出的混淆矩阵
[0091][0092][0093]
根据混淆矩阵绘制每类分类模型的roc曲线,见图7,计算auc值,根据混淆矩阵计算准确率、精确率、召回率、f1评价模型,结果见表4:。
[0094]
表4:模型相关评价指标
[0095] 川白芷祁白芷禹白芷亳白芷平均auc100.00%100.00%97.90%97.40%98.83%准确率100.00%100.00%97.95%97.95%98.97%p100.00%100.00%95.45%97.83%98.32%r100.00%100.00%97.67%95.74%98.35%f1100.00%100.00%96.55%96.77%98.33%
[0096]
结果表明,t-sne-随机森林分类模型的平均auc为98.83%,平均准确率为98.97%,平均精确率为98.32%,平均召回率为98.35%,宏f1值为98.33%,可见本实施例建立的用于鉴别不同商品规格白芷的t-sne-随机森林分类模型表现优良。其中模型预测川白芷、祁白芷的auc值、准确率、精确率、召回率、f1值均为100%,表明本实施例建立的,t-sne-随机森林分类模型能准确鉴别川白芷及祁白芷;另外,模型预测禹白芷、亳白芷模型的auc值、准确率、精确率、召回率、f1值均》95%,表明本实施例建立的t-sne-随机森林分类模型也能较好的区分禹白芷、亳白芷。
[0097]
实施例2:建立基于太赫兹光谱的t-sne-svm鉴别系统
[0098]
1样品的制备
[0099]
同实施例1。
[0100]
2太赫兹光谱的建立
[0101]
同实施例1。
[0102]
3光谱信息的选择及预处理
[0103]
同实施例1。
[0104]
4降维和可视化分析:t-分布式随机邻域嵌入
[0105]
同实施例1。
[0106]
5建立t-sne-svm分类模型
[0107]
支持向量机(support vector machine,svm)是一种二分类模型,其原理是寻找一个超平面对数据进行分割,分割使得这个数据点到超平面的间隔最大化,svm将分类模型转化为一个凸二次规划来解决。svm模型能将类型不同的样本最大限度的分离以获得泛化误差最小的模型。
[0108]
将t-sne聚类降维后的前3个主成分作为输入特征导入r 4.0.3,将数据集分层抽样分为训练集和测试集,比例为7:3,采用e1071包建立svm模型,建模类别(type)选择c分类器模型(c-classification),核函数(kernel)选择多项式核函数(polynomial),用训练集训练模型,并对测试集进行预测,记录模型输出的混淆矩阵,见表5。
[0109]
表5:t-sne-svm模型输出的混淆矩阵
[0110][0111]
根据混淆矩阵绘制每类分类模型的roc曲线,见图8,并计算auc值,根据混淆矩阵计算准确率、精确率、召回率、f1评价模型,见表6。
[0112]
表6:模型相关评价指标
[0113] 川白芷祁白芷禹白芷亳白芷平均auc96.30%99.50%99.00%98.70%98.38%准确率98.63%99.32%98.63%99.32%98.97%p100.00%97.22%95.74%100.00%98.24%r92.59%100.00%100.00%97.44%97.51%f196.15%98.59%97.83%98.70%97.82%
[0114]
结果表明,t-sne-svm分类模型的平均auc为98.38%,平均准确率为98.97%,平均精确率为98.24%,平均召回率为97.51%,宏f1值为97.82%,可见本实施例建立的用于鉴别不同商品规格白芷t-sne-svm分类模型表现优良。其中模型预测祁白芷、亳白芷的准确率、f1值均较高,表明模型对这两种商品规格白芷的识别效果较好,而模型预测川白芷的auc值、准确率、召回率、f1值稍低,表明该模型对川白芷的识别能力稍差。
[0115]
以下为对照模型的建立方法。
[0116]
对照例1:建立pca-随机森林鉴别系统
[0117]
1样品的制备
[0118]
同实施例1。
[0119]
2太赫兹光谱的建立
[0120]
同实施例1。
[0121]
3光谱信息的选择及预处理
[0122]
同实施例1。
[0123]
4降维和可视化分析:主成分分析
[0124]
主成分分析(principal component analysis,pca)是一种常用的线性降维方式,能将多个有相关性的变量线性组合为相互无关的综合变量,转化后的综合变量即为主成分,主成分依据其方差大小依次排列,综合变量中方差最大的称为第一主成分。pca的主要思想是利用少数几个主成分尽可能的保留原始变量的有效信息,将高维数据转化为低维数据,在消除噪声、提取特征数据的同时,减少模型计算量及处理时间。
[0125]
将预处理后的数据导入simca14.1,对白芷样品的吸收系数进行主成分分析提取数据特征,将数据降至20维,累计贡献率为99.3%。为直观观察样本分布情况,提取其中前3个主成分,累计贡献率为87.1%,以第一个主成分为x轴,第二个主成分为y轴,第三个主成分为z轴,建立主成分三维投影图,结果见图9,图中每个点对应一个样品。
[0126]
由图9可见,不同商品规格的白芷样品大致聚为4类,但4个商品规格的白芷并未完全分开,不同商品规格的样品之间存在部分交叉。
[0127]
5建立pca-随机森林分类模型
[0128]
将pca降维处理后的前20个主成分作为输入特征导入r 4.0.3,将数据集分层抽样分为训练集和测试集,比例为7:3,采用randomforest包构建随机森林模型。计算袋外错误率(oob error),遍历比较错误率确定mtry取值,当mtry设为12时,错误率最低;确定mtry值后,根据模型误差波动确定决策树数目ntree取值,当ntree设为1600时,误差基本稳定。设定根据上述参数建立模型,用训练集训练模型,并对测试集进行预测,记录模型输出的混淆矩阵,见表7。
[0129]
表7:pca-随机森林模型输出的混淆矩阵
[0130][0131]
根据混淆矩阵绘制每类分类模型的受试者工作特征曲线(receiver operating characteristic curve,roc),见图10,计算auc值,根据混淆矩阵计算准确率、精确率(precision,p)、召回率(recall,r)、f1评价模型,结果见表8。
[0132]
表8:模型相关评价指标
[0133] 川白芷祁白芷禹白芷亳白芷平均auc80.50%77.30%69.60%67.60%73.75%准确率86.99%86.30%73.97%71.92%79.79%p58.62%62.96%65.12%53.19%86.99%r78.56%68.74%65.20%72.44%71.23%
f167.14%65.72%65.16%61.34%64.84%
[0134]
结果表明,pca-随机森林分类模型的平均auc为73.75%,平均准确率为79.79%,平均精确率为86.99%,平均召回率为71.23%,宏f1值为64.84%,可见本对照例建立的用于鉴别不同商品规格白芷的pca-随机森林分类模型表现一般。其中该模型预测亳白芷模型的auc值、准确率、精确率、f1值均较低,表明模型对亳白芷的识别能力较差。
[0135]
与对照例1建立的pca-随机森林分类模型相比,本发明实施例1建立的t-sne-随机森林分类模型和实施例2建立的t-sne-svm分类模型的平均auc,平均准确率,平均精确率,平均召回率和宏f1值均明显提高。
[0136]
对照例2:建立pca-svm鉴别系统
[0137]
1样品的制备
[0138]
同对照例1。
[0139]
2太赫兹光谱的建立
[0140]
同对照例1。
[0141]
3光谱信息的选择及预处理
[0142]
同对照例1。
[0143]
4降维和可视化分析:主成分分析
[0144]
同对照例1。
[0145]
5建立pca-svm分类模型
[0146]
将pca降维处理后的前20个主成分作为输入特征导入r 4.0.3,将数据集分层抽样分为训练集和测试集,比例为7:3,采用e1071包建立支持向量机(svm)模型。由于是分类模型,因此type选择c-classification,kernel选择linear,用训练集训练模型,并对测试集进行预测,记录模型输出的混淆矩阵,表9。
[0147]
表9:pca-svm模型输出的混淆矩阵
[0148][0149]
根据混淆矩阵绘制每类分类模型的roc曲线,见图11,并计算auc值,根据混淆矩阵计算准确率、精确率、召回率、f1评价模型,见表10。
[0150]
表10:模型相关评价指标
[0151] 川白芷祁白芷禹白芷亳白芷平均auc69.40%76.00%63.10%71.50%70.00%准确率82.19%82.88%69.86%76.03%77.74%p56.00%64.71%44.19%59.09%58.62%r53.29%70.48%62.81%73.27%64.96%f154.61%67.47%51.88%65.42%59.84%
[0152]
结果表明,pca-svm分类模型的平均auc为70.00%,平均准确率为77.74%,平均精确率为58.62%,平均召回率为64.96%,宏f1值为59.84%,可见本对照例建立的用于鉴别
不同商品规格白芷的pca-svm分类模型表现一般。其中该模型预测禹白芷模型的auc值、准确率、精确率、f1值均较低,表明模型对禹白芷的识别能力较差。
[0153]
与对照例2建立的pca-svm分类模型相比,本发明实施例1建立的t-sne-随机森林分类模型和实施例2建立的t-sne-svm分类模型的平均auc,平均准确率,平均精确率,平均召回率和宏f1值均明显提高。
[0154]
综上,本发明提供了一种基于太赫兹光谱的用于鉴别白芷商品规格的系统。本发明首次提出利用太赫兹时域光谱技术对不同商品规格的白芷进行鉴别,本发明建立的系统能够有效鉴别以下多种不同商品规格的白芷:川白芷、祁白芷、禹白芷、亳白芷。与pca-随机森林分类模型以及pca-svm分类模型相比,本发明建立的t-sne-随机森林分类模型和t-sne-svm分类模型的平均auc,平均准确率,平均精确率,平均召回率和宏f1值均明显提高;其中t-sne-随机森林分类模型最优,鉴别川白芷、祁白芷的准确率达100%,鉴别禹白芷、亳白芷的准确率达97.95%,鉴别上述4种商品规格白芷的平均准确率达98.97%。利用本发明的系统能够快速、准确、无损地鉴别白芷商品规格,应用前景广阔。
转载请注明原文地址:https://tc.8miu.com/read-2116.html