基于变量优选和近红外光谱技术的红富士苹果产地溯源

张立欣1,2,杨翠芳1,陈杰1,张晓果3,张楠楠1,张晓1*

1(塔里木大学 信息工程学院,新疆维吾尔自治区 阿拉尔,843300)2(南京理工大学 理学院,江苏 南京,210094) 3(河南城建学院 数理学院,河南 平顶山,467036)

摘 要 为实现对红富士苹果的产地溯源,采集阿克苏、静宁、灵宝、烟台的红富士苹果近红外光谱数据,分别采用归一化、中心化、一阶导数、二阶导数、标准正态变换、多元散射校正(multivariate scattering correction,MSC)、小波变换、SG平滑变换、傅里叶变换等9种方法对原始光谱进行预处理,建立概率神经网络(probabilistic neural network,PNN)模型对苹果的产地进行识别。结果表明,MSC预处理之后的模型总准确率最高,为97.5%,阿克苏、静宁、灵宝、烟台4个产地的准确率分别为100%、100%、90%、100%。为简化模型,对MSC预处理之后的光谱数据分别采用主成分法、连续投影算法(successive projection algorithm,SPA)、竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)、随机蛙跳算法(random frog,RF)、CARS-SPA、RF-SPA选取特征变量建模。综合考虑正确率和模型的复杂性,最优模型MSC-CARS-SPA-PNN的测试集的总准确率为98.75%,4个产地的红富士苹果准确率分别达到了100%、100%、95%、100%。该研究可为红富士苹果的产地溯源提供理论参考。

关键词 苹果;近红外光谱;概率神经网络;连续投影算法;竞争性自适应重加权算法

中医认为苹果具有生津止渴、润肺除烦、健脾益胃、养心益气等功效,并且它的味道酸甜适口,营养丰富,因此,成为老幼皆宜的水果之一。由于环境因素、土壤特征等的不同,各产地苹果的品质存在差异,其口感也不尽相同,而这些差异无法通过肉眼直接准确地辨别,化学鉴定法费时费力,不适合进行大批量操作。

近红外光谱检测以其方便、高效、快速、无污染、无需对样品预处理等优点,被广泛应用到现代农业检测分析中。主要应用领域包括:农产品成熟度的鉴别[1]、复溶果品损伤的鉴别[2]、复溶同一农产品不同基因型的鉴别[3]、复溶农产品产地的鉴别[4]、农产品新鲜度[5]、货架期[6]、霉变程度[7]、掺假的检测[8]等。在光谱分析中,经常会受到背景等随机因素的干扰,因此需对光谱数据进行预处理[9],常用的光谱预处理方法有:一阶导数(first derivative,1-DER)[10]、二阶导数(second derivative,2-DER)[11]、标准正态变换(standard normal transformation,SNV)[12],多元散射校正(multivariate scatter correction,MSC)[13]、平滑变换(smooth transformation,SG)[14]、标准化[15]、归一化(normalization,NOR)[16]、中心化(centralization,CEN)[17]等。为降低模型的复杂度,减少共线性的干扰,需要提取特征波段[18],常用的方法有:连续投影算法(successive projection algorithm,SPA)[19]、竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)[2]、主成分分析(principal component analysis,PCA)[20]、随机蛙跳算法(random frog,RF)[21]等,也有将几种方法联合起来选择特征变量的。程介虹等[22]提出一种改进联合区间的RF选择特征波长,通过联合区间偏最小二乘法对全谱进行变量初选,此时得到的波长对目标变量变化最为敏感,将其作为RF的初始变量子集,以解决其运行时间较长、效率较低的问题。袁凯等[23]采用3步混合策略,提出了间隔偏最小二乘、区间变量迭代空间收缩法和迭代保留信息变量联用的特征变量选择方法,对生鲜鸡胸肉的近红外光谱进行特征波长选择,建立了鸡肉水分R检测模型。结果表明,建模波长数量经3步选择后减少为全光谱建模的0.76%,但模型精确度和稳定性逐步提高。FANG等[2]将SPA、CARS、过滤式特征选择。3种方法选取的特征变量组合起来建模,取得了很好的预测效果。

研究表明,光谱技术在农产品的检测分析中具有广泛的应用,但是,对苹果产地溯源的研究相对较少。目前见刊的有马永杰等[24]采用多种数据降维方法,建立k近邻(k-nearest neighbor, KNN)模型,对红富士苹果进行产地溯源,建模集和预测集的正确率分别达到97.3%和92.3%,模型的正确率有待进一步提高。本研究在前人研究的基础上,基于近红外光谱技术,以新疆阿克苏、甘肃静宁、河南灵宝和山东烟台的红富士苹果为研究对象,利用光谱分析的理论和方法,借助于光谱预处理算法,特征波长选择方法,建立概率神经网络模型对苹果的产地进行判别分析,重点研究不同的光谱预处理方法、不同的变量筛选方法对预测模型的影响,为实现红富士苹果的产地溯源提供理论参考。

1 材料与方法

1.1 材料与仪器

以阿克苏、静宁、灵宝和烟台的红富士苹果为实验对象,在实验中所使用的苹果均为2020年10月份在各苹果产地邮寄所得。挑选表面没有缺陷、直径范围为65~85 cm、大小均匀的苹果样品256个,去除表面的污垢,放置在冰柜内保存,温度控制在4 ℃,实验前分批拿出,待其恢复到室温(20~25 ℃)环境后开始实验。

实验中所用的推扫式高光谱分选系统(Hyperspectral Sorting System)为北京卓立汉光公司生产。光谱测定的范围为900~1 700 nm(实际可测量到1 750 nm),光谱分辨率5 nm,光谱采样点4 nm,选取果身中心前后左右4个方位,提取大小为20像素×15像素,4个面均进行提取,共1 200像素点,选取平均值为该样本反射率。通过自带的ENVI5.3软件提取ROI的光谱值,最后导出为Excel文件。

1.2 光谱数据的采集和校正

为了得到清晰的图像,在采集光谱数据前需要多次的相机聚焦和移动平台的速度测试,反复尝试后,确定平台的移动速度为0.35 cm/s,相机曝光时间为0.09 s。为了减少光照不均匀和暗电流对实验的影响,需要对采集到的光谱数据进行黑白校正,校正公式如公式(1)所示:

R=(I-B)/(W-B)

(1)

式中:R是校正后的光谱数据,I是原始光谱数据,W为对准白板采集到的数据,B是盖上相机镜头采集到的数据。

1.3 数据处理

1.3.1 光谱数据的预处理

在光谱检测的过程中,会受到样品背景等随机因素的影响,导致光谱数据中含有噪声,为提高模型的准确性和稳健性,需要对数据进行预处理,采用的方法有NOR、CEN、1-DER、2-DER、SNV、MSC、小波变换(wave transformation,WT)、SG、傅里叶变换(Fourier transformation,FT)。

1.3.2 特征波长提取

光谱能够体现物质所含成分及含量,但同时包含大量的冗余信息,为降低模型的复杂性,减少共线性的影响,因此,需要提取特征波长。采用的方法有PCA、SPA、CARS和RF。

1.3.3 判别分析模型

概率神经网络(probabilistic neural network,PNN)是径向基网络的一个分支,属于前馈网络的一种。它具有学习过程简单、训练速度快、分类更准确、容错性好等优点。

1.3.4 模型验证

将样本以2∶1的比例间隔分为训练集和测试集,依靠训练集建立上述判别分析模型,测试集将通过已经建立好的PNN模型进行验证,以正确率为标准来评判各类方法的优劣。

2 结果与分析

采集的红富士苹果光谱数据中,剔除异常值后,共得到阿克苏、静宁、灵宝、烟台4个产地的苹果样本各60个,其原始光谱曲线如图1所示。

图1 原始光谱图
Fig.1 Original spectrogram

不同产地的红富士苹果样本的光谱曲线变化趋势大致相同,反映不同产地的苹果之间也有着极大的相似性。但是在一些波峰和波谷处存在明显的偏离,这是由于不同产地的苹果内部成分含量的多少存在差异。在1 060 nm处也有1个明显的波峰,这与C—O—C基团有关;在1 440 nm处有1个明显的波谷,这与H2O的二倍频吸收带有关。成分含量上的差异会导致光谱曲线的差异,这为基于光谱技术对苹果产地的识别研究提供了信息。

阿克苏、静宁、灵宝、烟台4个产地的苹果样本均以2∶1的比例间隔产生训练集和测试集,得训练集中4个产地的苹果样本各为40个,即160个苹果样本组成训练集,测试集中4个产地的苹果样本各为20个,即80个苹果样本组成测试集。

2.1 光谱数据的预处理

在光谱检测的过程中,会受到样品背景等随机因素的影响,导致光谱数据中含有噪声,为提高模型的准确性和稳健性,需要对数据进行预处理。分别采用NOR、CEN、1-DER、2-DER、SNV、MSC、WT、SG、FT等9种预处理方法对原始光谱进行预处理,以消除各类随机因素对模型性能的干扰。分别以没有经过预处理的原始光谱(no pretreat, NO)和经过预处理之后的光谱数据作为输入自变量,分别建立线性的偏最小二乘判别分析(partial least squares discrimination analysis,PLSDA)模型和非线性的PNN模型,对苹果的产地进行判别,其结果如表1和表2所示。

表1 不种预处理方法下PLSDA模型的准确率 单位:%

Table 1 Accuracy of PLSDA model under different preprocessing methods

预处理方法地区阿克苏静宁灵宝烟台总准确率NO10040558570.00NOR10075409577.50CEN10055508071.251-DER10040505060.002-DER10045504560.00SNV10040556565.00MSC10095856085.00WT10055509575.00SG100505510073.75FT10040558570.00

由表1可知,不同的预处理方式下,PLSDA模型的总准确率为60%~85%,以总准确率最高为标准,最优预处理方法为MSC,此时阿克苏、静宁、灵宝、烟台4个产地的苹果识别率分别为100%、95%、85%、60%。由表2可知,PNN模型总准确率为86.25%~97.50%,最优预处理方法亦为MSC,此时阿克苏、静宁、灵宝、烟台4个产地的苹果识别率分别为100%、100%、90%、100%。

表2 不种预处理方法下PNN模型的准确率 单位:%

Table 2 Accuracy of PNN model under different preprocessing methods

预处理方法地区阿克苏静宁灵宝烟台总准确率NO100806510086.25NOR1001008510096.25CEN100100659590.001-DER100100958595.002-DER1001001008596.25SNV1001008010095.00MSC1001009010097.50WT1001006510086.25SG100806510086.25FT100806510086.25

比较表1和表2可以发现,在相同的预处理方式下,PNN模型的总准确率高于PLSDA模型的总准确率,这是因为苹果内部的结构复杂,光在苹果内部的传输是一种复杂的结构,拥有非线性判别能力的PNN优于线性的PLSDA。为提高模型的识别率,后续的判别分析模型中,均采用MSC预处理之后的光谱数据,建立PNN模型。

2.2 特征波长的选取

对MSC预处理之后的光谱数据,分别采用PCA、SPA、CARS提取光谱数据中的重要变量作为建模输入自变量。

2.2.1 PCA选取特征变量

采用PCA算法提取主成分,各主成分解释的总方差如表3所示。

表3 解释的总方差
Table 3 Eexplained total variance

主成分特征值贡献率/%累计贡献率/%1 201.70 80.04 80.04223.11 9.17 89.213 14.785.87 95.0845.89 2.3497.42

前3个主成分累计贡献率达到95%以上,因此,选取前3个主成分,作为下一步判别分析模型的输入自变量。不同产地的苹果光谱数据前3个主成分的得分分别如图2所示。

图2 主成分图
Fig.2 Principal component diagram

由图2可知,阿克苏红富士苹果的前3个主成分可以和其他产地的分开,而其他3个产地的苹果光谱数据之间重叠比较多,这将影响模型的识别效果。

2.2.2 SPA选取特征变量

SPA进行波长变量选择,指定波长数为1~20,采用均方根误差最小来确定最终参与建模的波长变量个数,选取过程如图3所示。

图3 SPA选取变量过程
Fig.3 Variable selection process

由图3可知,随着所选的特征波长数的增加,参与建模的波长变量数增加,而均方误差整体呈现递减的趋势。当选取特征波长变量数为14时,均方根误差为0.318 4,之后均方误差逐渐趋于平缓,此时,若再多选取变量,过多的波长变量参与建模会增加模型的复杂性,而均方根误差并不会有太大的变化。因此,最终选取14个波长变量参与建模,选取的特征波长如图4所示。

图4 SPA选取的特征变量
Fig.4 Selected variable

最终选取的14个特征波长为图4中的小方块对应的横坐标,即对应波长分别为911.06、923.53、929.78、980.02、1 092.04、1 175.88、1 368.46、1 402.29、1 453.03、1 529.06、1 693.72、1 704.37、1 711.48、1 715.03 nm。

2.2.3 CARS选取特征变量

采用CARS方法进行特征波长的选取,蒙特卡罗方法抽样迭代200次,抽取过程如图5所示。

a-变量优化过程;b-均方根误差变化趋势;c-回归系数变化
图5 CARS 选取变量结果
Fig.5 Variable selection results

从抽取结果来看,到第82次迭代时,均方根误差达到最小为0.290 1,此时选出35个波长变量,对应的波长为:914.17、920.41、929.78、932.90、967.41、1 127.08、1 133.56、1 136.81、1 146.55、1 375.21、1 378.59、1 405.68、1 409.08、1 412.47、1 415.87、1 419.27、1 456.80、1 484.23、1 487.67、1 491.11、1 494.55、1 497.99、1 501.43、1 504.88、1 508.33、1 515.23、1 522.14、1 529.06、1 581.17、1 584.66、1 588.15、1 591.64、1 697.27、1 700.82、1 736.41 nm。

2.2.4 RF选取特征变量

采用RF算法提取特征波长变量,迭代1 000次,每个波长变量被选中的频率如图6所示。

图6 每个波长变量被选中的概率图
Fig.6 Probability diagram of each wavelength variable being selected

由图6可知,波长变量被选中的概率范围为0~0.941 0,优先选择率较大的波长变量,采用交叉验证的均方根误差最小来确定最终选取的变量个数,均方根误差和所选变量个数的关系如图7所示。

图7 RF选取变量过程
Fig.7 Process of selecting variables by RF method

由图7可知,随着所选变量个数的增加,均方根误差迅速下降,当所选变量个数为82时,交叉验证的均方根误差最小,为0.272 2。所选取的变量为图6中概率大于0.088 0的波长,即图6中概率在水平线上方的波长变量,所对应的波长分别为:911.06、914.17、917.23、920.41、923.53、929.78、932.90、945.43、957.98、967.41、970.56、976.86、980.02、989.49、998.98、1 002.15、1 008.48、1 014.83、1 049.87、1 065.87、1 078.70、1 101.23、1 114.14、1 130.32、1 136.81、1 143.30、1 146.55、1 149.80、1 153.06、1 156.31、1 159.57、1 166.09、1 169.35、1 225.09、1 234.98、1 238.28、1 241.59、1 244.89、1 278.04、1 308.03、1 344.89、1 348.25、1 351.61、1 365.09、1 371.83、1 375.21、1 385.35、1 398.90、1 405.68、1 412.47、1 415.87、1 419.27、1 484.23、1 491.11、1 494.55、1 497.99、1 501.43、1 504.88、1 508.33、1 511.78、1 515.23、1 522.14、1 529.06、1 532.52、1 549.85、1 570.71、1 591.64、1 605.63、1 658.34、1 665.41、1 672.47、1 676.01、1 679.55、1 683.09、1 686.63、1 690.17、1 693.72、1 697.27、1 700.82、1 711.48、1 715.03、1 736.41 nm。

由于CARS和RF算法选出的 特征变量的个数仍然比较多,变量之间可能还存在共线性,为简化模型,将CARS和RF选出的特征变量再进一步优选。

2.2.5 CARS-SPA选取特征变量

对CARS方法选取的特征波长变量,采用SPA算法进一步优选,变量的选取过程如图8所示。

图8 CARS-SPA优选变量过程
Fig.8 Process of optimizing variables by CARS-SPA method

随着所选变量个数的增加,均方根误差呈现递减的趋势,当选取变量个数为16时,均方根误差达到最小0.261 9。此时选取的特征波长变量如图9中小方块所对应的横坐标。

图9 CARS-SPA优选的变量
Fig.9 Preferred variables by CARS-SPA method

最后选出16个特征波长变量,对应的波长为:920.41、929.78、967.41、1 127.08、1 133.56、1 146.55、1 375.21、1 378.59、1 405.68、1 412.47、1 415.87、1 504.88、1 581.17、1 591.64、1 700.82、1 736.41 nm。

2.2.6 RF-SPA选取特征变量

对RF方法选取的特征波长变量,采用SPA算法进一步优选,变量的选取过程如图10所示。

图10 RF-SPA优选变量过程
Fig.10 Process of optimizing variables by RF-SPA method

随着所选变量个数的增加,均方根误差整体下滑,综合考虑均方根误差和模型的复杂性,当所选变量为17时,均方根误差为0.260 9,之后,随着变量个数的增加,均方根误差并无明显减少的趋势,因此,选取17个特征波长变量。所选取的变量波长如图11中小方块对应的横坐标。

图11 RF-SPA 优选的变量
Fig.11 Preferred variables by RF-SPA method

最后选出的17个特征波长变量对应的波长为:911.06、914.17、920.41、929.78、932.90、980.02、1 114.14、1 169.35、1 371.83、1 405.68、1 453.03、1 515.23、1 591.64、1 658.34、1 693.72、1 700.82、1 736.41 nm。

2.3 建模结果分析

以选出的特征波长变量作为输入变量,建立PNN判模型,对苹果的产地进行判别分析。模型识别的准确率如表4所示。

表4 不同的变量选取方式下模型的准确率 单位:%

Table 4 Accuracy of the model under different variable selection methods

变量选择方法变量个数地区阿克苏静宁灵宝烟台总准确率PCA310050508571.25SPA12100958510095CARS351001009510098.75RF82100100959597.50CARS-SPA161001009510098.75RF-SPA171001008010095

由表4可知,总准确率范围为71.25%~100%,PCA方法选取的特征变量建模识别率最低,这是因为PCA在选取过程中,只是对样品的自变量进行重新组合,没有考虑因变量的影响。SPA算法可以最大程度地降低被选中变量间的共线性问题,但是对于光谱而言,有效变量之间的投影距离不一定最大,因此,筛选出的变量子集中可能包含一些无用信息,甚至是干扰信息,降低模型的泛化能力。CARS和RF算法选出的特征变量个数比较多,无法克服变量之间的共线性的影响,这都将会影响模型的泛化能力。CARS-SPA和RF-SPA在初选特征变量的基础上再进一步优选,选出的变量个数适中,消除了变量之间的共线性。其中CARS-SPA选出的特征变量建模,阿克苏、静宁、灵宝、烟台4个产地的红富士苹果识别率分别达到了100%、100%、95%、100%,总识别率达到了98.75%。综合考虑识别率和模型的复杂性,最优模型为MSC-CARS-SPA-PNN模型。

2.4 与KNN模型的比较

采用马永杰等[24]的K最近邻算法,分别以PCA、SPA、CARS、RF、CARS-SPA、RF-SPA选出的特征波长变量作为输入变量,建立KNN模型。k的取值范围为3~9,通过交叉验证的方式确定最佳的k值,识别结果如表5所示。

表5 KNN的识别结果 单位:%

Table 5 Discriminant results of KNN model

变量选择方法k值地区阿克苏静宁灵宝烟台总准确率PCA910050507062.50SPA410095859593.75CARS31001009510097.50RF3100100959597.50CARS-SPA5100100909596.25RF-SPA3100100959597.50

比较表4和表5可知,在PCA、SPA、CARS、CARS-SPA变量选取方式下,PNN模型的总准确率均高于KNN模型的总准确率;在RF变量选取方式下,PNN模型和KNN模型有相同的总准确率;在RF-SPA变量选取方式下,PNN模型的总准确率略低于KNN模型的总准确率。但是,在CARS-SPA变量选取方式下,PNN模型的总准确率达到最高98.75%。

3 讨论与结论

采集阿克苏、静宁、灵宝和烟台的红富士苹果近红外光谱数据,分别进行归一化、中心化、一阶导数、二阶导数、标准正态变换、多元散射校正、小波变换、平滑变换、傅里叶变换共9种预处理方法,建立概率神经网络模型对苹果产地进行识别,结果表明,多元散射校正预处理的效果最优,4个产地的苹果样品识别率分别为100%、100%、90%、100%,总识别率为97.5%。

为了简化模型提高识别率,将多元散射校正预处理后的光谱数据分别采用主成分法、连续投影算法、竞争性自适应重加权算法、随机蛙跳算法、竞争性自适应重加权-连续投影算法、随机蛙跳-连续投影算法选取特征变量建模。研究结果表明,竞争性自适应重加权-连续投影算法效果最佳,MSC-CARS-SPA-PNN模型的总识别率达到了98.75%,4个产地的红富士苹果识别率分别达到了100%、100%、95%、100%。因此,近红外光谱技术能够快速、无损地识别苹果的产地,为红富士苹果的产地溯源提供理论参考。

参考文献

[1] 曹晓峰, 任惠如, 李幸芝, 等.高光谱技术结合特征波长/光谱指数对冬枣成熟度可视化判别[J].光谱学与光谱分析, 2018,38(7):2 175-2 182.

CAO X F, REN H R, LI X Z, et al.Discrimination of winter jujube’s maturity using hyperspectral technique combined with characteristic wavelength and spectral indices[J].Spectroscopy and Spectral Analysis, 2018,38(7):2 175-2 182.

[2] FANG Y M, YANG F, ZHOU Z, et al.Hyperspectral wavelength selection and integration for bruise detection of Korla pears[J].Journal of Spectroscopy, 2019:6715247.

[3] 曹晓兰, 陈星明, 张帅, 等.高光谱参数和逐步判别的苎麻品种识别[J].光谱学与光谱分析, 2018,38(5):1 547-1 551.

CAO X L, CHEN X M, ZHANG S, et al.Ramie variety identification based on the hyperspectral parameters and the stepwise discriminant analysis[J].Spectroscopy and Spectral Analysis, 2018,38(5):1 547-1 551.

[4] 王磊, 覃鸿, 李静,等.近红外高光谱图像的宁夏枸杞产地鉴别[J].光谱学与光谱分析, 2020,40(4):1 270-1 275.

WANG L, QIN H, LI J, et al.Geographical origin identification of Lycium barbarum using near-infrared hyperspectral imaging[J].Spectroscopy and Spectral Analysis, 2020,40(4):1 270-1 275.

[5] YE R K, CHEN Y Y, GUO Y C, et al.NIR hyperspectral imaging technology combined with multivariate methods to identify shrimp freshness[J].Applied Sciences, 2020, 10(16):5 498.

[6] 邵园园, 王永贤, 玄冠涛, 等.高光谱成像的猕猴桃货架期快速预测[J].光谱学与光谱分析, 2020,40(6):1 940-1 946.

SHAO Y Y, WANG Y X, XUAN G T, et al.Hyperspectral imaging technique for estimating the shelf-life of kiwifruits[J].Spectroscopy and Spectral Analysis, 2020,40(6):1 940-1 946.

[7] 戴松松, 殷勇.基于高光谱信息特征选择的玉米霉变程度Fisher鉴别方法[J].食品与机械, 2018,34(3):68-72.

DAI S S, YIN Y.Fisher discriminant analysis for moldy degrees of maize samples based on the feature selection of hyperspectral data[J].Food & Machinery, 2018,34(3):68-72.

[8] 孙宗保, 王天真, 李君奎, 等.高光谱成像的牛肉丸掺假检测[J].光谱学与光谱分析,2020,40(7):2 208-2 214.

SUN Z B, WANG T Z, LI J K, et al.Detecting adulterated beef meatball using hyperspectral imaging technology[J].Spectroscopy and Spectral Analysis, 2020,40(7):2 208-2 214.

[9] 第五鹏瑶, 卞希慧, 王姿方, 等.光谱预处理方法选择研究[J].光谱学与光谱分析, 2019, 39(9):2 800-2 806.

DIWU P Y, BIAN X H, WANG Z F, et al.Study on the selection of spectral preprocessing methods[J].Spectroscopy and Spectral Analysis, 2019, 39(9):2 800-2 806.

[10] 杨倩圆, 谢定, 郑瑞娜, 等.淀粉液化液葡萄糖当量值的近红外快速检测[J].食品工业科技,2019,40(9):248-252.

YANG Q Y, XIE D, ZHENG R N, et al.Fast detection of starch liquefying solution′s dextrose equivalent value by near infrared spectroscopy[J].Science and Technology of Food Industry,2019,40(9):248-252.

[11] 王亚轩, 谭峰,辛元明,等.大米拉曼光谱不同预处理方法的相近产地鉴别研究[J].光谱学与光谱分析, 2021, 41(2):565-571.

WANG Y X, TAN F, XIN Y M, et al.Identification of rice from similar areas with different pretreatment methods of Raman spectrum[J].Spectroscopy and Spectral Analysis, 2021, 41(2):565-571.

[12] DONG J L, GUO W C, WANG Z W, et al.Nondestructive determination of soluble solids content of ′fuji′ apples produced in different areas and bagged with different materials during ripening[J].Food Analytical Methods, 2016, 9(5):1 087-1 095.

[13] WANG F, ZHAO C J, YANG G J.Development of a non-destructive method for detection of the juiciness of pear via VIS/NIR spectroscopy combined with chemometric methods[J].Foods(Basel,Switzerland), 2020, 9(12):1 778.

[14] 张娟娟, 席磊, 杨向阳, 等.砂姜黑土有机质含量高光谱估测模型构建[J].农业工程学报, 2020, 36(17):135-141.

ZHANG J J, XI L, YANG X Y, et al.Construction of hyperspectral estimation model for organic matter content in Shajiang black soil[J].Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(17):135-141.

[15] 褚小立. 化学计量学方法与分子光谱分析技术[M].北京:化学工业出版社, 2011.

CHU X L.Molecular Spectroscopy Analytical Technology Comblned with Chemometrics and Its Applications[M].Beijing:Chemical Industry Press, 2011.

[16] 何勇, 刘飞, 李晓丽, 等.光谱及成像技术在农业中的应用[M].北京:科学出版社, 2016.

HE Y, LIU F, LI X L, et al.Spectroscopy and Imaging Technology in Agriculture[M].Beijing:Science Press,2016

[17] 张立欣, 杨翠芳, 陈杰, 等.基于变量优选的苹果糖分含量近红外光谱检测[J].食品与机械,2021,37(10):112-118.

ZHANG L X, YANG C F, CHEN J, et al.Detection of sugar content in apple by near infrared spectroscopy based on variable optimization[J].Food & Machinery,2021,37(10):112-118.

[18] 宋相中, 唐果, 张录达, 等.近红外光谱分析中的变量选择算法研究进展[J].光谱学与光谱分析, 2017, 37(4):1 048-1 052.

SONG X Z, TANG G, ZHANG L D, et al.Research advance of variable selection algorithms in near infrared spectroscopy analysis[J].Spectroscopy and Spectral Analysis, 2017, 37(4):1 048-1 052.

[19] LI Y, GUO Y J, LIU C, et al.SPA combined with swarm intelligence optimization algorithms for wavelength variable selection to rapidly discriminate the adulteration of apple juice[J].Food Analytical Methods, 2017, 10(6):1 965-1 971.

[20] WU Y, LI L L, LIU L, et al.Nondestructive measurement of internal quality attributes of apple fruit by using NIR spectroscopy[J].Multimedia Tools and Applications, 2019, 78(4):4 179-4 195.

[21] 陈蓓, 郑恩让,郭拓.多种光谱变量筛选算法在红参提取近红外建模中的应用[J].光谱学与光谱分析,2021,41(8):2 443-2 449.

CHEN B, ZHENG E R, GUO T.Application of various algorithms for spectral variable selection in NIRS modeling of red ginseng extraction[J].Spectroscopy and Spectral Analysis, 2021,41(8):2 443-2 449.

[22] 程介虹, 陈争光.改进的联合区间随机蛙跳算法的近红外光谱波长选择[J].光谱学与光谱分析, 2020, 40(11):3 451-3 456.

CHENG J H, CHEN Z G.Wavelength selection of near-infrared spectra based on improved SiPLS-random frog algorithm[J].Spectroscopy and Spectral Analysis, 2020, 40(11):3 451-3 456.

[23] 袁凯, 张志勇, 席前, 等.3步混合变量选择策略在鸡肉近红外水分检测中的应用[J].食品与机械, 2020, 36(9):72-76;81.

YUAN K, ZHANG Z Y, XI Q, et al.Research on the application of three-step hybrid variable selection strategy in chicken moisture detection by near infrared[J].Food & Machinery, 2020, 36(9):72-76;81.

[24] 马永杰, 郭俊先, 郭志明, 等.基于近红外透射光谱及多种数据降维方法的红富士苹果产地溯源[J].现代食品科技,2020,36(6):303-309.

MA Y J,GUO J X, GUO Z M, et al.Origin tracing of red fuji apple based on near infrared transmission spectrum and various dimension reduction methods[J].Modern Food Science & Technology,2020,36(6):303-309.

Tracing the origin of Red Fuji apple based on variable optimization and near-infrared spectroscopy

ZHANG Lixin1,2,YANG Cuifang1,CHEN Jie1,ZHANG Xiaoguo3, ZHANG Nannan1,ZHANG Xiao1*

1(College of Information Engineering, Tarim University, Alar Xinjiang Uygur Autonomous Region, Alaer 843300, China)2(School of Science, Nanjing University of Science and Technology, Nanjing 210094, China)3(School of Mathematics and Physics, Henan University of Urban Construction, Pingdingshan 467036, China)

ABSTRACT Near-infrared spectrum data of Red Fuji apples from Aksu, Jingning, Lingbao, and Yantai were collected to trace the origin of Red Fuji apples. Nine methods including normalization (NOR), centralization (CEN), first derivative (1-DER), second derivative (2-DER), standard normal transform (SNV), multivariate scattering correction (MSC), wavelet transform (WT), SG smoothing transform (SG), and Fourier transform (FT) were used to preprocess the original spectrum. Results showed that the model after multivariate scattering correction pretreatment had the highest recognition rate of 97.5%, and the recognition rates of Aksu, Jingning, Lingbao, and Yantai were 100%, 100%, 90%, and 100%, respectively. To simplify the model, principal component analysis (PCA), successive projection algorithm (SPA), competitive adaptive reweighted sampling (CARS), random frog (RF), and their combination algorithms were used to select characteristic variables. Results showed that the total recognition rate of MSC-CARS-SPA-PNN was 98.75%, and the recognition rates of Red Fuji apples from four producing areas were 100%, 100%, 95%, and 100%, respectively, which could provide theoretical reference for the origin discrimination of Red Fuji apples.

Key words apple; near-infrared spectrum; probabilistic neural network; successive projection algorithm; competitive adaptive reweighted sampling

DOI:10.13995/j.cnki.11-1802/ts.029991

引用格式:张立欣,杨翠芳,陈杰,等.基于变量优选和近红外光谱技术的红富士苹果产地溯源[J].食品与发酵工业,2022,48(20):36-43.ZHANG Lixin,YANG Cuifang,CHEN Jie, et al.Tracing the origin of Red Fuji apple based on variable optimization and near-infrared spectroscopy[J].Food and Fermentation Industries,2022,48(20):36-43.

第一作者:博士,副教授(张晓副教授为通信作者,E-mail:824607287@qq.com)

基金项目:塔里木大学校长基金(TDZKSS202006);国家自然科学基金(31960503);塔里木大学农业工程实验室重点项目(TDNG20180301);塔里木大学-中国农业大学联合基金(ZNLH202102)

收稿日期:2021-11-06,修改日期:2021-12-17