近红外光谱技术结合反向区间偏最小二乘算法-连续投影算法预测哈密瓜可溶性固形物含量

郭阳1,史勇1,郭俊先1,李雪莲1*,黄华2

1(新疆农业大学 机电工程学院,新疆 乌鲁木齐,830052)2(新疆农业大学 数理学院,新疆 乌鲁木齐,830052)

摘 要 采用近红外光谱技术结合数据降维的方法,建立了哈密瓜可溶性固形物含量的预测模型,对原始光谱进行特征区间选择,共选取了6个子区间,432个光谱变量;将6个联合子区间的光谱数据分别结合特征选择竞争性自适应重加权采样算法、遗传算法、连续投影算法(successive projections algorithm,SPA)提取特征波长;再使用选取的特征波长以及特征区间波长作为模型的输入变量,利用极限学习机和偏最小二乘算法(partial least squares,PLS)建立哈密瓜可溶性固形物含量预测模型。结果显示,反向区间偏最小二乘算法+SPA+PLS建立的预测模型最优,模型的校正集相关系数为0.923 4,预测集相关系数为0.878 8,模型能够准确预测哈密瓜可溶性固形物含量。

关键词 哈密瓜;反向区间偏最小二乘算法-连续投影算法;偏最小二乘算法;可溶性固形物;无损检测

DOI:10.13995/j.cnki.11-1802/ts.027494

引用格式:郭阳,史勇,郭俊先,等.近红外光谱技术结合反向区间偏最小二乘算法-连续投影算法预测哈密瓜可溶性固形物含量[J].食品与发酵工业,2022,48(2):248-253.GUO Yang,SHI Yong,GUO Junxian, et al.Prediction of soluble solids content in Hami melon by combining near-infrared spectroscopy and BiPLS-SPA technology[J].Food and Fermentation Industries,2022,48(2):248-253.

第一作者:硕士研究生(李雪莲副教授为通信作者,E-mail:250585997@qq.com)

基金项目:新疆维吾尔自治区教育厅自然科学重点项目(XJEDU2020I009);国家自然科学基金面上项目(61367001)

收稿日期:2021-03-26,改回日期:2021-05-11

哈密瓜是新疆的特色农产品之一,其果肉鲜嫩,爽脆可口,深受广大消费者青睐,其中,可溶性固形物含量与其口感有很大关系。哈密瓜在生长过程中受田间环境、植株生长形态、植株冠层营养等因素影响,造成可溶性糖积累分布不均匀、含量低。可溶性固形物主要是指可溶性糖类,其是衡量哈密瓜品质好坏的重要指标,同时传统的哈密瓜中可溶性固形物含量的检测方法的准确率高,但需破坏样本。近年来,近红外光谱检测技术因具有快速、准确及多组分同时检测等特点,已被应用于椰汁品质[1]、鸡蛋新鲜度[2]、肉类品质[3-4]、石榴糖度[5]、梨的可溶性固形物[6-7]、液态奶三聚氰胺[8]等农业生产检测方面。哈密瓜可溶性固形物检测方面,张德虎等[9]采用反向区间偏最小二乘算法(backward interval partial least squares,BiPLS)、间隔偏最小二乘算法(interval partial least squares,iPLS)、联合区间偏最小二乘算法(synergic interval partial least squares,SiPLS)等光谱波长筛选方法提取哈密瓜糖度特征波长,其中最优的为BiPLS,优化后的预测模型校正集和预测集的均方根误差(root mean squared error,RMSE)分别为0.996 1和1.18;GREENSILL等[10]利用4种光电二极管阵列近红外光谱仪结合7种不同光谱预处理方法建立了甜瓜的可溶性固形物含量预测模型,其中基于改进的小波变化的光谱预处理方法最优,其预测模型的预测集RMSE和标准偏差分别为1.26和0.87;GUTHRIE等[11]建立了移动窗口偏最小二乘甜瓜总糖含量的预测模型,其预测集RMSE和标准偏差分别为1.1和0.04;毕智健[12]比较了哈密瓜样品中可见近红外光谱数据的预处理方法的预测效果;马本学等[13]利用高光谱成像技术比较了偏最小二乘算法(partial least squares,PLS)、逐步多元线性回归和特征提取3种建模方法对带皮和去皮哈密瓜糖度的检测效果。孙静涛等[14]对多元散射校正处理过的光谱结合竞争性自适应重加权采样算法(competitive adaptive reweighted sampling,CARS)、连续投影算法(successive projections algorithm,SPA)、CARS-SPA算法和支持向量机(support vector machine,SVM)对哈密瓜可溶性固形物进行预测,最优的预测模型为竞争性自适应重加权采样法+连续投影算法+支持向量机(CARS-SPA-SVM),其预测集RMSE和标准偏差分别为0.402 7和2.941。水果可溶性固形物无损检测中,李雄等[15]利用变异系数法和偏最小二乘法建立了柚子糖度无损检测的模型,其预测集均方根误差(root mean square error of prediction,RMSEP)为0.55;DONG等[16]研究苹果中可溶性固形物含量无损测定时,分别建立了偏最小二乘回归、最小支持向量机(least-squares supports vector machine,LS-SVM)、极限学习机(extreme learning machine,ELM)模型,最优预测模型为LS-SVM模型,其模型预测集相关系数为0.878;李江波等[17]利用CARS、SPA、蒙特卡罗无信息变量消除算法筛选特征变量,然后分别建立PLS和多元线性回归(multiple linear regression,MLR)的定量预测模型,对比分析发现MLR的预测精度优于PLS,其R2、RMSEP、剩余预测残差分别为0.909 7、0.348 4、3.327 8。

综上,特征区间选择和特征波长选择在水果理化性质无损测定中应用非常广泛,而目前对哈密瓜可溶性固形物建立的定量分析模型中数据降维的方法多是单一的特征波长区间选择和特征波长提取方法,但模型的输入变量的维度仍然较高,且模型的稳定性也较低,然而有关特征波长区间选择结合特征波长选择对哈密瓜可溶性固形物定量分析模型进行优化的研究尚未见报道;同时哈密瓜成熟采收时,其是否可以采摘主要通过果皮表面颜色的变化以及哈密瓜可溶性固形物含量来进行判断,其中可溶性固形物含量与哈密瓜成熟度之间存在显著相关(P<0.01),不同成熟度的哈密瓜之间的可溶性固形物含量相差巨大,因此可溶性固形物含量是判断哈密瓜是否可以采摘的关键指标[18]。故本研究拟采用BiPLS分别结合CARS、遗传算法(genetic algorithm,GA)、SPA对光谱数据进行数据降维,同时应用非线性模型ELM以及PLS算法建立预测模型,并比较所有模型的优劣,最终选取最优的模型作为哈密瓜可溶性固形物含量的无损检测模型,旨在为哈密瓜可溶性固形物含量的无损检测技术的发展提供依据。

1 材料与方法

1.1 试验地点

选取新疆哈密地区巴里坤县三塘湖镇中湖村为试验地点,该地形呈西高东低之势,气候干燥酷热多风,属典型的大陆性气候。年平均大风日116.6 d,年日照时间3 373.4 h,有效积温3 440 ℃,无霜期169 d。极端最高气温40.3 ℃、最低气温-28.5 ℃,年平均气温8 ℃。年平均降水量34.4 mm,蒸发量3 790 mm。试验田位置为东经1 200.144°,北纬3 020.626°。

甜瓜品种:金华蜜25号,俗称“新86”,晚熟品种,生育期100 d,单瓜重3.5 kg左右。

1.2 试验样本与数据采集

待哈密瓜成熟后,从试验田一次性随机采摘144个无病虫害和损伤的哈密瓜作为试验样本,标记编号运回实验室。将所有样本在室温下放置24 h后开始试验,并尽可能地快速完成试验。光谱数据的采集使用美国海洋光学公司的maya2000微型光纤光谱仪,光谱测定范围为200~1 100 nm,光谱采样间隔0.2 s。数据采集前,光谱设备预热30 min,主要工作参数设置包括积分时间7 200 s,扫描次数10,平滑点数3。光谱采集位置选取每个样本赤道中间部位,每隔120°采集1次,每个样本采集3个光谱数据,取平均值作为样本的原始光谱数据。

可溶性固形物含量测定使用ATAGO PR-101型数字折光仪(日本爱拓),测量范围为0~45 °Brix,测量精度为0.1 °Brix。切取光谱采集处对应的内缘果肉并榨汁,将汁液滴至折光仪的测量区域,重复测定读数直至3次读数稳定,记录为当前样本的可溶性固形物含量。

1.3 特征区间的选择及数据降维

采集原始光谱数据过程中除了包含样品本身的特征信息外,还掺杂一些影响模型准确性的无用信息,同时获取的光谱数据量大且复杂,如果将所有的数据都用于建模,这样不仅费时费力还影响模型的稳定性,并且大量的数据计算时会影响可溶性固形物含量的无损检测效率,不利于后期在线检测。因此有必要选取与可溶性固形物相关性较高的敏感波段,然后再提取关键的特征波长,简化模型的复杂程度,提高模型的预测精度。

BiPLS是在iPLS的基础上改进的特征波长区间筛选算法,虽然与SiPLS相比,该算法的最终结果仍然是筛选相关性的几个子区间联合建模的方法,但BiPLS具有后向的只出不进的特征波长区间筛选的优势,其每次将相关性最差的区间永远剔除出去,最后留下的子区间是与可溶性固形物相关性最高的光谱变量子区间。故本研究使用BiPLS将全波段的光谱分成不同的区间,然后选择相关性最好的区间进行特征波长筛选。对BiPLS算法选取的区间分别使用CARS、GA、SPA完成进一步的特征波长的提取,实现数据降维的目的。

1.4 预测模型与模型评价

ELM相比于前馈神经网络等在运算过程中不需设定大量的参数,且运算速度更快,只需按照实际情况选择合适的激励函数,在算法运行过程中随机产生网络的输入权值及隐含层单元偏置,且不需要调整,比较容易实现[19]。因此,ELM具有学习速度快,高强的泛化能力促使模型有唯一的最优解等特点。PLS是一种基于因子分析的多变量校正方法,在分析过程中,自变量和因变量数据的分解同时进行,并将因变量引入自变量数据分解过程中,使得自变量与分析组分相关[20]。并且该方法在定量分析中应用非常广泛。

预测模型的评价指标为相关系数(R)和RMSE。其中校正集均方根误差(root mean square error of calibration, RMSEC)、预测集均方根误差为RMSEP;校正集相关系数为Rc、预测集相关系数为Rp,预测模型的相关系数越大表示相关性越高;预测模型的RMSEP越小,模型的预测效果越好。R和RMSE的计算方程如公式(1)和公式(2)所示:

(1)

(2)

式中:xi,光谱数据;相应变量的平均值;yi,实际值;预测值;N,样本数。

以上光谱数据处理和定量预测模型的建立均使用Matlab2018b软件完成(美国,MathWorks),采用Matlab2018b软件绘图。

2 结果与分析

2.1 样本划分

考虑到光谱理化值共生距离法[21]算法能同时研究光谱特征与样本理化性质的能力,使用该划分法按3∶1将原始数据划分为样本校正集和预测集,其测定结果见表1。

表1 哈密瓜的可溶性固形物质量分数
Table 1 Mass fraction of soluble solids in Hami melon

样本样本数可溶性固形物/°Brix平均值最大值最小值校正集10813.915.911.9预测集3613.615.512.5

由表1可知,哈密瓜可溶性固形物含量的最大值和最小值都被划分到了校正集中,并且划分到预测集的数据值均在校正集区间内,表明利用光谱理化值共生距离发划分的样本集的分布合理,所建的预测模型也能产生较好的结果。

2.2 基于BiPLS的特征区间选择

BiPLS是以iPLS为基础,对光谱数据进行特征波段选择的方法,该方法是一种只进不出的算法,其基本原理是将全光谱数据等均分成N个子区间,然后对全光谱数据建立PLS的回归预测模型,以RMSE作为模型的评价,对各个子区间进行剔除,每次剔除的子区间是RMSE值最小所对应的子区间,最终对所有剔除出来的子区间联合建模。如表2所示,是不同区间总数的划分结果。

表2 不同区间总数的划分结果
Table 2 Results with different number of intervals

区间总数入选区间总数RMSE入选变量数1030.403 84981140.405 36041250.402 55521340.403 65101440.403 64741530.400 93321620.406 62081760.401 85851830.400 52761940.403 13482060.399 34982150.400 73952240.401 03012360.399 14322450.401 43452560.399 7397

由表2可确定将全光谱数据等分成23个子区间,然后把这些子区间进行联合建模,当筛选出6个子区间时,交叉验证均方差(root mean square error of cross validation,RMSECV)的值最小为0.399 1,此时入选的光谱变量个数为432。

表3 子区间优选结果
Table3 Results of subinterval optimization

序号剔除区间RMSE变量个数2350.414 71 66022230.412 81 58821220.410 51 51620110.409 31 4441960.408 81 3721820.408 11 30017140.408 01 2271670.408 01 15515160.407 61 0831430.407 71 01113100.407 693812210.406 586611170.404 27941010.404 1722940.404 4649880.404 75767200.401 55046150.399 14325120.399 63604180.399 32883130.399 62162190.411 1144190.478 072

表3所示为23个子区间的建模结果,在剔除第15个区间并对其及后面的5个子区间进行联合建模时,所得到的RMSE的值最小为0.399 1。再对后续的子区间进行剔除时,发现RMSE的值又在逐渐变大,这表示后面剔除的6个子区间包含着与可溶性固形物相关性较高的光谱数据,即对建模有用的信息。此时所选的子区间分别为15、12、18、13、19、9等6个子区间,总共432个特征波长。如图1所示。

图1 BiPLS优选子区间
Fig.1 Sub-intervals selected by Bipls

2.3 BiPLS结合CARS数据降维

图2为CARS算法筛选特征波长变量过程。由图2可知,特征波长变量筛选过程中,随着迭代次数的增加,波长变量的总数减少,直至选取最优迭代次数为止。迭代次数最优时,RMSECV越小迭代次数越好,当RMSECV为0.376 5时,对应的最优迭代次数为61。因此,确定从原始432个波长中筛选的特征波长变量为17个。

a-被选择的波长数量;b-RMSECV;c-各变量系数值
图2 CARS筛选光谱变量过程
Fig.2 CARS screening spectral variable process

2.4 BiPLS结合GA数据降维

研究中GA的控制参数设置为:初始种群数为144(样本数为144个),变异概率0.01,遗传迭代次数为100和变异概率0.5。图3为GA所选光谱变量的频率,一共筛选出19个特征光谱变量。

图3 光谱变量频率图
Fig.3 Spectral stability diagram

2.5 BiPLS结合SPA数据降维

使用SPA算法对经过BiPLS选择的432个光谱变量进行特征变量选择,进一步降低光谱数据的维度。设置SPA的变量选择为1~20,变量的选择过程如图4所示,当RMSE的最小值为0.336 5时,选择的最优变量数为12。

图4 SPA优选变量过程
Fig.4 The SPA optimization variable process

2.6 哈密瓜可溶性固形物含量建模预测分析

特征区间选择与特征波长相结合的数据降维方式结合ELM、PLS对哈密瓜可溶性固形物预测分析结果如表4、表5所示。由表4、表5可知,单一的特征区间降维下的建模效果均不理想,相关系数都在0.85~0.82,可能是BiPLS虽然在一定程度上减少了光谱变量,但模型的复杂度仍然较高,且高维度的光谱变量中仍然存在冗余的光谱变量;相比而言,特征区间选择与特征波长相结合下的数据降维效果优于BiPLS,且都大大减少了预测模型的输入变量,从432分别减少到了12、19、17,这不仅降低了模型复杂程度还提高模型的计算速度和准确性。最优的预测模型为BiPLS+SPA+PLS,其校正集相关系数为0.923 4,预测集相关系数为0.878 8;表明该模型可以准确、快速地预测哈密瓜中可溶性固形物含量。4种数据降维方法结合ELM的建模效果相比于PLS均不理想,可能是因为ELM属于神经网络模型的一种,且神经网络都有收敛慢、预测能力差的缺点。同时,证明BiPLS结合SPA算法在定量预测建模中不仅可以对光谱变量中与理化性质相关性高的变量进行准确提取,而且还能提高定量分析的预测精度。

表4 数据降维下结合ELM的建模预测效果
Table 4 Forecasting effect of modeling based on
dimension reduction and ELM

处理方法变量个数校正集预测集RcRMSECRpRMSEPBiPLS4320.850 40.190 70.829 30.177 9BiPLS-SPA120.887 70.137 80.890 00.150 2BiPLS-GA190.863 20.198 20.847 80.160 4BiPLS-CARS170.771 20.277 20.745 60.256 2

表5 数据降维下结合PLS的建模预测效果
Table 5 Modeling and forecasting effect of PLS
combined with data dimension reduction

处理方法变量个数校正集预测集RcRMSECRpRMSEPBiPLS4320.851 50.389 90.847 20.390 1BiPLS-SPA120.923 40.305 10.878 80.384 7BiPLS-GA190.886 40.382 80.852 30.389 4BiPLS-CARS170.879 10.394 30.885 20.352 1

3 结论与讨论

通过对原始光谱进行特征区间选择,共选取了6个子区间,432个特征变量;在6个联合子区间的基础上再分别使用3种特征选择方法(CARS、GA、SPA)对光谱数据作进一步处理,最终选择的特征波长个数分别为17、19、12,极大地减少了模型的输入变量;基于处理后光谱数据分别结合ELM和PLS建立定量分析模型。结果表明,最优的预测模型为BiPLS+SPA+PLS,模型的校正集和预测集相关系数分别为0.923 4,0.878 8,模型预测效果得到了提升;表明特征区间选择和特征波长选择可以从高维度冗余的光谱中筛选出12个相关性最高的光谱变量,这12个光谱变量基本都集中在12、13、15三个特征子区间内,其光谱反射率为78.7~90;同时光谱无损检测的原理是利用有机物分子中含氢基团的倍频吸收强度对可溶性固形物进行定量检测,并且由图1可以看出光谱反射图像中出现的反射波峰在12和13特征子区间,说明该区间内的变量存在C—H基团的三级倍频特征,从中筛选出的变量可以作为模型输入变量对哈密瓜可溶性固形物进行定量,故本研究使用SPA对联合子区筛选出的12个特征波长可以很好地代表全波段的光谱变量,对哈密瓜的可溶性固形物进行定量预测,同时筛选的变量只占全光谱数据的0.72%,这不仅降低了模型的复杂程度,还提高了模型的预测精度,实现哈密瓜内部品质的无损检测。后续应引入哈密瓜的图像,考虑如何将图像的颜色特征和纹理特征与光谱的特征波长进行有效融合,结合两者的优点实现哈密瓜糖度的无损检测,同时也为田间便携式哈密瓜是否成熟判别设备的研制提供新思路。

参考文献

[1] 连媛媛, 熊乾威, 杨木莎, 等.基于近红外光谱技术快速检测椰汁品质[J].食品工业科技, 2019, 40(12):235-240.

LIAN Y Y, XIONG Q W, YANG M S, et al.Rapid detection of coconut juice quality based on near infrared spectroscopy [J].Science and Technology of Food Industry, 2019, 40 (12):235-240.

[2] 段宇飞, 王巧华.基于特征选择与特征提取融合的鸡蛋新鲜度光谱快速检测模型优化[J].食品科学, 2020, 41(12):273-278.

DUAN Y F, WANG Q H.Optimization of a predictive model for rapid detection of egg freshness using visible near-infrared spectra based on combination of feature selection and feature extraction [J].Food Science, 2020, 41 (12):273-278.

[3] 何鸿举, 王魏, 李波, 等. 近红外高光谱快速无接触评估冷鲜猪肉脂质氧化[J].食品与机械, 2020, 36(8):117-122.

HE H J, WANG W, LI B, et al.Rapid and non-contact evaluation of lipid oxidation in fresh chilled pork by near-infrared hyperspectral imaging [J].Food and Machinery, 2020, 36 (8):117-122.

[4] 黄伟, 杨秀娟, 曹志勇, 等.近红外反射光谱快速检测滇南小耳猪肉中水分、粗脂肪及粗蛋白含量的研究[J].中国畜牧杂志, 2015, 51(7):73-77.

HUANG W, YANG X J, CAO Z Y, et al.Rapid determination of moisture, crude fat and crude protein in Diannan small ear pork by near infrared reflectance spectroscopy [J].Chinese Journal of Animal Science, 2015, 51 (7):73-77.

[5] 刘燕德, 张雨, 徐海, 等.基于近红外光谱检测不同产地石榴的糖度[J].激光与光电子学进展, 2020, 57(1):253-259.

LIU Y D, ZHANG Y, XU H, et al.Deteetion of sugar content of pomegranate from different producing areas based on near-infrared spectroscopy[J].Laser and Optoelectronics Progress , 2020, 57 (1):253-259.

[6] 路敏.基于近红外光谱的梨的可溶性固形物含量的无损检测[D].兰州:兰州大学, 2019.

LU M.Nondestructive detecting soluble solid content of pears based on near-infrared spectroscopy[D].Lanzhou:Lanzhou University, 2019.

[7] 孙通, 江水泉.基于可见/近红外光谱和变量优选的南水梨糖度在线检测[J].食品与机械, 2016, 32(3):69-72.

SUN T, JIANG S Q.On-line detection of sugar content of Nanshui pears by Vis/NIR spectroscopy and variable selection methods[J].Food and Machinery, 2016, 32 (3):69-72.

[8] 程文宇, 管骁, 刘静.近红外光谱技术检测液态奶中微量三聚氰胺的可行性研究[J].食品与机械, 2015, 31(1):71-74;81.

CHENG W Y, GUAN X, LIU J.Analysis on feasibility of detection of melamine in liquid milk based on near-infrared spectroscopy [J].Food and Machinery, 2015, 31 (1):71-74;81.

[9] 张德虎, 田海清, 武士钥, 等.河套蜜瓜糖度可见近红外光谱特征波长提取方法研究[J].光谱学与光谱分析, 2015, 35(9):2 505-2 509.

ZHANG D H, TIAN H Q, WU S Y, et al.Study on extraction methods of characteristic wavelength of visible near infrared spectroscopy used for sugar content of hetao muskmelon [J].Spectroscopy and Spectral Analysis, 2015, 35 (9):2 505-2 509.

[10] GREENSILL C V, WOLFS P J, SPIEGELMAN C H, et al.Calibration transfer between PDA-based NIR spectrometers in the NIR assessment of melon soluble solids content[J].Applied Spectroscopy, 2001, 55(5):647-653.

[11] GUTHRIE J A, LIEBENBERG C J, WALSH K B.NIR model development and robustness in prediction of melon fruit total soluble solids[J].Australian Journal of Agricultural Research, 2006, 57(4):411-418.

[12] 毕智健.哈密瓜糖度可见近红外光谱在线检测系统设计研究[D].石河子:石河子大学, 2017.

BI Z J.Study on design of online detection system for sugar content of Hami melon with visible near infrared spectroscopy [D].Shihezi:Shihezi University, 2017.

[13] 马本学, 肖文东, 祁想想, 等. 基于漫反射高光谱成像技术的哈密瓜糖度无损检测研究[J].光谱学与光谱分析, 2012, 32(11):3 093-3 097.

MA B X, XIAO W D, QI X X, et al.Nondestructive measurement of sugar content of Hami melon based on diffuse reflectance hyperspectral imaging technique [J].Spectroscopy and Spectral Analysis, 2012, 32 (11):3 093-3 097.

[14] 孙静涛, 马本学, 董娟, 等.高光谱技术结合特征波长筛选和支持向量机的哈密瓜成熟度判别研究[J]. 光谱学与光谱分析, 2017, 37(7):2 184-2 191.

SUN J T, MA B X, DONG J, et al.Study on maturity discrimination of Hami melon with hyperspectral imaging technology combined with characteristic wavelengths selection methods and SVM [J].Spectroscopy and Spectral Analysis, 2017, 37 (7):2 184-2 191.

[15] 李雄, 刘燕德, 欧阳爱国, 等.基于近红外的柚子品种判别和糖度检测通用模型[J].发光学报, 2019, 40(6):808-814.

LI X, LIU Y D, OUYANG A G, et al.A general model for judging and Brix detection of grapefruit variety based on near infrared [J].Chinese Journal of Luminescence, 2019, 40 (6):808-814.

[16] DONG J L, GUO W C, WANG Z W, et al.Nondestructive determination of soluble solids content of ‘Fuji’ apple produced in different areas and bagged with different materials during ripening[J].Food Analetical Methods, 2016, 9(5):1 087-1 095.

[17] 李江波, 郭志明, 黄文倩, 等.应用CARS和SPA算法对草莓SSC含量NIR光谱预测模型中变量及样本筛选[J].光谱学与光谱分析, 2015, 35(2):372-378.

LI J B, GUO Z M, HUANG W Q, et al.Near-infrared spectra combining with cars and spa algorithms to screen the variables and samples for quantitatively determining the soluble solids content in strawberry [J].Spectroscopy and Spectral Analysis, 2015, 35 (2):372-378.

[18] 孙静涛.基于光谱和图像信息融合的哈密瓜成熟度无损检测研究[D].石河子:石河子大学, 2017.

SUN J T.Study on nondestructive dection of hami melon maturity based on information fusion of spectrum and image [D].Shihezi:Shihezi University, 2017.

[19] 孟庆龙, 尚静, 黄人帅, 等.基于主成分回归的苹果可溶性固形物含量预测模型[J].保鲜与加工, 2020, 20(5):185-189.

MENG Q L, SHANG J, HUANG R S, et al.Prediction model for soluble solids content of apples based on principal component regression[J].Storage and Process, 2020, 20 (5):185-189.

[20] 朱哲燕, 刘飞, 张初, 等.基于中红外光谱技术的香菇蛋白质含量测定[J].光谱学与光谱分析, 2014, 34(7):1 844-1 848.

ZHU Z Y, LIU F, ZHANG C, et al.Protein content determination of shiitake mushroom(Lentinus edodes)using mid-infrared spectroscopy and chemometeics [J].Spectroscopy and Spectral Analysis, 2014, 34 (7):1 844-1 848.

[21] 何勇, 刘飞,李晓丽, 等.光谱及成像技术在农业中的应用[M].北京:科学出版社, 2016:97-98.

HE Y, LIU F, LI X L, et al.Application of Spectroscopy and Imaging Technology in Agriculture [M].Beijing:Science Press, 2016:97-98.

Prediction of soluble solids content in Hami melon by combining near-infrared spectroscopy and BiPLS-SPA technology

GUO Yang1,SHI Yong1,GUO Junxian1,LI Xuelian1*,HUANG Hua2

1(College of Electrical and Mechanical Engineering, Xinjiang Agricultural University, Urumqi 830052, China)2(College of Mathematics and Physics, Xinjiang Agricultural University, Urumqi 830052, China)

ABSTRACT The method of near-infrared spectroscopy and data dimension reduction method were used to establish the prediction model of soluble solids content in Hami melon. Six sub-ranges and 432 spectral variables were selected from the original spectrum. The spectral data of six joint sub-regions were combined with competitive adaptive reweighted sampling(CARS), genetic algorithm(GA) and successive projections algorithm(SPA) to extract the feature wavelength respectively. Then, the selected characteristic wavelength and interval wavelength was used as the input variables of the model. The extreme learning machine(ELM)and partial least squares(PLS)were used to establish the prediction model of soluble solids content in Hami melon. The results showed that the prediction model of BiPLS + SPA + PLS was the best. The correlation coefficient of the corrected set and the predicted set was 0.923 4 and 0.878 8 respectively. The model can accurately predict the content of soluble solids in Hami melon.

Key words Hami melon;backward interval PLS-successive projections algorithm;partial least squares;soluble solids;nondestructive testing