枇杷的营养价值较为丰富,果实皮薄多汁,酸甜可口。我国贵州开阳是枇杷种植地之一,且开阳土壤富硒,使得开阳富硒枇杷深受欢迎[1]。但是,枇杷果实较为娇贵,在采摘和贮藏的过程中,果实的品质就会下降,其中,糖含量的变化十分明显。随着枇杷果实呼吸作用的进行,糖含量会逐渐上升,这就会导致果实的甜酸度不佳,影响到枇杷的口感和风味,导致其经济价值降低。
我国水果糖度的传统检测方法虽然准确性较高,但是具有破坏性,且效率低、耗时长[2];而依靠经验主观判断水果品质又无统一标准,导致结果存在随意性,对品质的分选不准确。因此,在水果品质的分选方面,无论是传统的检测方法还是个人经验主观判断都造成了水果品质参差不齐,难以体现我国水果的市场竞争优势。开阳枇杷是贵州的特色水果,对其果实进行质量分级能够精准定位其市场价格,同时维护好开阳枇杷的区域品牌地位。由此可见,建立一套快速无损的枇杷果实的糖度检测方法对于监控其品质、指导市场价格具有实际意义。
基于精密光谱检测仪器的研发和化学计量学的飞速发展,以及光谱技术具有的可实现无损检测的优势,光谱技术在水果品质的检测中得到十分广泛的应用。国内外研究学者利用光谱技术开展了诸多水果品质的研究[2-13]。其中,薄皮水果糖度或者可溶性固形物含量的无损检测研究较多,比如猕猴桃[2-3]、苹果[4-5]、荔枝[6]、蓝莓[7-8]、梨[9]和李子[10]等。厚皮瓜果类水果因其尺寸大且不同部位果皮厚度不一,光谱技术获取表皮下果肉的信息就会有差异,这必然影响模型的预测能力。基于光谱技术检测厚皮水果内部品质的研究较薄皮水果的少,但是也不乏很多优秀的研究团队对网纹瓜的可溶性固形物[11]、小西瓜的糖度[12-13]、甜瓜的糖度[14]、河套蜜瓜的糖度[15]、麒麟西瓜的糖度[16-17]等进行了研究。采用光谱技术对各类水果内部品质的研究已经较为全面,但基于光纤光谱技术检测枇杷糖度的研究鲜有报道。
本文通过光纤光谱仪采集开阳枇杷6个不同部位的反射光谱,对采集到的原始光谱进行平均,得到原始平均光谱,并对其进行预处理,探寻最优的预处理方法;然后分别基于原始全光谱和预处理后的全光谱构建枇杷糖度预测模型,并比较不同模型的优劣;最后分别运用连续投影算法(successive projection algorithm,SPA)以及竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)提取特征光谱,再基于特征光谱和测得的参考值构建预测开阳枇杷糖度的多元线性回归模型,依据预测效果得到最优模型,以期为枇杷品质的无损快检和分选提供理论依据与技术基础。
开阳富硒枇杷来自贵州省贵阳市开阳县禾丰乡枇杷果园,于2021年5月23日采摘并挑选无病虫害且无机械损伤的枇杷果共120个。样品采摘后立即带回实验室,并在室温[(22±2) ℃]条件下进行实验。实验前用软纸轻轻地擦掉枇杷表面的杂物,对其依次编号后采集光谱以及测定糖度。
(ATAGO PAL-α)折射仪,日本Atago公司,检测范围:0.0~85 °Brix,检测精度:±0.2 °Brix。光纤光谱仪,蔚海光学仪器(上海)有限公司,该系统主要由:QEPro光谱仪(分辨率:2.84~3 nm)、R600-7-VIS-125F光纤(直径600 μm)、HL-2000卤钨灯光源(波长范围:360~2 400 nm)、反射探头支架、适配器、标准反射白板以及计算机等构成。系统结构如图1所示,其中系统的积分时间为110 ms,扫描平均次数是8,滑动平均宽度是1,光谱采集范围为360~1 006.4 nm,此光谱区间共有844个波段。
图1 光纤光谱仪框图
Fig.1 The diagram of fiber-optic spectrometer
1.3.1 反射光谱采集
将待测枇杷样品紧贴在反射探头支架表面上(利用适配器将光纤探头固定在反射探头支架上,光纤探头距离反射探头支架表面约1 cm),光谱采集部位如图2所示,分别在每个样品正(①、②、③)反(④、⑤、⑥)两面果实的花萼、赤道、果蒂附近,3个部位采集信息,每个果实采集到6个光谱,将这6个光谱进行平均,以平均值作为该样品的原始光谱数据。
图2 枇杷光谱采集位置
Fig.2 The reflectance spectra collected in the region of loquat
1.3.2 糖度的测定
在完成光谱采集后,枇杷糖度采用折射仪按照NT/T 2637—2014规定的方法测定。首先将枇杷以与赤道垂直的方向均匀地切成两半,得到正反两半的枇杷样品。分别压碎后经纱布过滤挤汁,用一次性滴管滴到折射仪镜面上,重复测量3次,读数并记录结果,取3次结果的平均值作为一半枇杷样品的糖度值。同一个枇杷样品正反两半会得到2个糖度值,将这2个值进行平均,得到的平均值即为该样品的实测糖度值。
1.3.3 光谱预处理及特征波长提取
1.3.3.1 光谱预处理
光谱仪获取的枇杷样本的原始光谱中除了含有有效的信息外,同时还含有背景信息和噪声等,通过预处理可以校正后者对模型性能的影响。本实验对原始光谱的预处理是在MATLAB R2016b软件中采用标准正态变换(standard normal variation,SNV)和多元散射校正(multi-scatter calibration,MSC)的方法[18-19]执行的。
1.3.3.2 特征波长提取
全光谱数据量非常庞大且数据之间存在严重的共线性问题,这对模型的运算速度有很大的影响。本实验采用SPA和CARS提取特征波长,提升模型的运算效率[20-21]。SPA是一种前向变量选择算法,通过在全光谱中找寻具有最低限度冗余的光谱信息变量集,使得矢量空间共线性最小化。本实验中预先设置选择的变量数范围为0~30,在该范围内根据预测集最低的均方根误差确定了18个特征波长。CARS是一种将回归系数作为变量重要性指标的特征变量选择方法。该方法依靠指数衰减函数和自适应重加权采样技术优选出每一次循环所构建的偏最小二乘模型中回归系数绝对值最大的变量点,经过多次重复选择,交互验证偏最小二乘模型中均方根误差最小的子集选为最优变量子集。本实验中将其蒙特卡洛采样次数设置为50次,筛选出的最优波长集中含有23个特征波长。特征光谱的提取在MATLAB R2016b软件中执行。
1.3.4 建模方法及模型评价
本文分别基于原始全光谱、经预处理后的全光谱和特征光谱数据构建了预测枇杷糖度的主成分回归(principal component regression,PCR)、偏最小二乘回归(partial least square regression,PLSR)和多元线性回归(multi linear regression,MLR)模型。PCR是一种仅对自变量进行主成分分析,然后以主成分替换原自变量后再与因变量进行多元线性回归的方法。PLSR方法是光谱分析中应用最普遍的化学计量方法,它是一种同时对自变量和因变量进行主成分分析的多元线性回归分析方法[22]。在MLR中,当有m个自变量X(光谱数据),即X1,X2,X3,…,Xm,则自变量X和因变量Y(糖度实测值)之间的线性回归方程为:
Y=β0+β1X1+...+βmXm+ε
设观察值为{(Yi,Xi1,…,Xim),i=1,2,…,n},则多元线性回归方程如下:
本文采用校正集的相关系数(RC)及其均方根误差(root mean square error of calibration,RMSEC),预测集的相关系数(RP)及其均方根误差(root mean square error of prediction,RMSEP),以及剩余预测偏差(residual predictive deviation,RPD)作为模型性能的评价指标。若RPD<1.4,证明构建的检测模型无法完成预测;1.4≤RPD<1.8,则模型仅可粗略地预测;1.8≤RPD<2.0,证明模型可进行相对较好的预测;RPD≥2,证明模型可以完成非常好的预测[23]。数据处理在MATLAB R2016b软件中执行。
基于光纤光谱仪获取的光谱数据和折射仪测定的实际糖度值,按照样本集划分的评判标准[24](校正样本集中糖度值的范围比预测样本集的范围宽)将120个枇杷样本划分为校正样本集和预测样本集。本实验根据光谱-理化值共生距离法[25]将120个枇杷样本按照3∶1的比例划分90个为校正集以及30个为预测集。由表1可以看出,校正集中的糖度值范围大于预测集中糖度值的范围,这样划分的样本集有利于准确、稳健模型的构建。
表1 校正集和预测集中枇杷糖度统计结果
Table 1 Statistics results of the sugar content of loquat in calibration and prediction set
样本集样本数糖度/°Brix最小值最大值平均值标准差校正集908.6013.8011.121.35预测集309.0013.7010.951.50
原始光谱中存在各种因素影响数据的准确性,比如采集光谱时光源强度分布不均匀、枇杷样本自身形状不规则等,特别是在原始光谱的首末两端会含有更多的噪声,选择400~1 000 nm波段作为有效原始光谱区域,本区域共包含785个波段。选定有效原始光谱区域后,为了进一步消除目标信息和噪声带来的干扰,本文在建立模型之前分别采用SNV和MSC对有效原始光谱数据进行预处理。图3为枇杷样本的原始反射光谱(图3-a)以及经过SNV(图3-b)、MSC(图3-c)预处理后的相对反射光谱。由图3可以看出,所有光谱曲线的波形呈现出相同的趋势,在波长675 nm附近有一个较为明显的吸收峰,这可能是由叶绿素的吸收产生的;在980 nm附近也有一个吸收峰,这可能与枇杷果实中水的吸收有关系,体现出枇杷水分含量的信息。
为了定量分析枇杷的糖度,分别基于原始全光谱和预处理全光谱数据建立了PCR和PLSR预测枇杷糖度的模型,如表2所示。由表2可以看出,经过SNV和MSC预处理后建立的PCR和PLSR模型的RC、RP和RPD均比未经过预处理的原始光谱建模的RC、RP和RPD高,对于RMSEC和RMSEP来说,也是经过预处理后建模的误差小,这说明原始光谱经过预处理后模型效果和精度得到了提高;对比2种预处理方法,可以发现经过SNV预处理后的建模效果要好于经过MSC预处理的建模效果;比较PCR和PLSR 2种建模方法,得出PCR模型的性能要优于PLSR模型。由此可见,对原始光谱进行预处理是尤为必要的。
a-原始光谱;b-SNV预处理后光谱;c-MSC预处理后光谱
图3 枇杷样本的反射光谱
Fig.3 Reflectance spectra of loquat
表2 PCR和PLSR模型对枇杷糖度的预测结果
Table 2 Sugar content prediction results of loquat by PCR and PLSR model
模型预处理方法潜变量个数校正集预测集RCRMSECRPRMSEPRPD原始光谱320.840.710.810.871.72PCRMSC370.860.680.850.821.81SNV390.860.680.860.821.83原始光谱150.870.690.810.891.64PLSRMSC140.910.570.810.881.68SNV150.910.560.820.871.73
原始光谱数据量庞繁,影响模型的运算效率。本文采用SPA和CARS 2种方法提取特征变量来改善模型的性能,并且对2种特征波长的提取方法进行比较,进而择优筛选特征波长提取方法。
2.4.1 采用SPA提取特征波长
采用SPA方法进行特征变量的筛选时,通常选取预测模型的均方根误差的最小值来确定特征变量数。图4给出了均方根误差随SPA中有效变量数的变化规律。由图4可以看出,均方根误差随着有效变量数的增加而减小,但是当有效变量数大于18以后,均方根误差基本不再减小。因此本实验中选择了18个波长(占总波长量的2.29%)作为特征变量,这18个变量分别为:400.0、402.4、407.2、409.6、427.8、441.3、480.8、553.7、642.1、676.7、689.8、700.5、704.3、709.6、712.7、758.4、907.3、978.4,单位均为nm。
图4 均方根误差随SPA中有效波长数的变化规律
Fig.4 Variation regulation of RMSE with the number of effective wavelengths in SPA
2.4.2 采用CARS选取特征波长
本实验采用CARS选取特征变量时,设定其蒙特卡洛采样次数为50次,根据五折交叉验证方法计算所构建的偏最小二乘模型的交叉验证均方根误差筛选出最优变量子集。图5给出了不同采样次数下交叉验证均方根误差的变化规律,可以发现在第30次采样时获得的交叉验证均方根误差具有最小值,该最优变量子集包含了23个特征波长(占总波长量的2.93%),这23个特征变量分别为:423.9、448.4、449.2、454.8、467.4、563.1、576.3、616.6、704.3、786.4、814.4、815.1、863.2、902.8、937、951.8、952.6、960、960.7、977、980.6、984.3、996.9,单位均为nm。
本文分别将基于SPA和CARS 2种特征波长提取方法获得的特征变量作为自变量,枇杷糖度的实测值作为因变量,构建了预测开阳枇杷糖度的MLR检测模型。通过特征变量构建的MLR模型对枇杷糖度的预测结果如表3所示。由表3结果可以看出,CARS-MLR模型的RC(0.89)和RP(0.89)高于SPA-MLR模型的RC(0.79)和RP(0.88),并且CARS-MLR模型的RMSEC(0.62)和RMSEP(0.65)低于SPA-MLR模型的RMSEC(0.81)和RMSEP(0.74),这说明CARS-MLR枇杷糖度预测模型的性能优于SPA-MLR模型。对比表2中基于全光谱建立的PCR和PLSR模型预测枇杷糖度的结果,可以看出基于特征变量构建的CARS-MLR模型的RC(0.89)和RP(0.89)均高于6种基于全光谱构建模型的RC和RP,并且前者的RMSEC(0.62)和RMSEP(0.65)也低于后者的,这证明经过CARS降维后,不仅模型的运行效率大大提升,而且模型的校正性能和预测性能也都得到了改善。另外,CARS-MLR模型的RPD=2.29,进一步证明模型可以完成非常好的预测。综合以上表述,可以得出基于特征变量建立的CARS-MLR预测模型对开阳枇杷糖度具有非常好的预测能力。图6为CARS-MLR模型对枇杷糖度的检测结果,预测值与实际值具有比较好的线性关系,只有少数样本偏离回归线较远,CARS-MLR模型能够很好地预测枇杷的糖度。
a-CARS中变量数量的变化;b-不同采样次数下的交叉验证均方根误差;c-每次采样中回归系数的变化路径
图5 CARS算法提取特征波长的结果
Fig.5 Characteristic wavelengths selection from full spectra by CARS algorithm
表3 基于特征光谱建立的多元线性回归模型 对枇杷糖度的预测结果
Table 3 Sugar content prediction results of loquat by MLR model based on the characteristic spectra
光谱降维方法变量数校正集预测集RCRMSECRPRMSEPRPDSPA180.790.810.880.742.01CARS230.890.620.890.652.29
图6 枇杷糖度的实测值与预测值的相关性
Fig.6 The relativity of sugar content of loquat between the measured and predicted values
为实现快速无损检测水果品质,对水果进行分级,进而提升水果的经济价值,本文以开阳富硒枇杷为研究对象,提出了一种基于可见/近红外光谱结合化学计量学预测枇杷糖度的方法。首先,采用光纤光谱仪获取枇杷样本的光谱数据,并测定枇杷的实际糖度值。然后,提取样品的光谱数据,采用SNV和MSC 2种方法对其进行预处理,并基于原始光谱和经预处理后的光谱建立预测枇杷糖度的PCR和PLSR模型。最后,利用SPA和CARS方法从全光谱中优选出特征波长,并基于特征波长建立预测枇杷糖度的SPA-MLR和CARS-MLR模型。分析结果可知,经过预处理后建立的模型效果较基于原始光谱的模型好;基于特征变量建立的模型效率得到了很大的提升,且预测能力也优于全光谱模型。本研究中CARS-MLR模型是最优模型,其RPD=2.29,具有非常好的预测效果,表明采用可见/近红外光谱技术结合化学计量学方法建立枇杷糖度的预测模型是可行的。
[1] 赵彬. 美味又营养的开阳富硒枇杷[J].大众科学, 2018(10):22-23.
ZHAO B.Delicious and nutritious Kaiyang Selenium-rich loquat[J].China Public Science, 2018(10):22-23.
[2] 董金磊, 郭文川.采后猕猴桃可溶性固形物含量的高光谱无损检测[J].食品科学, 2015, 36(16):101-106.
DONG J L, GUO W C.Nondestructive detection of soluble solid content of postharvest kiwifruits based on hyperspectral imaging technology[J].Food Science, 2015, 36(16):101-106.
[3] GUO W C, ZHAO F, DONG J L.Nondestructive measurement of soluble solids content of kiwifruits using near-infrared hyperspectral imaging[J].Food Analytical Methods, 2016, 9(1):38-47.
[4] MENDOZA F, LU R F, CEN H Y.Grading of apples based on firmness and soluble solids content using Vis/SWNIR spectroscopy and spectral scattering techniques[J].Journal of Food Engineering, 2014, 125:59-68.
[5] FAN S X, ZHANG B H, LI J B, et al.Prediction of soluble solids content of apple using the combination of spectra and textural features of hyperspectral reflectance imaging data[J].Postharvest Biology and Technology, 2016, 121:51-61.
[6] PU H B, LIU D, WANG L, et al.Soluble solids content and pH prediction and maturity discrimination of lychee fruits using visible and near infrared hyperspectral imaging[J].Food Analytical Methods, 2016, 9(1):235-244.
[7] 李瑞, 傅隆生.基于高光谱图像的蓝莓糖度和硬度无损测量[J].农业工程学报, 2017, 33(S1):362-366.
LI R, FU L S.Nondestructive measurement of firmness and sugar content of blueberries based on hyperspectral imaging[J].Transactions of the Chinese Society of Agricultural Engineering, 2017, 33(S1):362-366.
[8] LEIVA-VALENZUELA G A, LU R F, AGUILEREA J M.Assessment of internal quality of blueberries using hyperspectral transmittance and reflectance images with whole spectra or selected wavelengths[J].Innovative Food Science and Emerging Technologies, 2014, 24:2-13.
[9] LI B C, HOU B L, ZHANG D W, et al.Pears characteristics (soluble solids content and firmness prediction, varieties) testing methods based on visible-near infrared hyperspectral imaging[J].Optik, 2016, 127(5):2 624-2 630.
[10] 尚静, 孟庆龙, 张艳, 等.紫外/可见光谱技术无损检测李子可溶性固形物含量[J].食品工业科技, 2020, 41(3):228-231.
SHANG J, MENG Q L, ZHANG Y, et al.Nondestructive detection of soluble solids content of plums based on UV/vis spectroscopy technology[J].Science and Technology of Food Industry, 2020, 41(3):228-231.
[11] 袁琳, 徐怀德, 李钰金.近红外漫反射光谱检测网纹瓜可溶性固形物含量的研究[J].中国食品学报, 2010, 10(4):272-277.
YUAN L, XU H D, LI Y J.Studies on the rapid measurements of soluble solids content in nutmeg melon by near infrared diffuse reflectance spectroscopy[J].Journal of Chinese Institute of Food Science and Technology, 2010, 10(4):272-277.
[12] 王硕, 袁洪福, 宋春风, 等.小西瓜糖度表征与漫反射近红外检测方法的研究[J].光谱学与光谱分析, 2012, 32(8):2 122-2 125.
WANG S, YUAN H F, SONG C F, et al.Sugar characterization of mini-watermelon and rapid sugar determination by near infrared diffuse reflectance spectroscopy[J].Spectroscopy and Spectral Analysis, 2012, 32(8):2 122-2 125.
[13] 朱倩倩, 管劼昊, 李旷开, 等.小型西瓜果实内部糖度分布及其影响因素研究[J].食品安全质量检测学报, 2012, 3(6):661-666.
ZHU Q Q, GUAN J H, LI K K, et al.Internal Brix distribution and its influencing factors of small watermelon[J].Journal of Food Safety and Quality, 2012, 3(6):661-666.
[14] 张立虎, 李冠, 张自强, 等.便携式糖度无损检测仪在甜瓜糖度检测中的应用[J].新疆农业科学, 2014, 51(12):2 347-2 352.
ZHANG L H, LI G, ZHANG Z Q, et al.Application of nondestructive portable sugar content taster in inspection of sugar content in melons[J].Xinjiang Agricultural Sciences, 2014, 51(12):2 347-2 352.
[15] 高雄, 刘宇, 田海清, 等.融合光谱与图像信息的河套蜜瓜糖度在线检测试验系统[J].农业机械学报, 2015, 46(11):245-251;235.
GAO X, LIU Y, TIAN H Q, et al.On-line detection testing system of sugar content for Hetao melon based on spectra and image information[J].Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(11):245-251;235.
[16] 介邓飞, 谢丽娟, 饶秀勤, 等.近红外光谱变量筛选提高西瓜糖度预测模型精度[J].农业工程学报, 2013, 29(12):264-270.
JIE D F, XIE L J, RAO X Q, et al.Improving accuracy of prediction model for soluble solids content of watermelon by variable selection based on near-infrared spectroscopy[J].Transactions of the Chinese Society of Agricultural Engineering, 2013, 29(12):264-270.
[17] JIE D F, XIE L J, FU X P, et al.Variable selection for partial least squares analysis of soluble solids content in watermelon using near-infrared diffuse transmission technique[J].Journal of Food Engineering, 2013, 118(4):387-392.
[18] ALCIN O F, SENGUR A, GHOFRANI S, et al.GA-SELM:Greedy algorithms for sparse extreme learning machine[J].Measurement, 2014, 55:126-132.
[19] FENG G R, HUANG G B, LIN Q P, et al.Error minimized extreme learning machine with growth of hidden nodes and incremental learning[J].IEEE Transactions on Neural Networks, 2009, 20(8):1 352-1 357.
[20] R K H, et al.The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems, 2001, 57(2):65-73.
[21] LI H D, LIANG Y Z, XU Q S, et al.Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J].Analytica Chimica Acta, 2009, 648(1):77-84.
[22] WOLD S, SJÖSTRÖM M, ERIKSSON L.PLS-regression:A basic tool of chemometrics[J].Chemometrics and Intelligent Laboratory Systems, 2001, 58(2):109-130.
[23] 于雷, 章涛, 朱亚星, 等.基于IRIV算法优选大豆叶片高光谱特征波长变量估测SPAD值[J].农业工程学报, 2018, 34(16):148-154.
YU L, ZHANG T, ZHU Y X, et al.Determination of soybean leaf SPAD value using characteristic wavelength variables preferably selected by IRIV algorithm[J].Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(16):148-154.
[24] FAN S X, ZHANG B H, LI J B, et al.Effect of spectrum measurement position variation on the robustness of NIR spectroscopy models for soluble solids content of apple[J].Biosystems Engineering, 2016, 143:9-19.
[25] GALVO R K H, ARAUJO M C U, JOSÉ G E, et al.A method for calibration and validation subset partitioning[J].Talanta, 2005, 67(4):736-740.