基于近红外光谱技术联合极限学习机的蓝莓贮藏品质定量模型建立

朱金艳,朱玉杰*,冯国红*,曾明飞,刘思岐

(东北林业大学 工程技术学院,黑龙江 哈尔滨,150040)

摘 要 采用近红外光谱技术联合极限学习机(extreme learning machine,ELM)方法建立蓝莓贮藏品质的定量检测模型,实现对蓝莓果实的可溶性固形物、维生素C和花青素含量的快速无损检测,以期为鲜食蓝莓低温贮藏期间的在线品质检测提供技术参考。利用LabSpec 5000光谱仪采集5个不同贮藏时间共150组蓝莓样本的近红外光谱,通过基于联合X/Y的异常样本识别和剔除方法筛选异常样本,使用联合X-Y距离样本集划分方法对样本集进行划分。通过对比分析标准正态变换、多元散射校正、一阶导数等预处理方法对模型性能的影响,确定蓝莓3个成分各自最优预处理方法,采用联合区间偏最小二乘算法(synergy interval partial least squares,SiPLS)选择出特征波段,将其作为输入建立ELM定量分析模型,并将模型结果与偏最小二乘回归进行对比分析。结果表明,蓝莓果实的可溶性固形物、维生素C和花青素含量最优ELM模型的校正集相关系数分别为0.920 5、0.908 7、0.942 1;验证集相关系数为0.882 6、0.897 2、0.869 3;校正集均方根误差为0.766 4、0.695 4、1.671 0;验证集均方根误差为0.539 7、0.624 3、2.041 4。该研究利用全光谱的1/5~2/5的变量就能达到比原始变量所建模型更好的性能,与传统的偏最小二乘回归模型相比,该文建立的ELM模型精度有明显提高,表明SiPLS-ELM结合近红外光谱技术在蓝莓成分的在线无损检测方面具有很大潜力。

关键词 近红外光谱;极限学习机;蓝莓;联合区间偏最小二乘;无损检测

蓝莓果实富含花青素、维生素C、可溶性固形物等营养成分,具有防止脑神经老化、抗癌、软化血管、缓解视疲劳、提高人体免疫力等功能[1],被誉为“水果皇后”,深受消费者青睐。由于蓝莓果皮薄且软,易受到损伤,从而被病原菌侵染,致使品质发生劣变,影响其采摘之后的贮存和销售。目前对于蓝莓果实采摘后诸多品质指标的检测多以传统化学方法为主,检测过程耗时长且复杂,化学试剂还会污染蓝莓果实,因此创建一种高效且无损的蓝莓品质检测方法十分有必要的。

随着化学计量学的发展和计算机技术的进步,近红外光谱技术凭借其无损、高效、可实时检测等特点,已普遍应用在食品加工业[2-4]、制药工业[5]、石油化工工业[6]等领域。极限学习机(extreme learning machine,ELM)是一种单隐含层前馈神经网络算法,神经网络结构中输入层和隐含层间的连接权值以及隐含层神经元的阈值是随机产生的,并且产生之后训练网络时不需要对其做出调整,只需要设置隐含层神经元个数便能获得唯一最优解[7-8],大大提升了学习效率。罗一甲等[9]利用近红外技术建立了葡萄总酚多元散射校正结合竞争性自适应重加权算法与遗传算法的ELM模型,得到预测集相关系数(correlation coefficient of prediction,Rp)和均方根误差(root mean square error of prediction,RMSEP)分别为0.901 3和1.686 8,实现了对葡萄总酚含量的预测。BUREAU等[10]对杏果的可溶性固形物含量基于近红外光谱建立了偏最小二乘(partial least squares,PLS)模型进行分析,得到的RP和RMSEP分别为0.92和0.98%。CAYUELA[11]使用近红外光谱仪对油桃品质进行了检测,建立了果实的可溶性固形物、硬度、单果重和颜色指数PLS预测模型,得到R值分别为0.95、0.94、0.91、0.81,RMSEP 值为6.78%、8.77%、10.39%和8.8%。

目前基于近红外光谱技术对蓝莓的研究较多,但利用ELM建立蓝莓贮藏品质模型的研究鲜有报道。因此本研究以辽宁丹东产“瑞卡”蓝莓为研究对象,低温4 ℃贮藏条件下,利用光谱仪采集第0、3、6、9、12天蓝莓样本的近红外光谱,并通过理化实验获取可溶性固形物、维生素C和花青素含量真实值,对光谱进行预处理后运用联合区间偏最小二乘法(synergy interval partial least squares,SiPLS)筛选出能代表全谱的少量波长,旨在建立近红外ELM模型实现对蓝莓果实贮藏期间的可溶性固形物、维生素C和花青素含量无损检测,以期推动近红外光谱分析技术在无损检测蓝莓的营养成分方面的研究进展,为鲜食蓝莓低温贮藏品质无损快速定量检测提供参考。

1 材料与方法

1.1 材料

蓝莓品种:瑞卡。2021年6月10日从辽宁丹东购置,挑选出大小和成熟度一致且无损伤的蓝莓作为实验样品,按20个果实一组,分成150组,装于保鲜盒内,放置生化培养箱中4 ℃保存。

1.2 仪器与设备

LabSpec 5000光谱仪,美国ASD公司;LYT-330手持式折光仪,上海淋誉公司;UV-1801紫外可见分光光度计,北京北分瑞利分析仪器(集团)有限责任公司;SPX-70BⅢ型生化培养箱,天津市泰斯特仪器有限公司;TD6离心机,长沙湘智离心机仪器有限公司;LT202C电子天平,常熟市天量仪器有限责任公司。

1.3 试验方法

1.3.1 光谱采集

采用LabSpec 5000光谱仪,使用二分光纤探头,在仪器附带软件IndicoPro Version 3.1中采集蓝莓样品350~2 500 nm的近红外漫反射光谱,扫描次数32,采集间隔1 nm。采集蓝莓样品光谱之前,先将光纤探头对准白板进行空白校准,然后在蓝莓果实赤道面每隔120°采集,在ViewSpecPro软件中计算3次平均结果作为样品的近红外光谱,以每组中20个样品的平均光谱作为该组样本的光谱,共得到150组样本光谱。

1.3.2 可溶性固形物含量测定

首先用蒸馏水对折光仪校正零点,然后用纱布包裹样品挤出汁,吸取汁液滴于折光仪进行读数,每组样本测量3次取平均值作为该组样本的可溶性固形物含量值。

1.3.3 维生素C含量测定

1.3.3.1 标准曲线制作

用天平准确称取10 mg抗坏血酸(分析纯)于100 mL的棕色容量瓶中,加2 mL 10%(体积分数)HCl混合均匀,用蒸馏水定容至刻度,得到维生素C标准溶液[12],然后吸取维生素C标准溶液0、2、3、4、5、6 mL到6个50 mL容量瓶中,加蒸馏水定容,借助UV-1801紫外可见分光光度计以蒸馏水为空白对照在243 nm处测定其吸光值[13],制作标准曲线。

1.3.3.2 维生素C含量测定

称取2 g左右蓝莓样品于研钵中,加入2 mL 10% HCl进行研磨,转移液体到试管中,加入蒸馏水定容到25 mL,振荡摇匀。过滤后取滤液2 mL加入到有0.2 mL 10% HCl的试管中,再用移液器加入1% HCl溶液0.4 mL,用蒸馏水定容至10 mL。利用紫外可见分光光度计测定其在243 nm处吸光度,以蒸馏水为空白对照。计算如公式(1)所示:

维生素C含量

(1)

式中:B,从标准曲线得到的维生素C含量,mg;V1,测定时吸取样品液的体积,mL;V2,样品液定容体积,mL;W,样品质量,g。

1.3.4 花青素含量测定

1.3.4.1 标准曲线制作

参考王姗姗[14]的方法,精准称取2 mg矢车菊-3-O-葡萄糖苷标准品放于20 mL棕色容量瓶中,用1%(体积分数)盐酸-甲醇溶液定容得到标准溶液,避光保存。分别取上述溶液0、0.4、0.8、1.2、1.6、2.0 mL到试管中,加入1%盐酸-甲醇溶液定容至10 mL作为待测液。利用紫外可见分光光度计测定530、600 nm处的吸光度,取差值作为其吸光度,制作标准曲线。

1.3.4.2 花青素含量测定

称取蓝莓果实2 g,加入1%盐酸-甲醇溶液进行研磨,液体移至试管中,用1%盐酸-甲醇溶液定容至20 mL,放置于生化培养箱中低温(4 ℃)提取25 min[15]。浸提完毕后,放入离心机中离心10 min(4 000 r/min),取出上清液1 mL至试管中,加入蒸馏水稀释至8 mL测定吸光度。计算如公式(2)所示:

花青素含量

(2)

式中:C,样品质量浓度,μg/mL;V,样品液体积,mL;n,稀释倍数;W,样品质量,g。

1.4 数据处理方法

将采集的蓝莓样本近红外光谱数据导入ViewSpecPro软件中,计算各组样本的平均光谱作为该组样本的近红外光谱数据并导出文件,然后在Unscrambler X 10.4软件中进行预处理。由于外界及光谱仪自身扰动的影响,获得的蓝莓光谱在350~550 nm 及2 300~2 500 nm波段噪声较大,故选取550~2 300 nm波段作为建模的全波段。

蓝莓样品通过联合X/Y的异常样本识别方法(outliner samples detection based on joint X-Y distances,ODXY)算法剔除异常样本数据后,用联合X-Y距离样本集划分(sample set partitioning based on joint X-Y distances,SPXY)算法划分验证集和校正集,然后对光谱进行标准正态变换(standard normal variate,SNV)、多元散射校正(multiplicative scatter correction,MSC)、卷积平滑滤波处理(savitzky-golay smoothing,SG)等预处理以消除噪声和杂散光对模型性能的影响,在预处理的基础上采用SiPLS方法筛选出能代表全部光谱信息的特征波段,对光谱数据进行降维。以特征波段分别建立ELM和PLSR模型,利用校正集相关系数(Rc)、验证集相关系数(Rp)、校正集均方根误差(root mean square error of correction,RMSEC)、验证集RMSEP对所建模型的精确性进行评估,分别得出各成分对应的最优模型。本研究中光谱数据的预处理均通过Unscrambler X 10.4软件完成,在MATLAB 2016b中建立定量模型,利用Origin 2021软件绘图。

2 结果与分析

2.1 异常样本剔除

蓝莓样本在进行光谱扫描和理化实验的过程中,由于仪器异常、操作错误和环境的影响,存在个别样本测量结果异常,考虑到光谱数据X和化学值Y之间的联系,本研究采用ODXY进行异常样本剔除[16],以提高模型精确度。通过MATLAB软件对可溶性固形物、维生素C和花青素的150组样本进行ODXY距离计算,分别有6、15、16个样本距离明显超过阈值,故判定为异常值将其剔除。

2.2 样本集划分

对蓝莓样本剔除异常值后,采用SPXY算法以4∶1的比例划分校正集和验证集,该算法在计算样本间距离时能同时考虑了光谱吸光度和待测成分含量[17-18],最大程度地表征了样本的分布,增强了模型的稳定性。划分结果见表1,3个指标的校正集样本含量范围均较广,包含了验证集样本的含量取值范围,说明划分的结果具有代表性,能够用于构建蓝莓果实的可溶性固形物、维生素C和花青素的近红外定量模型。

表1 SPXY算法划分校正集和验证集结果统计
Table 1 The result statistics of correction set and validation set are divided by SPXY algorithm

指标样本集数量范围平均值标准差可溶性固形物校正集1156.60~15.7011.421.96验证集298.57~12.8710.491.14维生素C校正集1085.51~13.518.661.67验证集276.33~11.308.491.41花青素校正集1078.47~31.4416.644.99验证集2711.53~26.4716.054.11

2.3 光谱分析

随着贮藏时间的延长,在酶的作用下蓝莓的化学成分发生变化,果实中含氢官能团发生改变,使得蓝莓样本对近红外的吸收度有明显不同,不同贮藏时间的蓝莓平均光谱见图1-a,原始光谱叠加图见图1-b。由图1可以看出,整体变化趋势一致,在波长970、1 150、1 420、1 870 nm附近有明显的吸收峰,并且峰值处吸光度值有明显不同,近红外光谱反映的是含氢基团X—H(XC、N、O)振动的倍频和合频吸收[19],故近红外光谱可以用来构建蓝莓可溶性固形物、维生素C 和花青素的定量模型。但由于近红外光谱存在着基线漂移、噪音等问题,且光谱重叠严重,因此建模前需要先进行预处理以消除光谱存在的问题。

a-不同贮藏时间蓝莓样本平均光谱图;b-蓝莓原始光谱图
图1 蓝莓近红外光谱图
Fig.1 Near-infrared spectrum of blueberry

2.3.1 光谱预处理

针对蓝莓原始光谱重叠、光散射较为严重的问题,采用SNV、MSC、SG、一阶导数(1st-D)、二阶导数(2nd-D)等方法来消除背景干扰,校正样本因散射引起的误差,建模结果见表2。

对表2分析可以得出,经过预处理的模型交叉验证均方根误差(root mean square error of cross validation,RMSECV)均比原始光谱建模的值小,且相关系数也比原始光谱建模的高,说明各种预处理都能使模型稳健性提高。可溶性固形物经2nd-D+SNV处理得到的模型最好,Rc为0.896 1,RMSEC为0.869 5;维生素C最优预处理是2nd-D+SNV,Rc和RMSECV分别为0.716 5、1.162 2;花青素最优预处理是SNV,Rc和RMSECV为0.744 2、3.331 4。

表2 不同光谱预处理方法建模结果
Table 2 Modeling results of different spectral pretreatment methods

指标预处理方法RcRMSECVOriginalSpectrum0.38851.8047SNV0.46761.7312MSC0.46611.7328SG0.41041.7859可溶性固形物1st-D0.64151.50242nd-D0.70201.39471st-D+SNV0.71191.37531st-D+MSC0.67461.44582nd-D+SNV0.89610.86952nd-D+MSC0.73141.3355OriginalSpectrum0.23081.6209SNV0.25161.6123MSC0.24951.6132SG0.17441.6404维生素C1st-D0.63161.29152nd-D0.64711.27011st-D+SNV0.69291.20121st-D+MSC0.64281.27622nd-D+SNV0.71651.16222nd-D+MSC0.66901.2383OriginalSpectrum0.12444.9486SNV0.74423.3314MSC0.74403.3325SG0.11304.9553花青素1st-D0.63253.86282nd-D0.61583.92951st-D+SNV0.71253.49931st-D+MSC0.66313.73292nd-D+SNV0.70733.52562nd-D+MSC0.64163.8254

2.3.2 SiPLS优选光谱特征波段

蓝莓的光谱中除了含有能反映可溶性固形物、维生素C和花青素含量的特征信息外,也包含了大量无用信息。针对全谱建模时模型复杂度高、冗余波段严重影响校正模型的准确度的问题,运用SiPLS算法对全光谱筛选最优波段,以提高模型的预测效果[20]。将全光谱划分为10个等宽子区间,表3列出了可溶性固形物、维生素C和花青素在各个区间里分别建立PLS模型时RMSECV从小到大的前4个区间的结果。

表3 可溶性固形物、维生素C和花青素划分10个子区间建模结果
Table 3 The results of modeling soluble solids,vitamin C and anthocyanins divided into 10 sub-intervals

指标区间号波段RcRMSECV61425~15990.50461.6068可溶性固形物81775~19490.45841.654091950~21240.52891.5795102125~23000.56371.537161425~15990.54351.3595维生素C81775~19490.49031.411591950~21240.59991.2958102125~23000.53931.36392725~8990.75193.1835花青素81775~19490.37654.473591950~21240.54094.0615102125~23000.35654.5117

运用SiPLS算法将4个区间进行组合建模,分析模型的最优波段,结果见表4。可溶性固形物的最优组合是6,8,9,10四个区间联合,其RMSECV和Rc为1.305 7、0.712 6。维生素C的9,10两个区间联合最优,RMSECV为1.241 0,Rc为0.642 5。花青素在2,8,9,10四个区间的联合时模型最好,RMSECV和Rc分别为3.464 0和0.696 7。

表4 SiPLS建模结果
Table 4 The result of the SiPLS algorithm building the model

指标区间组合波段RcRMSECV6,81425~1599,1775~19490.45901.65356,91425~1599,1950~21240.52991.57836,101425~1599,2125~23000.5641.53688,91775~21240.5921.49998,101775~1949,2125~23000.66311.39319,101950~23000.64671.42276,8,91425~1599,1775~21240.59241.4993可溶性固形物6,8,101425~1599,1775~1949,2125~23000.66321.39288,9,101775~23000.71241.30606,9,101425~1599,1950~23000.64551.42136,8,9,101425~1599,1775~23000.71261.30572,6725~899,1425~15990.5451.35792,9725~899,1950~21240.59991.29582,10725~899,2125~23000.53931.36396,91425~1599,1950~21240.60191.29346,101425~1599,2125~23000.53991.3632维生素C9,101950~23000.64251.24102,6,9725~899,1425~1599,1950~21240.60191.29332,6,10725~899,1425~1599,2125~23000.53991.36322,9,10725~899,1950~23000.64061.24356,9,101425~1599,1950~23000.64111.24302,6,9,10725~899,1425~1599,1950~23000.64111.24292,8725~899,1775~19490.35404.51622,9725~899,1950~21240.45634.29672,10725~899,2125~23000.46914.26468,91775~21240.37484.47698,101775~1949,2125~23000.59503.8812花青素9,101950~23000.45004.31262,8,9725~899,1775~21240.44544.32342,8,10725~899,1775~1949,2125~23000.62313.77692,9,10725~899,1950~23000.46834.26678,9,101775~23000.67173.57712,8,9,10725~899,1775~23000.69673.4640

2.4 ELM定量模型建立与分析

极限学习机作为一种神经网络算法,其模型的性能受隐含层神经元个数影响很大,设置较大会使模型过拟合,同时也会增加网络训练时间;设置较小会使得模型欠拟合,均不利于蓝莓各指标含量预测。因此,本研究采用从10开始以5为间隔增加到75逐步寻优的方法确定隐含层神经元个数[21]。本文激活函数选择Sigmoid函数,以可溶性固形物、维生素C和花青素的校正集样本经SiPLS筛选出的特征波段作为输入,对应的含量值作为输出建立ELM预测模型。

对可溶性固形物、维生素C和花青素以预处理后的全谱和经SiPLS筛选的特征波段分别建立PLSR、ELM模型的结果见表5。由表5可以看出,以全谱建立的ELM模型预测集相关系数为0.71~0.81,而PLSR的预测集相关系数只有0.62~0.74,说明本研究采用的ELM模型比PLSR方法预测精度更高,可以实现蓝莓的可溶性固形物、维生素C和花青素含量在线快速检测,并且经过SiPLS筛选后建立的ELM模型比全光谱建立的ELM模型所使用的变量数更少、预测效果更优,说明SiPLS方法对近红外光谱建模方面有很大的潜力。

表5 不同算法建立的定量模型对比分析
Table 5 Comparison and analysis of quantitative models established by different algorithms

指标预处理方法建模方法变量数隐含层神经元数校正集验证集RcRMSECRpRMSEP2nd-D+SNV全谱-PLSR1751-0.78371.21650.73301.3389可溶性固形物全谱-ELM1751350.90380.80750.76550.9485SiPLS-PLSR701-0.85190.88350.74061.3225SiPLS-ELM701300.92050.76640.88260.53972nd-D+SNV全谱-PLSR1751-0.71651.13010.66781.2400维生素C全谱-ELM1751450.87460.90020.71321.0157SiPLS-PLSR351-0.89180.92040.71651.1622SiPLS-ELM351450.90870.69560.89720.6243SNV全谱-PLSR1751-0.73643.37410.62833.424花青素全谱-ELM1751400.90121.46250.80501.9956SiPLS-PLSR701-0.87851.96230.74263.3276SiPLS-ELM701450.94211.67100.86932.0414

可溶性固形物的最优模型为2nd-D+SNV-SiPLS-ELM,Rc为0.920 5,RMSEC为0.764 4,Rp为0.882 6,RMSEP为0.539 7;维生素C的最优预测模型为2nd-D+SNV-SiPLS-ELM,Rc、RMSEC、Rp、RMSEP分别为0.908 7、0.695 6、0.897 2、0.624 3;花青素的最优模型为SNV-SiPLS-ELM,Rc、RMSEC、Rp、RMSEP分别为0.942 1、1.671 0、0.869 3、2.041 4。可溶性固形物、维生素C和花青素的近红外光谱ELM定量模型预测值与真实值分析见图2~图4。

图2 ELM模型预测蓝莓可溶性固形物含量
Fig.2 The ELM model predicts the soluble solids content of blueberry

图3 ELM模型预测蓝莓维生素C含量
Fig.3 The ELM model predicts the vitamin C content of blueberry

图4 ELM模型预测蓝莓花青素含量
Fig.4 The ELM model predicts the anthocyanin content of blueberry

3 结论与讨论

本文以辽宁丹东产“瑞卡”蓝莓为研究对象,基于NIRS技术结合ELM算法对蓝莓的可溶性固形物、维生素C、花青素含量建立了定量预测模型。通过分析MSC、SNV和1st-D等9种预处理方法对预测模型的影响,可溶性固形物和维生素C经2nd-D+SNV处理最优,花青素的最优预处理为SNV。针对全光谱建模时变量冗杂的问题,本研究在最优预处理的基础上分别对可溶性固形物、维生素C和花青素进行SiPLS特征波段筛选,建立了SiPLS-ELM定量模型。可溶性固形物、维生素C和花青素分别筛选出701、351、701个特征波长,建立的SiPLS-ELM模型验证集相关系数Rp分别为0.882 6、0.897 2、0.869 3;全谱-ELM模型Rp分别为0.765 5、0.713 2、0.805 0。

从预测精度分析,SiPLS-ELM模型比全光谱建立的模型精度更高,且使用的变量仅为全谱的1/5~2/5,这与丁姣等[22]建立Si-ELM模型检测食醋中SSFSC 含量的研究结论一致。关婷予等[23]建立大米蛋白粉组成成分的ELM模型,预测精度与PLS模型相比平均提高33%;本研究构建的SiPLS-ELM模型RMSEP分别为0.539 7、0.624 3、2.041 4,与全谱-PLS模型相比,预测精度平均提高了50%。与刘小路等[24]建立的蓝莓花青素PLS模型相比,本研究所建SNV-SiPLS-ELM模型预测相关系数提高了9%,预测误差降低了27%。无论是建模效果还是验证效果,相对于传统的PLSR模型,本研究所建SiPLS-ELM模型均更为理想,ELM方法结合近红外光谱技术在蓝莓品质快速分析方面有极高的研究意义和应用价值。

本研究采集了蓝莓在4 ℃贮藏12 d共150组样本的数据进行建模分析,下一步研究会增加样本数量,延长贮藏时间,建立普适性更强的模型,以实现对不同贮藏期蓝莓果实可溶性固形物、维生素C和花青素含量的检测。

参考文献

[1] 谢国芳,刘娜,卢丹,等.不同时间采收的贵州主栽蓝莓果实品质的综合评价[J].经济林研究,2020,38(2):209-214;240.

XIE G F,LIU N,LU D,et al.Comprehensive evaluation of fruit quality of main blueberry cultivars harvested at different dates in Guizhou[J].Non-Wood Forest Research,2020,38(2):209-214;240.

[2] 路辉,彭彬倩,冯晓宇,等.大米直链淀粉、蛋白质、脂肪、水分含量的近红外光谱检测模型优化[J].中国稻米,2020,26(6):55-59;63.

LU H,PENG B Q,FENG X Y,et al.Model optimization for determination of amylose,protein,fat and moisture content in rice by near-infrared spectroscopy[J].China Rice,2020,26(6):55-59;63.

[3] 赵思梦,于宏威,高冠勇,等.花生蛋白组分及其亚基含量近红外分析检测方法[J].光谱学与光谱分析,2021,41(3):912-917.

ZHAO S M,YU H W,GAO G Y,et al.Rapid determination of protein components and their subunits in peanut based on near infrared technology[J].Spectroscopy and Spectral Analysis,2021,41(3):912-917.

[4] 张鹏,陈帅帅,李江阔,等.采用近红外光谱进行采后苹果品种及货架期定性判别[J].食品与发酵工业,2019,45(19):200-205.

ZHANG P,CHEN S S,LI J K,et al.Near-infrared spectroscopy for qualitative identification of postharvest apple varieties and shelf life[J].Food and Fermentation Industries,2019,45(19):200-205.

[5] 雍婧姣,王霞,石思佳,等.基于R语言的近红外光谱对甘草中指标成分定量分析[J].中国实验方剂学杂志,2019,25(9):176-181.

YONG J J,WANG X,SHI S J,et al.Quantitative analysis of index components in glycyrrhizae Radix et khizoma by near infrared spectroscopy based on R software[J].Chinese Journal of Experimental Traditional Medical Formulae,2019,25(9):176-181.

[6] 杨晓辉,张正华.近红外分析仪测定汽油辛烷值方法的建立[J].石油化工技术与经济,2016,32(6):14-18.

YANG X H,ZHANG Z H.Determination of octane number of gasoline with near infrared spectroscopy[J].Technology-Economics in Petrochemicals,2016,32(6):14-18.

[7] 王保义,赵硕,张少敏.基于云计算和极限学习机的分布式电力负荷预测算法[J].电网技术,2014,38(2):526-531.

WANG B Y,ZHAO S,ZHANG S M.A distributed load forecasting algorithm based on cloud computing and extreme learning machine[J].Power System Technology,2014,38(2):526-531.

[8] OUYANG T H,WANG C W,YU Z J,et al.Quantitative analysis of gas phase IR spectra based on extreme learning machine regression model[J].Sensors (Basel,Switzerland),2019,19(24):5 535.

[9] 罗一甲,祝赫,李潇涵,等.赤霞珠酿酒葡萄总酚含量的近红外光谱定量分析[J].光谱学与光谱分析,2021,41(7):2 036-2 042.

LUO Y J,ZHU H,LI X H,et al.Quantitative analysis of total phenol content in cabernet sauvignon grape based on near-infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2021,41(7):2 036-2 042.

[10] BUREAU S,RUIZ D,REICH M,et al.Rapid and non-destructive analysis of apricot fruit quality using FT-near-infrared spectroscopy[J].Food Chemistry,2009,113(4):1 323-1 328.

[11] CAYUELA J A.Prediction of intact nectarine quality using a Vis/NIR portable spectrometer[J].International Journal of Postharvest Technology and Innovation,2011,2(2):131.

[12] 开启余.紫外分光光度法测定VC银翘片中维生素C含量[J].福建分析测试,2015,24(3):35-37.

KAI Q Y.Ultraviolet spectrophotometric method determination of the content of the vitamin C in the VC fructus forsythiae flakes[J].Fujian Analysis &Testing,2015,24(3):35-37.

[13] 付晓伟,吴晓,姜莉莉,等.紫外分光光度法测定水果中维生素C含量[J].山东化工,2020,49(24):102-103;105.

FU X W,WU X,JIANG L L,et al.Determination of vitamin C in fruits by UV spectrophotometry[J].Shandong Chemical Industry,2020,49(24):102-103;105.

[14] 王姗姗.蓝莓可溶性固形物、总酚和花青素近红外光谱检测技术研究[D].北京:北京林业大学,2012.

WANG S S.Research on near infrared spectroscopy for rapid measurements of SSC,total phenols,and anthocyanins in blueberry[D].Beijing:Beijing Forestry University,2012.

[15] 曹建康,姜微波,赵玉梅.果蔬采后生理生化实验指导[M].北京:中国轻工业出版社,2007.

CAO J K,JIANG W B,ZHAO Y M.Experimental Guidance of Postharvest Physiology and Biochemistry of Fruits and Vegetables[M].Beijing:China Light Industry Press,2007.

[16] 尹宝全,史银雪,孙瑞志,等.近红外多组分分析中异常样本识别方法[J].农业机械学报,2015,46(S1):122-127.

YIN B Q,SHI Y X,SUN R Z,et al.Outlier samples detection method for NIR multicomponent analysis[J].Transactions of the Chinese Society for Agricultural Machinery,2015,46(S1):122-127.

[17] 张娟.基于SPXY-WT-CARS算法的草莓糖度近红外光谱检测研究[J].食品与发酵科技,2020,56(6):136-139;142.

ZHANG J.Research on the detection of strawberry sugar content by NIR based on SPXY-WT-CARS algorithm[J].Food and Fermentation Sciences &Technology,2020,56(6):136-139;142.

[18] 王世芳,韩平,崔广禄,等.SPXY算法的西瓜可溶性固形物近红外光谱检测[J].光谱学与光谱分析,2019,39(3):738-742.

WANG S F,HAN P,CUI G L,et al.The NIR detection research of soluble solid content in watermelon based on SPXY algorithm[J].Spectroscopy and Spectral Analysis,2019,39(3):738-742.

[19] 赵荣军,邢新婷,吕建雄,等.粗皮桉木材力学性质的近红外光谱方法预测[J].林业科学,2012,48(6):106-111.

ZHAO R J,XING X T,LYU J X,et al.Estimation of wood mechanical properties of Eucalyptus pellita by near infrared spectroscopy[J].Scientia Silvae Sinicae,2012,48(6):106-111.

[20] 易克传,曾其良,张新伟,等.基于SiPLS算法的近红外光谱检测梨可溶性固形物含量[J].光谱实验室,2013,30(1):68-72.

YI K C,ZENG Q L,ZHANG X W,et al.Measurement of soluble solids content in pear by NIR spectroscopy based on synergy interval partial least-squares[J].Chinese Journal of Spectroscopy Laboratory,2013,30(1):68-72.

[21] 倪鸿飞,斯乐婷,黄家鹏,等.近红外光谱结合遗传算法优化的极限学习机实现银杏叶纯化过程有效成分快速测定[J].中国中药杂志,2021,46(1):110-117.

NI H F,SI L T,HUANG J P,et al.Rapid determination of active components in Ginkgo biloba leaves by near infrared spectroscopy combined with genetic algorithm joint extreme learning machine[J].China Journal of Chinese Materia Medica,2021,46(1):110-117.

[22] 丁姣,蔡建荣,张海东,等.近红外结合Si-ELM检测食醋品质指标[J].食品与机械,2012,28(1):93-96.

DING J,CAI J R,ZHANG H D,et al.Measurement of quality index in vinegar using near infrared(NIR) combined with Si-ELM[J].Food &Machinery,2012,28(1):93-96.

[23] 关婷予,黄咏梅,林敏,等.大米蛋白粉多组分含量近红外光谱快速检测[J].中国粮油学报,2021,36(6):136-142.

GUAN T Y,HUANG Y M,LIN M,et al.Determination of multi-component constituents of rice protein powder rapidly by near infrared spectroscopy[J].Journal of the Chinese Cereals and Oils Association,2021,36(6):136-142.

[24] 刘小路,薛璐,鲁晓翔,等.近红外光谱技术快速无损检测蓝莓总黄酮、花青素的研究[J].食品工业科技,2015,36(16):58-61;67.

LIU X L,XUE L,LU X X,et al.Fast non-destructive testing of total flavonoids and anthocyanins in blueberries by near-infrared spectroscope[J].Science and Technology of Food Industry,2015,36(16):58-61;67.

Establishment of quantitative models for blueberry storage quality based on near infrared spectroscopy combined with extreme learning machine

ZHU Jinyan,ZHU Yujie*,FENG Guohong*,ZENG Mingfei,LIU Siqi

(College of Engineering and Technology,Northeast Forestry University,Harbin 150040,China)

ABSTRACT Near infrared spectroscopy technology joint extreme learning machine (ELM) method was used to establish a quantitative detection model of blueberry storage quality,so as to achieve the rapid non-destructive detection of the soluble solids,vitamin C and anthocyanin of blueberry fruit and provide technical reference for online quality testing during the low temperature storage of fresh blueberries.The LabSpec 5000 spectrometer was used to collect near infrared spectra of 150 blueberry samples in 5 different storage times,the abnormal samples were screened by combined X/Y anomaly sample identification and rejection method,and the sample set was divided by the joint X-Y distance sample set division method.By comparing and analyzing the effect of pretreatment methods such as standard normal variate,multiplicative scatter correction,first-order derivative on model performance,the optimal pretreatment method of each of the three components of blueberries was determined.The characteristic band was selected by the synergy interval partial least squares algorithm (SiPLS),and used as input to establish the ELM quantitative analysis model.The results of the ELM model were compared with the partial least-squares regression (PLSR).The results showed that the correction set correlation coefficients of the soluble solids,vitamin C and anthocyanin content of blueberries were 0.920 5,0.908 7 and 0.942 1 respectively.The verification set correlation coefficients were 0.882 6,0.897 2,and 0.869 3 respectively.The root mean square error of correction (RMSEC) were 0.766 4,0.695 4,1.671 0,respectively.The root mean square error of prediction (RMSEP) were 0.539 7,0.624 3,2.041 4,respectively.In this study,1/5-2/5 variables of the whole spectrum were used to achieve better performance than the model established by the original variables.Compared with the traditional PLSR model,the accuracy of the ELM model established in this paper was significantly improved,indicating that SiPLS-ELM combined with near infrared spectroscopy has great potential in the online nondestructive detection of blueberry components.

Key words near infrared spectroscopy;extreme learning machine;blueberry;synergy interval partial least squares;non-destructive testing

DOI:10.13995/j.cnki.11-1802/ts.029223

引用格式:朱金艳,朱玉杰,冯国红,等.基于近红外光谱技术联合极限学习机的蓝莓贮藏品质定量模型建立[J].食品与发酵工业,2022,48(16):270-276.ZHU Jinyan,ZHU Yujie,FENG Guohong,et al.Establishment of quantitative models for blueberry storage quality based on near infrared spectroscopy combined with extreme learning machine[J].Food and Fermentation Industries,2022,48(16):270-276.

第一作者:硕士研究生(朱玉杰教授和冯国红副教授为共同通信作者,E-mail:zhuyujie004@126.com;fgh_1980@126.com)

基金项目:中央高校基本科研业务费专项资金项目(2572020BL01);黑龙江省自然科学基金项目(LH2020C050)

收稿日期:2021-09-07,改回日期:2021-10-19