基于集成学习和近红外光谱的蓝莓贮藏品质检测方法研究

张晨,朱玉杰*,冯国红*

(东北林业大学 工程技术学院,黑龙江 哈尔滨,150040)

摘 要 针对传统化学方法测定蓝莓贮藏品质存在工序复杂、成本高等问题,提出一种基于集成学习和近红外光谱技术的无损检测方法。以150个瑞卡蓝莓样本和30个绿宝石蓝莓样本为研究对象,利用近红外光谱仪采集不同贮藏时间的瑞卡蓝莓和不同成熟度的绿宝石蓝莓近红外反射光谱。利用光谱-理化值共生距离法(sample set partitioning based on joint X-Y distance, SPXY)将瑞卡蓝莓样本按照4:1的数量比划分为训练集和验证集,绿宝石蓝莓样本为测试集,统一采用偏最小二乘法(partial least squares regression, PLSR)对比分析标准正态变换(standard normal variate transformation, SNV)、数据标准化(Z-score standardization, Z-score)、一阶导数(first derivative, 1st-D)、二阶导数(second derivative, 2nd-D)中一种或几种组合方法对原始光谱的预处理效果,使用竞争性自适应重加权采样法(competitive adaptive reweighted sampling, CARS)对蓝莓近红外光谱特征波长进行筛选,将支持向量回归(support vector regression, SVR)、极端梯度上升(extreme gradient boosting, XGBoost)和多层感知机(multilayer perceptron, MLP)作为基模型,采用Stacking集成策略,建立Stacking集成学习模型。将与蓝莓贮藏品质最为相关的维生素C、可溶性固形物(soluble solids content, SSC)和花青素作为标签,分别训练4种预测模型,其中Stacking集成模型最优,维生素C、SSC和花青素测试集相关系数R2分别为0.872 6、0.881 4和0.905 5,均方根误差(root mean square error, RMSE)分别为0.566 4、0.696 3和1.693 9,相对分析误差(relative percent deviation, RPD)分别为2.801 6、2.903 7和3.253。结果表明,该文提出的Stacking集成学习模型融合SVR、XGBoost和MLP的优势,具有精度高,稳定性好,泛化能力强的特点,可为蓝莓无损检测研究提供新的思路。

关键词 近红外光谱;集成学习;蓝莓;无损检测;支持向量回归;极端梯度上升;多层感知机

蓝莓,又称越橘,属杜鹃花科越橘属植物,富含花青素、维生素C、可溶性固形物等营养成分,具有抗癌、抗氧化衰老、调节血糖浓度、预防心血管疾病等功能[1],被誉为浆果之王。蓝莓采收季节较强,鲜果含水量高,容易受到挤压损伤,采摘后容易变质[2],因此通常采用低温贮藏技术延长保质期。在贮藏期间,蓝莓品质会随贮藏时间延长而快速变化,进而影响产品销售和深加工环节,因此建立一种高效准确无损的检测方法对当前蓝莓产业的发展具有重要意义。

由于拥有快速和无损的优势,近红外光谱技术在农业[3-5]、林业[6-8]和中草药[9-10]等领域得到广泛应用。例如孙晓荣等[11]利用近红外光谱技术实现快速无损检测小麦粉的品质,刘翠玲等[12]利用近红外光谱技术实现对京郊鲜食杏品质的快速无损检测,汤文涛等[13]利用近红外光谱技术对山核桃的蛋白质和脂肪含量进行快速检测,关晔晴等[14]利用近红外光谱技术实现对蜜桃果实内部品质快速检测。

当前对蓝莓各成分无损检测研究较多[15-19],但模型准确度和泛化能力均有待提高。本文以丹东瑞卡蓝莓和绿宝石蓝莓为研究对象,通过实验获得瑞卡蓝莓不同贮藏时间和绿宝石蓝莓不同成熟度的近红外光谱、花青素、可溶性固形物和维生素C相关数据,使用竞争性自适应重加权采样法(competitive adaptive reweighted sampling, CARS)对预处理光谱进行特征波长筛选,将支持向量回归(support vector regression, SVR)、极端梯度上升(extreme gradient boosting, XGBoost)和多层感知机(multilayer perceptron, MLP)作为基模型,采用Stacking融合策略,建立基于集成学习的蓝莓贮藏品质无损检测模型。研究结果表明,与SVR、XGBoost和MLP模型相比,本文所提出的Stacking集成学习模型具有更高的精度、稳定性和泛化能力,可为蓝莓无损检测研究提供新的思路。

1 材料与方法

1.1 实验材料

本实验选用品种相近,果实大小相同,果皮无损伤的辽宁丹东瑞卡蓝莓和绿宝石蓝莓作为样本,瑞卡蓝莓成熟度相同,绿宝石蓝莓成熟度不同,每个样本中含有20枚果实,瑞卡蓝莓共计150个样本,绿宝石蓝莓共计30个样本。将瑞卡蓝莓样本进行编号,放置在4 ℃的生化培养箱中进行贮藏,之后在第0、3、6、9、12天分别测量30个样本的近红外光谱、可溶性固形物、维生素C和花青素含量。将绿宝石蓝莓进行编号,在第0天测量所有样本的近红外光谱、可溶性固形物、维生素C和花青素含量。

1.2 仪器与设备

LabSpec 5000型光谱仪,美国ASD公司;LYT-330手持式折光仪,上海淋誉公司;UV-1801紫外可见分光光度计,北京北分瑞利公司;SPX-70BⅢ型生化培养箱,天津泰斯特公司。

1.3 数据采集

本实验采用近红外光谱仪及其漫反射组件对蓝莓近红外光谱进行采集,在采集过程中为了减小误差,对样本中的每个果实采集3次光谱,将60个光谱的平均值作为该样本的近红外光谱数据。仪器参数设定:光谱波长范围为500~2 300 nm,采集间隔1 nm,扫描次数32。原始光谱图和瑞卡蓝莓不同贮藏时间平均光谱图如图1所示。

A-蓝莓原始光谱曲线;B-瑞卡蓝莓不同贮藏时间平均光谱曲线
图1 蓝莓近红外光谱曲线
Fig.1 Near infrared spectrum curve of blueberry

本实验采用折光仪对蓝莓可溶性固形物的含量进行采集。在使用蒸馏水对折光仪进行零点校正后,吸取样本果汁滴入折光仪进行读数,获取样本中可溶性固形物含量,其中每个样本测量3次,将3次平均值作为该样本的可溶性固形物数据。

样本中维生素C和花青素含量通过标准曲线法进行测量,参考文献[20]中的方法,分别制作出维生素C 标准曲线和花青素标准曲线。从样本中取出2 g蓝莓,加入2 mL的10%(体积分数)HCl溶液进行研磨,使用蒸馏水定容至25 mL;取出2 mL溶液,加入0.2 mL 10% HCl和0.4 mL 1% HCl,用蒸馏水定容至10 mL,最后使用分光光度计测量其243 nm处吸光度,查找标准曲线,计算出样本维生素C的含量。从样本中取出2 g蓝莓,加入少量1%(体积分数)盐酸-甲醇溶液,研磨后继续使用溶液定容至20 mL,之后放置在4 ℃的保温箱中25 min。静置完成后过滤溶液,放置在离心机(4 000 r/min)中离心10 min,取出上层清液1 mL,使用蒸馏水稀释至8 mL,测出吸光度,查找标准曲线,计算出样本花青素含量。瑞卡蓝莓可溶性固形物、花青素和维生素C平均测量值随贮藏时间变化如图2所示。

图2 瑞卡蓝莓不同贮藏时间平均理化指标曲线
Fig.2 Average physicochemical index curve of Ricca blueberries at different storage times

1.4 贮藏品质分析

由图2可知,在贮藏期间,可溶性固形物含量呈上升趋势,花青素和维生素C含量呈下降趋势,这与文献[21]的实验结果具有一致性。将可溶性固形物、花青素和维生素C进行标准化处理,采用主成分分析的方法构建蓝莓贮藏品质综合得分[22-23],首先对上述指标进行主成分分析,构建3个新的相互独立的综合指标,其次按照各综合指标的方差贡献率,对综合指标进行加权求和,计算每个蓝莓样本的综合得分,瑞卡蓝莓样本综合得分如图3所示。

图3 综合得分图
Fig.3 Comprehensive score distribution

参照NY/T 3033—2016《农产品等级规格 蓝莓》的规定,根据蓝莓贮藏品质综合得分,采用K均值聚类方法(K-means clustering, K-means),将瑞卡蓝莓150个样本分为三类,其中一级品可溶性固形物、花青素和维生素C的均值分别为10.4、10.3、20.4;二级品均值分别为11.1、8.8、17.0;三级品均值分别为11.9、7.3、13.1。样本中贮藏品质随贮藏时间变化如图4所示,可以明显看出随着贮藏时间的延长,一级品数量在前3天内快速减少,在后9天内缓慢减少,三级品数量在前6天内缓慢增加,在后6天内快速增加。

图4 贮藏品质变化曲线
Fig.4 Variation curve of storage quality

1.5 数据划分

本文采用光谱-理化值共生距离法(sample set partitioning based on joint X-Y distance, SPXY)将瑞卡蓝莓样本划分为训练集和验证集,其中训练集和验证集的比例为4:1,绿宝石蓝莓样本为测试集。SPXY是基于K-S(Kennard-Stone)算法提出的一种改进方法,K-S算法依据特征维度欧氏距离对数据集进行划分;而SPXY算法,在此基础上增加了对不同样本标签维度方向的欧氏距离的计算,并通过正则化将2种距离结合,更加全面地评估和划分数据集。特征维度欧氏距离、标签维度欧式距离和正则距离计算如公式(1)~公式(3)所示。样本划分结果如表1所示。

表1 训练集样本和测试集样本结果统计
Table 1 results statistics of training set samples and test set samples

理化指标样本集数量范围均值标准差训练集1208.47~31.4416.584.8花青素验证集3011.24~24.67 16.353.43测试集308.13~30.2217.575.54训练集1206.6~15.711.291.29可溶性固形物验证集30 8.8~13.9711.011.36测试集307.42~14.7611.942.15训练集1205.51~13.518.671.55维生素C验证集306.23~12.548.441.47测试集305.59~12.878.781.62

(1)

(2)

(3)

式中:p,q为数据集中的一对样本;J表示特征维度;maxp,q∈[1,N]dx(p,q)和maxp,q∈[1,N]dy(p,q)分别为数据集中最大特征维度欧氏距离和最大标签维度欧式距离。

1.6 光谱预处理

由于蓝莓果实外形的差异以及环境的影响,原始光谱存在大量干扰信息,主要表现为光源散射、基线重叠和噪声,因此为了减少相关因素的影响,需要对光谱数据进行预处理。本文选用标准正态变换(standard normal variate transformation, SNV)、数据标准化(Z-score standardization, Z-score)、一阶导数(first derivative, 1st-D)、二阶导数(second derivative, 2nd-D)4种预处理方法对原始光谱进行处理,选用偏最小二乘方法(partial least squares regression, PLSR)对预处理后的数据进行建模,采用相关系数R2、均方根误差(root mean square error, RMSE)和相对分析误差(relative percent deviatio, RPD)对模型进行评价,计算方法如公式(4)~公式(6)所示:

(4)

(5)

(6)

式中:yi表示样本i的真实值;表示样本i的预测值;表示所有样本真实值的平均值;n为数据集中样本的数量。

通常所建模型的RMSE越小,R2越接近1,预测效果越好,但是在实际建模过程中,一般设定R2为0.66~0.80时,刚好达到预测效果;R2为0.81~0.90时,预测效果较好;R2>0.90时,预测效果最佳。RPD主要对模型可靠性进行衡量,当RPD<1.4时,认为所建模型可靠;当RPD为1.4~2.0时,认为所建模型较可靠;当RPD>2.0时,则认为所建模型有较高可靠性,能够用于模型分析。各种光谱预处理方法建模结果如表2所示。

表2 不同光谱预处理方法建模结果
Table 2 modeling results of different spectral pretreatment methods

理化指标预处理方法R2RMSERPD原始光谱0.353 21.466 71.243 4SNV+1st-D0.788 70.838 32.175 5可溶性固形物SNV+2nd-D0.756 50.899 92.026 5Z-score+1st-D0.855 20.6942.627 9Z-score+2nd-D0.849 60.707 42.578 6原始光谱0.020 71.520 71.010 5SNV+1st-D0.659 40.896 81.713 5维生素CSNV+2nd-D0.744 40.776 91.978Z-score+1st-D0.655 80.901 51.704 5Z-score+2nd-D0.829 30.634 82.420 4原始光谱0.011 74.538 91.005 9SNV+1st-D0.918 81.301 33.509 3花青素SNV+2nd-D0.694 32.524 51.808 6Z-score+1st-D0.709 32.461 71.854 7Z-score+2nd-D0.810 31.999 12.284

从表2可知,采用预处理方法后能够大幅提高模型的相关系数和相对分析误差,减少RMSE,其中可溶性固形物、维生素C和花青素最优模型的R2均大于0.81,RPD均大于2,说明采用近红外光谱对蓝莓贮藏品质进行无损检测是可行的。由表2可知,可溶性固形物最优预处理方法为Z-score+1st-D;维生素C最优预处理方法为Z-score+2nd-D;花青素最优预处理方法为SNV+1st-D。

1.7 提取特征波长

预处理后的光谱数据中含有大量的冗余信息,严重影响模型的鲁棒性和准确性,为了简化模型结果和提高预测精度,本文使用竞争性自适应重加权采样法(competitive adaptive reweighted sampling, CARS)对蓝莓近红外光谱特征波长进行筛选。由于CARS算法具有随机性,本文多次重复,选择选取最佳波段,算法迭代过程中RMSE以及被选择波长数量变化如图5所示,最优波长数量信息如表3所示。

表3 最优波长数量信息表
Table 3 Optimal wavelength number information table

理化指标最优迭代次数RMSE波长数量花青素311.276 464可溶性固形物430.43274维生素C400.322 464

A-RMSE曲线变化;B-波长数量曲线变化
图5 RMSE和波长数量变化图
Fig.5 RMSE and wavelength number changes

2 算法原理

集成学习是训练多个机器学习模型并将其输出组合在一起的过程,致力构建一个最优的预测模型。集成学习可以提高整体模型的稳定性,从而获得更准确的预测结果,其关键在于基模型的选择和融合。

2.1 基模型选择

本文利用K邻近算法(K-nearest neighbor, KNN),随机森林(random forest, RF)等10余种常见机器学习模型对数据进行训练,其中SVR对数据异常值具有鲁棒性,训练速度快,泛化能力强;XGBoost对于中低维数据有很好的处理速度和精度,具有一定的抗噪能力;MLP具有自适应自学习能力,对数据拟合能力强,预测精度高。

2.1.1 SVR

SVR是一种回归模型,与一般线性回归相比,SVR首先在损失计算上不考虑间隔带ε范围内的误差;其次通过最大化间隔带的宽度与最小化损失函数来优化模型。SVR算法回归估计函数如公式(7)所示,其中w,b分别为系数矩阵和常数项,φ(x)为样本数据与高维特征空间的映射函数。利用公式(8)计算得到wb:

(7)

(8)

式中:为系数矩阵的模;C为惩罚因子;n为样本数量;lεε的不敏感损失函数。

2.1.2 XGBoost

XGBoost是基于提升树的Boosting算法,其原理是把每个弱模型的输出结果当成连续值,使得损失函数连续,进而通过对弱模型迭代达到损失函数最小,最终完成对整个模型的优化。XGBoost最终预测结果为所有弱模型输出结果之和,计算方法如公式(9)所示:

(9)

式中:表示样本i的预测值;fp(xi)表示第p个弱模型输出结果;P表示弱模型总数;F为所有弱模型的集合。

XGBoost目标函数如公式(10)所示:

(10)

式中:n表示样本数量,yi表示样本i的真实值,l为真实值和预测值之间的损失函数,Ω为弱模型的复杂度函数,c为公式合并后的常数项。

2.1.3 多层感知机(multilayer perceptron, MLP)

MLP也称为人工神经网络,其结构包括输入层、输出层和隐藏层,通过线性变换和非线性函数激活的方式进行特征变换,使用小批量梯度下降和反向传播更新MLP中的参数,最后完成对整个模型的优化。损失函数的计算如公式(11)所示:

(11)

式中:N为小批量梯度下降中样本的数量;yi为真实值;为模型预测值。

2.2 融合策略

按照基模型是否相同,融合策略可以分为同质集成和异质集成,其中同质集成按照基模型之间是否存在依赖关系,可以分为并行Bagging集成和串行Boosting集成;异质集成按照元模型训练数据选取的不同,可以分为Stacking集成和Blending集成。为了充分利用样本数据,本文采用Stacking集成策略融合SVR、XGBoost和MLP建立蓝莓贮藏品质无损检测模型,算法整体架构如图6所示,其流程共分为5步。

图6 Stacking集成学习整体架构图
Fig.6 Stacking ensemble learning architecture

a)如图7所示,在训练SVR、XGBoost和MLP 3个基模型时,将训练集数据划分为5个相等的集合,取其中一份进行预测,其余进行训练。

图7 基模型数据流程图
Fig.7 Base model data flow diagram

b)每个基模型都要进行5折叠交叉验证,验证完成后,将训练集预测结果合并构成元模型训练集特征。

c)使用所有基模型的交叉验证模型,对验证集和测试集进行预测,将得到的5次预测结果求取平均值,获得元模型验证集特征和测试集特征。

d)如图6所示,将获得的3个特征进行合并,构建元模型XGBoost的训练集、验证集和测试集。

e)利用新的训练集、验证集和测试集对元模型XGBoost进行训练、验证和测试,得到最终结果。

3 结果与分析

为了检验本文提出的Stacking集成学习算法的有效性,将其与SVR、XGBoost、MLP算法进行比较,各算法建模结果如表4所示。与其他单一预测模型相比,本文所提出的Stacking集成学习效果最优,其中维生素C预测模型相关系数R2为0.872 6,RMSE为0.566 4,RPD为2.801 6;可溶性固形物预测模型相关系数R2为0.881 4,RMSE为0.696 3,RPD为2.903 7;花青素预测模型相关系数R2为0.905 5,RMSE为1.693 9,RPD为3.253。上述所有模型的相关系数R2均大于0.81,RPD均大于2,说明本文所提出的模型具有较高的精度和稳定性,以及良好的泛化性。维生素C、可溶性固形物和花青素测测试集的预测值与真实值分布散点图如图8~图10所示。

表4 不同算法建模结果
Table 4 Modeling results of different algorithm

理化指标模型名称训练集验证集测试集R2RMSER2RMSERPDR2RMSERPD维生素CSVR0.974 20.257 80.8810.417 82.898 80.8450.705 52.54XGBoost0.979 80.2280.853 10.463 92.6090.845 60.715 82.544 9MLP0.999 90.001 70.894 60.3933.080 20.837 70.733 82.482 2Stacking0.987 60.1720.937 70.279 84.006 40.872 60.566 42.801 6可溶性固形物SVR0.986 60.224 10.831 50.472 32.436 10.839 60.861 42.496 8XGBoost0.983 90.245 60.872 70.410 42.802 70.858 60.808 92.659 3MLP0.999 90.003 90.877 50.402 72.857 10.848 10.838 32.565 7Stacking0.958 50.284 60.909 70.343 33.327 70.881 40.696 32.903 7花青素SVR0.954 71.0060.869 71.367 82.770 30.872 82.110 82.803 8XGBoost0.9760.731 60.891 81.246 93.040.825 52.4712.393 8MLP0.999 90.002 40.828 61.569 12.415 40.855 12.2522.627Stacking0.986 50.556 60.917 91.028 93.490.905 51.693 93.253

A-SVR模型散点图;B-XGBoost模型散点图;C-MLP模型散点图;D-Stacking模型散点图
图8 维生素C预测值与真实值散点图
Fig.8 Scatter plot of predicted and true values of vitamin C

A-SVR模型散点图;B-XGBoost模型散点图;C-MLP模型散点图;D-Stacking模型散点图
图9 可溶性固形物预测值与真实值散点图
Fig.9 scatter plot of predicted and true values of soluble solids content

A-SVR模型散点图;B-XGBoost模型散点图;C-MLP模型散点图;D-Stacking模型散点图
图10 花青素预测值与真实值散点图
Fig.10 Scatter plot of predicted and true values of anthocyanin

4 结论

本文以品种相近的丹东瑞卡蓝莓和绿宝石蓝莓为研究对象,采集不同贮藏时间的瑞卡蓝莓和不同成熟度的绿宝石蓝莓近红外反射光谱和理化指标,之后利用4种算法,建立蓝莓贮藏品质无损检测模型,最终得出如下结论:

a)通过比较4种光谱预处理方法,发现可溶性固形物最优预处理方法为Z-score+1st-D,维生素C最优预处理方法为Z-score+2nd-D,花青素最优预处理方法为SNV+1st-D。

b)采用竞争性自适应重加权采样法对预处理光谱进行处理,能够有效对特征波长进行筛选,简化了模型复杂度,提高了预测精度。

c)与SVR,XGBoost和MLP模型相比,本文所提出的Stacking集成学习模型具有更高的精度和稳定性,以及更好的泛化能力,其中维生素C预测模型的相关系数R2为0.872 6,可溶性固形物预测模型的相关系数R2为0.881 4,花青素预测模型的相关系数R2为0.905 5。

参考文献

[1] KALT W, CASSIDY A, HOWARD L R, et al.Recent research on the health benefits of blueberries and their anthocyanins[J].Advances in Nutrition, 2020, 11(2):224-236.

[2] QIAO S C, TIAN Y W, WANG Q H, et al.Nondestructive detection of decayed blueberry based on information fusion of hyperspectral imaging (HSI) and low-Field nuclear magnetic resonance (LF-NMR)[J].Computers and Electronics in Agriculture, 2021,184:106100.

[3] 翁海勇, 许金钗, 陶铸, 等.高EGCG含量茶树品种光谱识别模型构建[J].中国农机化学报, 2021, 42(6):111-117.

WENG H Y, XU J C, TAO Z, et al.Construction of spectral screening model for tea cultivars with high EGCG content[J].Journal of Chinese Agricultural Mechanization, 2021, 42(6):111-117.

[4] 王冬, 王坤, 吴静珠, 等.基于光谱及成像技术的种子品质无损速测研究进展[J].光谱学与光谱分析, 2021, 41(1):52-59.

WANG D, WANG K, WU J Z, et al.Progress in research on rapid and non-destructive detection of seed quality based on spectroscopy and imaging technology[J].Spectroscopy and Spectral Analysis, 2021, 41(1):52-59.

[5] 金文玲, 曹乃亮, 朱明东, 等.基于近红外超连续激光光谱的水稻种子活力无损分级检测研究[J].中国光学, 2020, 13(5):1032-1043.

JIN W L, CAO N L, ZHU M D, et al.Nondestructive grading test of rice seed activity using near infrared super-continuum laser spectrum[J].Chinese Optics, 2020, 13(5):1032-1043.

[6] 阚相成, 李耀翔, 王立海, 等.基于光谱预处理的低温水曲柳原木含水率检测[J].中南林业科技大学学报, 2022, 42(11):154-163.

KAN X C, LI Y X, WANG L H, et al.Moisture content detection of Fraxinus mandshurica logs at low temperatures based on different spectrum pretreatments[J].Journal of Central South University of Forestry &Technology, 2022, 42(11):154-163.

[7] 陈博文, 胡娟, 金咏琪, 等.基于傅里叶红外光谱预测翅荚木顺纹抗压强度[J].西南林业大学学报(自然科学), 2022, 42(4):178-183.

CHEN B W, HU J, JIN Y Q, et al.Prediction for compressive strength parallel to grain of Zenia insignis plantation based on Fourier infrared spectroscopy[J].Journal of Southwest Forestry University (Natural Sciences), 2022, 42(4):178-183.

[8] 汪紫阳, 尹世逵, 李颖, 等.基于可见/近红外光谱识别东北地区常见木材[J].浙江农林大学学报, 2019, 36(1):162-169.

WANG Z Y, YIN S K, LI Y, et al.Identification of common wood species in northeast China using Vis/NIR spectroscopy[J].Journal of Zhejiang A &F University, 2019, 36(1):162-169.

[9] 李倩, 斯乐婷, 何衍钦, 等.基于近红外光谱技术的藿香正气口服液质量透瓶快速检测方法研究[J].药学学报, 2022, 57(2):453-459.

LI Q, SI L T, HE Y Q, et al.A study on the rapidly non-destructive detection method of Huoxiang Zhengqi oral liquid using near infrared spectroscopy[J].Acta Pharmaceutica Sinica, 2002, 57(2):453-459.

[10] 曲正义, 逄世峰, 王兆森, 等.基于近红外光谱技术的大力参含水量快速无损检测[J].时珍国医国药, 2020, 31(11):2653-2655.

QU Z Y, PANG S F, WANG Z S, et al.Rapid nondestructive testing of water content of Ginseng based on near infrared spectroscopy[J].Lishizhen Medicine and Materia Medica Research, 2020, 31(11):2653-2655.

[11] 孙晓荣, 郑冬钰, 刘翠玲, 等.小麦粉品质在线无损快速检测系统设计与实现[J].食品与机械, 2022, 38(12):87-91.

SUN X R, ZHENG D Y, LIU C L, et al.Design and implementation of on-line nondestructive rapid testing system for wheat flour quality[J].Food &Machinery, 2022, 38(12):87-91.

[12] 刘翠玲, 闻世震, 孙晓荣, 等.京郊鲜食杏白利糖度的便携式光谱快速无损检测方法研究[J].食品安全质量检测学报, 2022, 13(24):7981-7988.

LIU C L, WEN S Z, SUN X R, et al.Research on the Brix content of fresh Armeniaca in suburbs of Beijing based on portable spectroscopic rapid non-destructive detection method[J].Journal of Food Safety and Quality, 2022, 13(24):7981-7988.

[13] 汤文涛, 徐佳锋, 胡栋, 等.基于近红外光谱的山核桃蛋白质、脂肪含量的测定[J].粮食与油脂, 2022, 35(12):158-162.

TANG W T, XU J F, HU D, et al.Determination of protein and fat content in pecan based on near infrared spectroscopy[J].Cereals &Oils, 2022, 35(12):158-162.

[14] 关晔晴, 王冬, 李楠, 等.基于近红外技术无损检测深州蜜桃果实内部品质[J].现代食品科技, 2022, 38(10):290-296.

GUAN Y Q, WANG D, LI N, et al.Near-infrared technology-based non-destructive detection of the internal quality of Shenzhou peaches[J].Modern Food Science and Technology, 2022, 38(10):290-296.

[15] 朱金艳, 朱玉杰, 冯国红, 等.基于深度信念网络与混合波长选择方法的蓝莓糖度近红外检测模型优化[J].光谱学与光谱分析, 2022, 42(12):3775-3782.

ZHU J Y, ZHU Y J, FENG G H, et al.Optimization of near-infrared detection model of blueberry sugar content based on deep belief network and hybrid wavelength selection method[J].Spectroscopy and Spectral Analysis, 2022, 42(12):3775-3782.

[16] 陈雅, 姜凯译, 李耀翔, 等.基于近红外的PE包装蓝莓新鲜度无损检测[J].包装工程, 2022, 43(7):1-10.

CHEN Y, JIANG K Y, LI Y X, et al.Nondestructive detection of freshness of PE packaged blueberries based on NIR[J].Packaging Engineering, 2022, 43(7):1-10.

[17] 曾明飞, 朱玉杰, 冯国红, 等.基于可见/近红外光谱的蓝莓新鲜度快速评价[J].食品与发酵工业, 2022, 48(20):252-259.

ZENG M F, ZHU Y J, FENG G H, et al.Rapid evaluation of blueberry freshness based on visible/near-infrared spectroscopy[J].Food and Fermentation Industries, 2022, 48(20):252-259.

[18] 朱金艳, 朱玉杰, 冯国红, 等.基于近红外光谱技术联合极限学习机的蓝莓贮藏品质定量模型建立[J].食品与发酵工业, 2022, 48(16):270-276.

ZHU J Y, ZHU Y J, FENG G H, et al.Establishment of quantitative models for blueberry storage quality based on near infrared spectroscopy combined with extreme learning machine[J].Food and Fermentation Industries, 2022, 48(16):270-276.

[19] 张丽娟, 夏其乐, 陈剑兵, 等.近红外光谱的三种蓝莓果渣花色苷含量测定[J].光谱学与光谱分析, 2020, 40(7):2246-2252.

ZHANG L J, XIA Q L, CHEN J B, et al.Prediction of anthocyanin content in three types of blueberry pomace by near-infrared spectroscopy[J].Spectroscopy and Spectral Analysis, 2020, 40(7):2246-2252.

[20] 王姗姗. 蓝莓可溶性固形物、总酚和花青素近红外光谱检测技术研究[D].北京:北京林业大学, 2012.

WANG S S.Research on near infrared spectroscopy for rapid measurements of SSC, total phenols, and anthocyanins in blueberry[D].Beijing:Beijing Forestry University, 2012.

[21] 李洋, 张茜, 陈业莉, 等.贮运过程中振动损伤对蓝莓品质的影响[J].林业科学, 2020, 56(9):40-50.

LI Y, ZHANG X, CHEN Y L, et al.Effect of vibration damage on blueberry quality during storage and transportation[J].Scientia Silvae Sinicae, 2020, 56(9):40-50.

[22] 常明娟, 楚宗艳, 杜玉倍, 等.高温胁迫下小麦生理指标的主成分分析及综合评价[J].湖南农业大学学报(自然科学版), 2023, 49(1):1-11.

CHANG M J, CHU Z Y, DU Y B, et al.Principal component analysis and comprehensive evaluation of the physiological indices in wheat under high temperature resistance[J].Journal of Hunan Agricultural University (Natural Sciences), 2023, 49(1):1-11.

[23] 冯方剑, 宋敏, 陈全家, 等.棉花苗期抗旱相关指标的主成分分析及综合评价[J].新疆农业大学学报, 2011, 34(3):211-217.

FENG F J, SONG M, CHEN Q J, et al.Analysis and comprehensive evaluation on principal component of relative indices of drought resistance at the seedling stage of cotton[J].Journal of Xinjiang Agricultural University, 2011, 34(3):211-217.

Research on storage quality detection method of blueberry based on ensemble learning and near-infrared spectroscopy

ZHANG Chen,ZHU Yujie*,FENG Guohong*

(College of Engineering and Technology, Northeast Forestry University, Harbin 150040, China)

ABSTRACT A non-destructive detection method based on ensemble learning and near-infrared spectroscopy technology was proposed to address the complex process and high-cost issues of traditional chemical methods for determining blueberry storage quality. Using 150 Rika blueberries and 30 Green Emerald blueberries from Dandong as the research objects, near-infrared reflection spectra of Rika blueberries with different storage times and Green Emerald blueberries with different maturity levels were collected using a near-infrared spectrometer. The sample set partitioning based on the joint X-Y distance (SPXY) method was used to divide Rika blueberries samples into training and validation sets at a ratio of 4:1, and Green Emerald blueberries samples were used as the test set. The preprocessing effects of one or several combinations of standard normal variate transformation (SNV), Z-score standardization, first derivative (1st-D), and second derivative (2nd-D) on the original spectra were compared using partial least squares regression (PLSR). The competitive adaptive reweighted sampling (CARS) method was used to select the characteristic wavelengths of blueberry near-infrared spectra, and support vector regression (SVR), extreme gradient boosting (XGBoost), and multilayer perceptron (MLP) were used as base models. A stacking ensemble learning model was established using the stacking integration strategy. Vitamin C, soluble solids content (SSC), and anthocyanins, which were most related to blueberry storage quality, were used as labels to train four prediction models. The stacking ensemble model was the best, with test set correlation coefficients (R2) of 0.872 6, 0.881 4, and 0.905 5 for vitamin C, SSC, and anthocyanins, respectively. The root mean square error (RMSE) was 0.566 4, 0.696 3, and 1.693 9, and the relative percent deviation (RPD) was 2.801 6, 2.903 7, and 3.253. Results showed that the stacking ensemble learning model proposed in this study had the advantages of high accuracy, good stability, and strong generalization ability by integrating SVR, XGBoost, and MLP, providing new ideas for the non-destructive detection of blueberries.

Key words near infrared spectrum; ensemble learning; blueberries; non-destructive testing; support vector regression; extreme gradient boosting; multilayer perceptron

DOI:10.13995/j.cnki.11-1802/ts.035198

引用格式:张晨,朱玉杰,冯国红.基于集成学习和近红外光谱的蓝莓贮藏品质检测方法研究[J].食品与发酵工业,2023,49(18):306-314.ZHANG Chen,ZHU Yujie,FENG Guohong.Research on storage quality detection method of blueberry based on ensemble learning and near-infrared spectroscopy[J].Food and Fermentation Industries,2023,49(18):306-314.

第一作者:硕士研究生(朱玉杰教授和冯国红副教授为共同通信作者,E-mail:zhuyujie004@126.com;fgh_1980@126.com)

基金项目:黑龙江省自然科学基金项目(LH2020C050)

收稿日期:2023-02-19,改回日期:2023-04-20