基于近红外光谱分析的西梅贮藏期定性判别和品质预测

王允海1,马文强1,2*,项斌斌1*,崔宽波2,杨莉玲2,马文杰2,何美玲1,祝兆帅2,孙俪娜2

1(新疆大学 机械工程学院,新疆 乌鲁木齐,830049)

2(新疆维吾尔自治区农业科学院农业装备研究所,新疆 乌鲁木齐,830091)

摘 要 为实现贮藏阶段关键品质指标的定性判别及定量预测,该研究以贮藏期‘法兰西’西梅为对象,通过采集西梅在(0、15、30、45、60 d)贮藏期的近红外光谱,结合归一化、卷积平滑(Savitzky-Golay smoothing,SG)、多元散射校正(multiplicative scatter correction,MSC)和标准正态变换(standard normal variate,SNV)等预处理方法,及竞争性自适应重加权采样(competitive adaptive reweighted sampling,CARS)、无信息变量消除算法(uninformative variables elimination,UVE)、遗传算法(genetic algorithm,GA)等特征提取方法,分别构建支持向量机、K最近邻、线性判别分析(linear discriminant analysis,LDA)的贮藏期定性判别模型,与偏最小二乘回归(partial least squares regression,PLSR)的可溶性固形物含量、含水率、硬度单品质基准预测模型。在此基础上,融合可溶性固形物含量、含水率和硬度的表征波长,引入了可解释性机器学习SHAP(SHapley Additive exPlanations)方法,并将其应用于融合后特征波长的贡献度评估和分阶段筛选,构建优化的硬度融合预测模型。结果表明,构建的MSC-GA-LDA贮藏阶段定性判别模型在测试集上100%准确判别(测试集样本量n=75,涵盖全部贮藏阶段);构建的单品质基准预测模型中,可溶性固形物含量、含水率、硬度模型分别筛选出30、54、15个关键响应特征,对应模型的最优表现分别为 2,RMSEp=0.663 9%)、 0,RMSEp=0.103 6 N);经SHAP筛选的融合模型显著提升硬度预测效果 5,RMSEp=0.097 5 N)。研究结果为西梅贮藏品质的无损检测提供了理论依据与技术支持。

关键词 ‘法兰西’西梅;近红外光谱;贮藏期;特征波长;融合模型

西梅(Prunus domestica L.)作为蔷薇科李属植物,因其果肉富含膳食纤维、山梨糖醇及多酚类物质,兼具营养与保健价值,受到消费者广泛青睐[1]。然而,作为一种典型的呼吸跃变型水果,西梅采后生理活动活跃,在贮藏过程中易因呼吸代谢、酶促反应等导致硬度下降、可溶性固形物含量波动、含水率变化等品质劣变,不仅降低商品属性,还会因货架期缩短造成经济损失[2]。因此,准确判别西梅的贮藏阶段,并对关键品质指标进行无损的定量预测,对于优化贮藏工艺、保障产品品质具有重要的理论与实践意义。

传统的贮藏阶段判别多依赖经验性观察,主观性强;而品质检测方法依赖于物理测定与化学分析,如折射仪测定可溶性固形物含量、烘干法测量果肉含水率等,虽精度较高,但操作繁琐、对果实具有破坏性等局限,难以满足现代化生产中检测的需求[3]。近红外光谱技术作为一种无损检测手段[4],具有操作简便、可同时分析多组分等优势,已在水果贮藏品质检测中取得一定进展。例如在苹果硬度预测[5]、葡萄可溶性固形物检测[6]、梨果实含水量分析[7]等研究中,通过捕捉物质分子振动的特征光谱信号,实现了对品质指标的定量预测。

然而,现有研究多聚焦于单一品质指标的预测模型构建,忽略了水果贮藏期品质变化的系统性与关联性。但西梅贮藏期的品质变化是多指标协同作用的结果,各品质指标间存在复杂的内在关联,仅依靠单一指标或单一模型可能导致光谱信息挖掘不充分[1],进而限制模型的预测精度与稳定性。近年来,多源信息融合建模已成为提升近红外预测性能的重要方向,通过整合不同品质关联的特征信息,增强模型对复杂品质的预测精度[8]

基于此,本研究以贮藏期的‘法兰西’西梅为对象,首先采集不同贮藏时间节点(0、15、30、45、60 d)下西梅样本的近红外光谱数据,基于近红外光谱数据构建贮藏阶段的定性判别模型,实现贮藏阶段的定性判别,明确其贮藏阶段的时间节点;其次,针对西梅贮藏过程中的可溶性固形物含量、含水率、硬度等指标,通过分析指标间的相关性揭示其内在联系,并分别构建各品质的基准预测模型;在此基础上,融合可溶性固形物含量和含水率的表征波长与硬度的表征波长,形成多指标融合特征集;最后,采用SHAP(SHapley Additive exPlanations)方法对融合后的特征波长进行分阶段贡献度筛选,剔除冗余信息,最终构建西梅硬度预测效果更优的融合预测模型。本研究通过多指标融合与特征筛选策略,以期提升近红外光谱对西梅贮藏期品质的预测精度,为水果贮藏品质的无损检测提供新的思路与方法。

1 材料与方法

1.1 材料与仪器

本实验以喀什市疏附县‘法兰西’西梅为原材料。挑选出无病虫害、无机械损伤的果实,放置在1~2 ℃、相对湿度80%~90%的保鲜库内贮藏,每隔15 d取出50个果实,连续5期,共250个样本用于西梅贮藏期的判别,包括可溶性固形物、含水率和硬度的预测。

Flame-NIR+光纤光谱仪、HL-2000-HP卤素灯光源,美国Ocean Optics公司;PAL-1数显手持式折光计,日本ATAGO公司;DHG-9240A电加热风机恒温烘箱,苏州三清仪器有限公司;GY-4果实硬度计,江苏博特仪器有限公司。

1.2 实验方法

1.2.1 近红外光谱数据采集及提取

果实在25 ℃下平衡12 h。将Flame-NIR+光纤光谱仪预热30 min后,采集样品的漫反射光谱,采集参数:波段范围970~1 700 nm,扫描次数8,积分时间35 ms,分辨率10 nm。为尽量减少测量误差,每个果实赤道上标记3个间隔120°的采集点进行光谱采集,每个果实得到3条光谱,取其平均光谱作为该样品的原始光谱。

1.2.2 品质参数的测定

可溶性固形物含量的测定:按照NT/T 2637—2014《水果和蔬菜可溶性固形物含量的测定 折射仪法》,每个样品取少量果肉,用榨汁器挤出果汁,使用折射仪对西梅的可溶性固形物进行测定,每个样本重复3次,取平均值作为测定值。

含水率的测定:每个样品取少量果肉,将果肉剪切后放置在称量铝盒中,放入温度为105 ℃的电加热风机恒温烘箱中进行干燥处理[9],直至质量基本保持恒定后再次称量,按公式(1)计算西梅含水率。

(1)

式中:w,西梅果肉含水率,%;m1,烘干前铝盒和果肉的质量,g;m2,烘干后铝盒和果肉质量,g;m3,铝盒的质量,g。

硬度的测定:依据标准NY/T 2009—2011《水果硬度的测定》,采用果实硬度计测定西梅硬度,硬度计的圆柱形探头3.5 mm,穿透深度10 mm,取果实阴阳两面硬度的平均值作为每个样品的测定值。

1.2.3 光谱数据预处理

每个样品中获取波长数为128的近红外光谱数据,为提高数据信噪比,去除首尾部分波段数据[10],选取其1 040~1 625 nm共99个近红外光谱波长作为有效信息用于后续分析处理。为去除噪声和干扰,采用数据归一化(normalization)、卷积平滑(Savitzky-Golay smoothing,SG)、多元散射校正(multiplicative scatter correction,MSC)和标准正态变换(standard normal variate,SNV)4种方法进行预处理[11]。然后使用X-Y样本划分方法(sample partitioning based on joint x-y distance,SPXY)对5期贮藏期的西梅样本按照7∶3的比例随机划分为训练集和预测集,得到训练集样本175个,预测集样本75个。

1.2.4 特征提取方法

为筛选出合适的特征提取方法,使用竞争性自适应重加权采样(competitive adaptive reweighted sampling,CARS)[12]、无信息变量消除算法(uninformative variables elimination,UVE)、遗传算法(genetic algorithm,GA)[13]3种特征选择方法对预处理后的数据进行特征波长的提取。其中,利用CARS提取特征波长时,设置采样次数为50次,运用五折交叉验证方法根据偏最小二乘模型的交叉验证均方根误差(root mean square error of cross-validation,RMSECV)的最小值来确定最优的特征波长数据;利用UVE提取特征波长时,设置最佳主因子数为10,加入的随机噪声数为99,与采集到的有效波长数量相同;利用GA提取特征波长时,变异率设置为0.01,交叉率为0.5,最大迭代次数为200。

在进行定性判别中,将所提取到的特征波长下样本的光谱数据作为输入变量,样本对应的贮藏阶段作为输出变量,构建西梅的贮藏期定性模型;定量分析中,输入变量仍为所提取特征波长下样本的光谱数据,而输出变量为样本对应的品质参数含量,以此构建定量模型实现目标品质含量的预测。通过对比不同特征提取方法下模型的性能,选择相应的特征提取方法。

1.2.5 品质参数的关联与模型特征优化

为分析量化品质参数之间的关联强度和方向,采用皮尔逊相关系数(r)来表示2个参数间的线性关系,判断变量间是否存在强相关,按公式(2)计算。

(2)

式中:r,2个变量间的相关系数;xiyi是第i个样品的2个变量值;变量x的样本均值;变量y的样本均值;n,样品总数。

SHAP作为一种用于解释机器学习模型预测结果的方法[14],它结合了博弈论中的Shapley值思想,每个特征对模型的贡献度是通过考虑所有特征组合的预测变化得到的平均值,确保了特征贡献的公平性,避免了某些特征被高估或低估,通过其可以筛选出对模型性能影响较大的特征。为进一步减少特征空间,提高模型效率,本研究利用SHAP方法筛选特征波长,建立贮藏期西梅硬度的融合预测模型。SHAP值的计算如公式(3)所示。

(3)

式中:φi,特征i的SHAP值;N,特征集合的所有特征;S,特征集合的任意子集(不包含特征i);f(S),仅使用特征子集S的模型预测值;|S|,特征子集S的特征个数;|N|,总特征个数。

1.3 模型的建立与评价

1.3.1 判别模型的建立与评价

在建立西梅贮藏期定性判别模型中,本研究将特征提取后的光谱数据作为输入变量,样本对应的贮藏阶段作为输出变量,分别采用支持向量机(support vector machine,SVM)[15]、K最近邻算法(k-nearest neighbors,KNN)和线性判别分析(linear discriminant analysis,LDA)[16]构建西梅贮藏期的定性判别模型。通过对比判别模型的混淆矩阵、准确率和受试者工作特征(receiver operating characteristic,ROC)曲线,评估各模型的判别效果,筛选并确定最优的贮藏期判别模型。

1.3.2 回归模型的建立与评价

对于构建西梅贮藏期含水率、可溶性固形物和硬度的回归预测模型,本研究利用偏最小二乘回归(partial least squares regression,PLSR)的线性预测方法[17],采用训练集决定系数(coefficient of determination for 预测集决定系数(coefficient of determination for 训练集均方根值(root mean square error for calibration,RMSEC)和预测集均方根值(root mean square error for prediction,RMSEp)评价模型的性能[18]

1.4 数据分析

使用OceanView软件对西梅的近红外光谱进行数据采集,然后利用MATLAB 2023b对采集到的数据进行整理和波长筛选,应用Python 3.11进行评价指标的计算和模型的建立,通过Origin 2022进行品质间的相关性分析和品质变化图的绘制。

2 结果与分析

2.1 西梅样品的近红外光谱

图1-a和图1-b为贮藏期收集的250个西梅样本的近红外原始光谱图和5个贮藏期M1~M5(0、15、30、45、60 d)的平均光谱图。由图1-a可知,不同样本在1 040~1 625 nm的反射率变化较大,但光谱曲线变化趋势基本一致,这是由于西梅在贮藏过程中内部化学成分随着贮藏时间的延长而发生变化,从而导致其品质发生相应的改变。由图1-b所示,不同贮藏阶段的西梅光谱虽然具有统一的吸收峰,但相同吸收峰下不同贮藏期的光谱吸收强度有所差异。在1 180 nm附近的吸收峰主要与糖类中的C—H键振动相关,反映了果实中糖类物质的变化[19],在贮藏过程中,该波段的部分变化可间接反映细胞壁降解引起的多糖结构。在1 280 nm附近的吸收峰与C—H键的二级倍频振动相关,可反映贮藏中糖类的降解,在1 450 nm附近的吸收峰主要对应水分子O—H伸缩振动的一级倍频,反映果实中水分含量的变化[20]

a-原始光谱图;b-平均光谱图

图1 原始光谱及平均光谱图
Fig.1 Original spectrum and average spectrum

2.2 西梅贮藏期定性分析

2.2.1 贮藏期定性模型

建立西梅的SVM、KNN和LDA定性判别模型,模型结果如表1所示。在训练集上,大部分组合建模方法都能使模型达到100%的准确率。这可能是因为训练集数据经过特定的预处理和特征选择后,数据特征与模型的适配性良好,模型能够充分学习到数据中的规律[21]。然而,当采用归一化预处理结合CARS特征选择方法时,SVM模型的训练集准确率为88%,LDA模型为86.28%,相较其他建模方法在训练集上的表现有所降低。这是由于CARS特征选择方法在归一化预处理下,筛选出的特征未能全面涵盖数据的关键信息,导致SVM和LDA模型无法充分捕捉数据规律。在预测集上,各模型的预测集准确率呈现出较大差异。对于SVM模型,部分组合的准确率相对较低。如normalization-CARS-SVM的预测集准确率为81.33%,MSC-CARS-SVM的预测集准确率为89.33%。这是由于在训练过程中,模型对训练集数据存在一定程度的过拟合,使得在面对预测集时,模型因泛化能力不足,无法准确识别数据特征,从而导致的预测集准确率有所下降[22]。相比之下,LDA模型在多种组合配置中展现出较为稳定的准确率,许多组合甚至达到了92%及以上,其中MSC-GA-LDA的建模方法在训练集和测试集上均获得了100%的准确率。

表1 不同预处理和特征提取方法下的西梅贮藏期的判别结果
Table 1 Discrimination results of plum storage period under different pretreatment and feature extraction methods

预处理方法特征选择方法训练集/%预测集/%SVMKNNLDASVMKNNLDAnormalizationCARS8810086.2881.3345.3382.66UVE10010010089.3350.6692GA10010099.4286.6649.3398.66SGCARS9610096.5789.337292UVE10080100927298.66GA10010010090.6674.6698.66MSCCARS97.7110010089.3358.6698.66UVE1001001009266.6696GA10010010093.3365.33100SNVCARS94.2810099.4286.6665.3398.66UVE10010010089.336897.33GA10010010090.666896

2.2.2 定性模型验证

由图2-a可知,通过MSC-GA-LDA建模方法得到的模型分类结果全部正确,图2-b中表明5个贮藏期类别的ROC曲线互相重合,且完全接近右上角和左上角,每条曲线下的曲线下面积(area under the curve,AUC)值均为1,表明模型在五分类任务中的表现整体优秀,具有良好的鉴别能力。

a-MSC-GA-LDA模型预测集分类结果的混淆矩阵图;b-ROC曲线图

图2 MSC-GA-LDA模型预测集分类结果的混淆矩阵和ROC曲线图
Fig.2 Confusion matrix and ROC curve of classification results of MSC-GA-LDA model prediction set

这主要归因于LDA作为一种基于线性判别分析的技术,能够通过寻找最大化类间差异和最小化类内差异的最优投影方向,实现有效的特征提取[23]。这一特性使得LDA在不同的预处理和特征选择方法条件下,依然能够较好地捕捉数据中的类别区分信息,从而提升模型的泛化能力。同时,也表明不同的贮藏期光谱数据具有较好的线性可分性,此时能够找到最优线性判别面,完成西梅贮藏期的判别。

2.3 西梅贮藏期定量分析

2.3.1 贮藏期间西梅的品质变化

可溶性固形物含量是衡量水果品质的关键指标,通常与水果的成熟度密切相关,其稳定对于贮藏中维持西梅的结构和感官品质具有积极作用。西梅作为呼吸跃变型果,通常采摘贮藏时果实还未达到成熟顶峰,在贮藏前期随着呼吸跃变的发生,果实中的淀粉酶和转化酶将糖原或其他贮存的多糖分解成溶解性的糖类,导致可溶性固形物继续积累[24]。随着贮藏时间的推移,水果开始逐步利用糖分作为能量来源,呼吸消耗增加,导致可溶性固形物含量逐步下降。如图3-a所示,在最开始的M1~M2阶段,西梅的可溶性固形物含量呈现上升趋势。M2~M5阶段可溶性固形物含量呈现出稳步、缓慢的下降趋势。

a-可溶性固形物含量;b-含水率;c-硬度

图3 贮藏期间西梅的品质变化图
Fig.3 Quality changes of plums during storage

含水率作为水果品质的重要指标,在维持果实感官特性、延长贮藏寿命以及保证商品价值方面发挥着关键作用。如图3-b所示,在贮藏过程中,西梅果实进行呼吸作用,消耗有机物并伴随水分散失,导致水分逐步减少,贮藏后期水分变化逐渐趋于平衡,含水率在贮藏期间稳步下降,最后维持稳定[25]

硬度作为衡量水果整体品质的重要参数,间接反映水果的生理状态和成熟程度。如图3-c所示,西梅的硬度在整个贮藏期间持续下降,贮藏结束时(60 d),果实硬度下降了25%,其主要原因是果胶水解酶和果胶甲酰化酶等降解酶促进果胶降解和细胞壁松弛,同时细胞内水分流失导致细胞压力减少,造成细胞结构变化,使果实逐渐软化[26]

2.3.2 品质指标的相关性分析

为了进一步探究西梅可溶性固形物含量、含水率和硬度之间的关系,揭示品质指标之间的相互作用,建立预测模型的基础,在不同贮藏阶段下对这3个变量进行相关性分析。如表2所示,可溶性固形物含量和硬度在M1~M2呈现显著负相关,在M3~M5转变为正相关。含水率和硬度与之变化相反,M1~M2呈现正相关,在M3~M5转变为负相关。对比图3-a~图3-c中3种品质指标的贮藏期变化趋势。在贮藏前期,由于果实中酶的作用,将淀粉或其他糖原转化为可溶性糖[27]。水分流失导致细胞壁失去弹性,细胞间空隙增大,果实硬度逐渐降低。而随着贮藏时间的增加,果胶酶、酶解作用会破坏细胞壁中的胶质[28],使果实进一步软化,呼吸作用增强,硬度和可溶性固形物含量逐渐降低,同时由于果实衰老,含水率变化趋于稳定。结果表明,虽然相关系数随着贮藏阶段变化,但西梅在贮藏过程中的硬度、可溶性固形物含量、含水率三者间仍然具有一定的联系性。

表2 品质指标间的相关性分析
Table 2 Correlation analysis between quality indexes

贮藏阶段品质参数可溶性固形物含水率硬度M1可溶性固形物1-0.93-0.77含水率-0.8310.71硬度-0.770.711M2可溶性固形物1-0.94-0.81含水率-0.9410.73硬度-0.810.731M3可溶性固形物1-0.880.47含水率-0.881-0.63硬度0.47-0.631M4可溶性固形物1-0.870.53含水率-0.871-0.52硬度0.53-0.521M5可溶性固形物1-0.810.61含水率-0.811-0.46硬度0.61-0.461

2.3.3 西梅的定量检测模型

2.3.3.1 西梅的可溶性固形物含量和含水率单品质参数预测模型

基于PLSR建立西梅的单品质参数预测模型,并采用均方根误差,分别衡量训练集和预测集中预测值与实际值的平均误差;用于反映模型对训练数据中变量波动规律的解释能力;用于体现模型对待测数据变异规律的泛化解释能力,其值越接近1,模型拟合效果越好。由表3可知,经过归一化预处理的模型结果相较无预处理的结果在各个评价指标上差距不大,且在CARS特征提取下效果相同,这是由于CARS筛选出的变量对模型性能起到关键作用,选择归一化改变特征尺度的效果不强,导致提取到的特征波长相同[29]。相较其他预处理方法,MSC和SNV预处理对模型性能起到了一定的提升,其中SNV-CARS的组合方法建立的PLSR模型效果性能最佳图4中的散点分布在y=x线附近,预测值与真实值相近,进一步说明预测值与真实值具有很强的一致性,模型的预测性能优异。

表3 西梅可溶性固形物含量基于PLSR的单品质参数预测模型结果
Table 3 Results of single quality parameter prediction model based on PLSR for soluble solids content of plum

预处理方法特征提取方法R2cRMSEC/%R2pRMSEP/%无预处理normalizationSGMSCSNVCARS0.896 10.820 30.893 30.900 7UVE0.884 70.910 30.870 01.097 8GA0.884 10.914 90.858 11.197 8CARS0.896 10.820 30.893 30.900 7UVE0.844 51.269 20.823 61.340 8GA0.907 10.758 40.838 71.225 8CARS0.419 94.737 70.373 04.765 7UVE0.426 54.398 10.326 46.056 2GA0.414 14.484 90.363 65.721 9CARS0.911 80.698 50.906 50.798 4UVE0.896 90.846 10.865 81.002 2GA0.905 80.720 90.880 80.905 8CARS0.926 90.579 00.922 20.663 9UVE0.890 30.899 50.863 01.023 1GA0.909 20.719 40.901 10.844 4

图4 基于SNV-CARS-PLSR的西梅可溶性固形物含量预测模型
Fig.4 Prediction model of soluble solids content of plum based on SNV-CARS-PLSR

如表4所示,在SG预处理下的含水率模型效果相比其他预处理方式有明显降低,这与同样采用SG预处理下,可溶性固形物含量的PLSR预测模型中呈现的差异性一致。其中,SNV-GA-PLSR模型获得了最佳的预测效果,预测效果如图5所示,其1.806 e-02%。与建立可溶性固形物含量模型使用的特征提取方法CARS有所不同,最佳建模方法采用了GA作为特征提取方法,这是由于水分信息分布广泛,GA作为一种全局搜索算法,能够有效的搜索到一组波长[30],这些波长组合起来能更好的表征水分的整体变化。

表4 西梅含水率基于PLSR的单品质参数预测模型结果
Table 4 Results of single quality parameter prediction model based on PLSR for moisture content of plum

预处理方法特征提取方法R2cRMSEC/%R2pRMSEP/%无预处理normalizationSGMSCSNVCARS0.748 11.955 e-020.725 52.926 e-02UVE0.755 91.875 e-020.707 62.886 e-02GA0.756 21.758 e-020.715 72.598 e-02CARS0.748 11.955 e-020.725 52.926 e-02UVE0.739 52.022 e-020.738 12.792 e-02GA0.747 01.963 e-020.747 02.698 e-02CARS0.319 55.803 e-020.285 95.995 e-02UVE0.718 05.816 e-020.281 16.036 e-02GA0.304 55.552 e-020.292 77.454 e-02CARS0.821 91.499 e-020.807 51.986 e-02UVE0.803 21.657 e-020.766 62.002 e-02GA0.829 01.388 e-020.793 32.072 e-02CARS0.802 71.643 e-020.801 61.893 e-02UVE0.806 71.609 e-020.776 12.024 e-02GA0.821 61.443 e-020.809 21.806 e-02

图5 基于SNV-GA-PLSR的西梅含水率预测模型
Fig.5 Prediction model of moisture content of plum based on SNV-GA-PLSR

2.3.3.2 西梅的硬度跨参数融合预测模型

如表5所示,采用MSC和SNV预处理方法的硬度模型均获得了较优的预测结果,其中MSC-GA和SNV-CARS的组合处理方式在训练集和预测集的决定系数均在0.8以上,MSC-GA在预测集的RMSEP=0.135 0 N,明显高于训练集的RMSEc=0.091 9 N,表明可能存在过拟合,而SNV-CARS的RMSEP和RMSEc分别为0.103 6 N和0.101 2 N,具有更好的一致性,泛化能力更强,且CARS选择的特征波长更少,模型复杂度更低,因此选取SNV-CARS-PLSR作为最优模型 6,RMSEC=0.101 2 0,RMSEp=0.103 6 N)。

表5 西梅硬度基于PLSR的单品质参数预测模型结果
Table 5 Results of single quality parameter prediction model based on PLSR for firmness of plum

预处理方法特征提取方法R2cRMSEC/NR2pRMSEP/N无预处理normalizationSGMSCSNVCARS0.773 90.129 00.768 00.176 0UVE0.762 30.138 00.730 30.182 2GA0.772 90.131 80.747 80.170 4CARS0.787 80.130 40.762 00.141 2UVE0.781 30.137 40.727 60.146 1GA0.785 00.135 10.739 70.139 6CARS0.333 20.387 20.305 90.469 0UVE0.329 90.389 10.293 50.477 4GA0.344 30.380 70.307 10.468 2CARS0.838 00.098 80.798 10.129 4UVE0.839 40.093 20.758 10.163 4GA0.832 00.091 90.802 60.135 0CARS0.836 60.101 20.809 00.103 6UVE0.846 80.093 60.769 00.138 9GA0.853 00.085 30.765 60.158 3

近红外光谱经预处理后,通过CARS、UVE和GA这3种特征提取方法分别建立多品质的PLSR定量预测模型。可溶性固形物含量、含水率和硬度得到的最优建模方法分别为SNV-CARS-PLSR、SNV-GA-PLSR和SNV-CARS-PLSR,建模过程中选择的特征波长如图6所示。可溶性固形物含量、含水率和硬度建模过程中分别筛选使用了30、54、15个特征波长。其中,硬度与可溶性固形物含量有相同的8个特征波长,与含水率有相同的11个特征波长。

图6 特征波长选择结果
Fig.6 Characteristic wavelength selection results

与可溶性固形物含量和含水率不同,硬度作为一种物理机械品质,光谱相关性较弱[31],为更好加强硬度预测效果,通过融合其他2种化学品质的特征波长,去除重复的特征波长,共得到68个初始特征波长。如表6所示,P为特征波长在模型中的SHAP阈值。未使用SHAP筛选下的单参数硬度预测模型效果与跨参数融合模型效果相比,融合模型的提高了0.03,但RMSEC也得到了提高。这可能是由于融合的初始波长中虽然得到了有效的特征补充,但部分波长的存在造成了信息冗余,反而降低模型的稳定性和鲁棒性。

表6 基于SHAP的西梅硬度跨参数融合预测模型筛选结果
Table 6 Screening results of cross-parameter fusion prediction model of plum firmness based on SHAP

筛选范围未融合模型效果融合模型效果R2cRMSEC/NR2pRMSEP/N剩余波长数量/个R2cRMSEC/NR2pRMSEP/N剩余波长数量/个原始0.836 60.101 20.809 00.103 6150.837 30.092 90.832 40.127 168P>0.20.826 40.104 50.823 50.113 5130.864 30.079 00.830 40.119 157P>0.40.826 30.104 60.823 60.104 6120.861 70.083 00.851 90.095 044P>0.60.828 70.103 10.823 50.113 5110.858 80.085 00.849 40.096 825P>0.80.812 00.113 20.792 30.133 680.857 00.086 10.848 50.097 421P>1.00.802 00.119 20.789 90.135 150.818 50.109 30.798 70.129 410P>1.20.473 70.305 60.393 00.410 130.605 50.237 60.670 80.211 73

为更好的去除造成信息冗余的特征波长,通过SHAP方法得到建模过程中全部特征波长的贡献度,并根据贡献度对特征波长进行筛选[32]。在对未融合模型进行的前3次筛选中得到的模型效果与未筛选的效果相似,这是由于未融合模型使用的初始特征波长数量较少,其中贡献度高的特征波长数量较多,而在第4次筛选过后,由于特征波长的数量几乎在5以下,失去关键信息,模型效果逐渐降低,最终在第6次筛选后RMSEp=0.410 1 N。经过1次筛选得到的融合模型性能在训练集和预测集均得到了提升,经过2次筛选,融合模型效果达到最优,后续的筛选使得模型效果趋于稳定,最终在第4次筛选过后,模型效果最佳,其相比初始融合,特征波长数量降低了69%,对比图7的基准预测模型与跨参数融合模型,跨参数融合模型的提高了0.04,均方根误差降至0.097 5 N。结果表明,多源信息融合联合SHAP特征筛选,使得模型效果得到提升的同时,有助于模型更稳定,降低对噪声和异常值的敏感性。

a-基准预测模型;b-跨参数融合模型

图7 西梅硬度的基准预测模型与跨参数融合模型
Fig.7 The benchmark prediction model and cross-parameter fusion model of plum firmness

3 结论

本研究以‘法兰西’西梅为研究对象,基于近红外光谱技术开展贮藏期定性判别与品质预测研究,结果显示,定性判别模型中经多元散射校正预处理结合遗传算法特征提取的线性判别分析模型表现最优,可实现对不同贮藏阶段的精准判别,为西梅贮藏期的快速划分提供有效方法;单品质参数预测模型中,针对可溶性固形物含量、含水率、硬度,筛选得到了对应的最优处理组合,分别为SNV+CARS、SNV+GA、SNV+CARS,表明近红外光谱可有效反映西梅关键品质指标的变化特征;基于多指标融合的硬度预测模型,通过整合相关特征波段并经SHAP方法筛选后,最优模型的提升至0.848 5,均方根误差降至0.097 5 N,特征波长数量减少69%,不仅提高了预测精度,还降低了模型复杂度,验证了多源信息融合与SHAP特征筛选在提升近红外预测性能中的有效性。综上,本研究构建的定性判别模型与定量预测模型可为西梅贮藏期的识别及品质无损检测提供理论依据与技术支持,对优化西梅贮藏工艺、延长货架期具有实践指导意义。

参考文献

[1] 晏文丽, 代宇琪,韩淼, 等.新疆西梅采后生理变化与贮运保鲜技术研究进展[J].食品工业,2024,45(4):173-177.YAN W L, DAI Y Q, HAN M, et al.A review on postharvest physiological and biochemical changes, storage and preservation of Xinjiang Prunus domestica L.Ximei[J].The Food Industry, 2024, 45(4):173-177.

[2] 毕凯悦,阿依则巴·艾尼玩尔,海子悦,等.1-MCP处理对西梅果实贮藏期品质及活性氧代谢的影响[J].食品工业科技,2025,46(14):395-403.BI K Y, AIZHEBA A, HAI Z Y, et al.Effect of 1-MCP treatment on quality and reactive oxygen metabolism of prune fruits during storage period[J].Science and Technology of Food Industry, 2025,46(14):395-403.

[3] 毛欣然,夏静静,徐惟馨,等.手持式近红外光谱仪测定梨三种品质指标通用模型建模方法研究[J].光谱学与光谱分析,2024,44(2):406-412.MAO X R, XIA J J, XU W X, et al.Study on modeling method of general model for measuring three quality indexes of pear by handheld near-infrared spectrometer[J].Spectroscopy and Spectral Analysis, 2024,44(2):406-412.

[4] 肖徐,袁进,李静,等.基于异常值双重剔除与改进PLS算法的近红外光谱红缨子糯高粱关键指标快速检测模型优化研究[J].食品与发酵工业, 2025,51(24):368-374.XIAO X, YUAN J, LI J, et al.Optimization of a rapid test model for key indicators of glutinous sorghum cultivar “Hongyingzi” in near-infrared spectroscopy based on outlier double rejection and improved PLS algorithm[J].Food and Fermentation Industries, 2025,51(24):368-374.

[5] GUO Z M, WANG M M, SHUJAT A, et al.Nondestructive monitoring storage quality of apples at different temperatures by near-infrared transmittance spectroscopy[J].Food Science &Nutrition, 2020, 8(7):3793-3805.

[6] 罗东杰,王勐,张小栓,等.基于Vis/NIR光谱传感的鲜食葡萄糖度检测系统[J].光谱学与光谱分析,2023,43(7):2146-2152.LUO D J, WANG M, ZHANG X S, et al.Vis/NIR based spectral sensing for SSC of table grapes[J].Spectroscopy and Spectral Analysis, 2023,43(7):2146-2152.

[7] BLAKEY R J, BOWER J P, BERTLING I.Influence of water and ABA supply on the ripening pattern of avocado (Persea americana Mill.) fruit and the prediction of water content using Near Infrared Spectroscopy[J].Postharvest Biology and Technology, 2009, 53(1-2):72-76.

[8] LI X D, DUNKIN F, DEZERT J.Multi-source information fusion:Progress and future[J].Chinese Journal of Aeronautics, 2024, 37(7):24-58.

[9] 高升,王巧华.基于可见/近红外透射光谱技术的红提糖度和含水率无损检测[J].中国光学,2021,14(3):566-577.GAO S, WANG Q H.Non-destructive testing of red globe grape sugar content and moisture content based on visible/near infrared spectroscopy transmission technology[J].Chinese Optics,2021,14(3):566-577.

[10] 王鑫磊,韩鲁佳,杨增玲,等.预处理方法对异源近红外秸秆营养成分速测模型的影响[J].农业工程学报, 2025,41(9):216-226.WANG X L, HAN L J, YANG Z L, et al.Influence of preprocessing methods on the rapid quantitative models for crop straw nutrients using different near-infrared spectroscopy devices data[J].Transactions of the Chinese Society of Agricultural Engineering, 2025,41(9):216-226.

[11] 李进发,向阳,王宇,等.基于近红外光谱技术建立刺糖中多糖含量的快速检测模型[J].食品与发酵工业, 2025,51(24):342-348.LI J F, XIANG Y, WANG Y, et al.Establishment of a rapid detection model for polysaccharide content in Alhagi sparsifolia honey based on near-infrared spectroscopy technology[J].Food and Fermentation Industries, 2025,51(24):342-348.

[12] 谢玉玉,陈志慧,侯雪玲,等.近红外光谱结合化学计量学快速测定阿里红饮片中齿孔酸含量[J].光谱学与光谱分析,2024,44(10):2981-2987.XIE Y Y, CHEN Z H, HOU X L, et al.A new method for determination of eburicoic acid in Fomes officinalis Ames by NIR combined with PLS[J].Spectroscopy and Spectral Analysis, 2024,44(10):2981-2987.

[13] 于欣冉,赵鹏,宦克为,等.基于GA-SVR的近红外无创检测智能算法研究[J].光谱学与光谱分析,2024,44(11):3020-3028.YU X R, ZHAO P, HUAN K W, et al.Research on intelligent algorithm of near-infrared spectroscopy non-invasive detection based on GA-SVR method[J].Spectroscopy and Spectral Analysis, 2024,44(11):3020-3028.

[14] HANCOCK J T, KHOSHGOFTAAR T M, LIANG Q X.A problem-agnostic approach to feature selection and analysis using SHAP[J].Journal of Big Data, 2025, 12(1):12.

[15] 石吉勇,李文亭,邹小波,等.基于近红外光谱特征的三文鱼品质多指标快速检测[J].光谱学与光谱分析,2019,39(7):2244-2249.SHI J Y, LI W T, ZOU, X B, et al.Multi-index rapid detection of salmon quality based on near-infrared spectroscopy[J].Spectroscopy and Spectral Analysis, 2019,39(7):2244-2249.

[16] 张淑芳,雷蕾,雷顺新,等.近红外漫反射光谱的茉莉花产地溯源[J].光谱学与光谱分析,2023,43(11):3389-3395.ZHANG S F, LEI L, LEI S X, et al.Traceability of geographical origin of jasmine based on near infrared diffuse reflectance spectroscopy[J].Spectroscopy and Spectral Analysis, 2023,43(11):3389-3395.

[17] 李晋,张琛,刘红,等.近红外光谱联合化学计量学在柑橘类水果质量无损检测方面的最新研究及应用进展[J].食品与发酵工业,2024,50(5):367-379.LI J, ZHANG C, LIU H, et al.Advances on quality detection of citrus fruits by near-infrared spectroscopy combined with chemometrics[J].Food and Fermentation Industries, 2024,50(5):367-379.

[18] FATCHURRAHMAN D, NOSRATI M, AMODIO M L, et al.Comparison performance of visible-NIR and near-infrared hyperspectral imaging for prediction of nutritional quality of goji berry (Lycium barbarum L.)[J].Foods, 2021, 10(7):1676.

[19] 王冬,冯海智,李龙,等.两种近红外光谱仪的番茄可溶性固形物含量定量模型比较研究[J].光谱学与光谱分析,2023,43(5):1351-1357.WANG D, FENG H Z, LI L, et al.Compare of the quantitative models of SSC in tomato by two types of NIR spectrometers[J].Spectroscopy and Spectral Analysis, 2023,43(5):1351-1357.

[20] 盛晓慧,李子文,李宗朋,等.基于近红外光谱分析技术测定库尔勒香梨硬度[J].光谱学与光谱分析,2019,39(9):2818-2822.SHENG X H, LI Z W, LI Z P, et al.Determination of Korla pear hardness based on near-infrared spectroscopy[J].Spectroscopy and Spectral Analysis, 2019,39(9):2818-2822.

[21] 高明,杨瑞芳,赵南京,等.基于CNN的地下水多组分多环芳烃3DEEM快速定性定量分析方法[J].光学学报,2025,45(6):387-398.GAO M, YANG R F, ZHAO N J, et al.Rapid qualitative and quantitative analysis method of multi-component polycyclic aromatic hydrocarbons in groundwater using CNN and 3DEEM[J].Acta Optica Sinica,2025,45(6):387-398.

[22] 许诗咏,石婷,赵玉霞,等.红嘴蓝喜鹊优化器-BP神经网络结合紫外光谱定性识别青稞酒[J].食品与发酵工业, 2025,51(21):346-352.XU S Y, SHI T, ZHAO Y X, et al.Identification of Qingke liquor qualitatively with the combination of red-billed blue magpie optimizer-BP neural network and ultraviolet spectrum[J].Food and Fermentation Industries, 2025,51(21):346-352.

[23] TANGORRA F M, LOPEZ A, IGHINA E, et al.Handheld NIR spectroscopy combined with a hybrid LDA-SVM model for fast classification of retail milk[J].Foods, 2024, 13(22):3577.

[24] 马俊杰,白梦涵,哦哈尔·帕孜力江,等.臭氧处理对西梅果实采后贮藏AsA-GSH循环及细胞膜脂过氧化的影响[J].食品工业科技, 2026,47(8):368-376.MA J J, BAI M H, OHAER P, et al.Effects of ozone treatment on AsA-GSH cycle and membrane lipid peroxidation in postharvest storage of prunus fruits[J].Science and Technology of Food Industry,2026,47(8):368-376.

[25] 文钰,祝兆帅,白梦涵,等.近冰温结合气调贮藏对西梅果实货架期品质的影响[J].食品科技,2025,50(5):53-59.WEN Y, ZHU Z S, BAI M H, et al.Effect of near freezing temperature combined with air-conditioned storage on the shelf-life quality of prunes[J].Food Science and Technology, 2025,50(5):53-59.

[26] 张路思,孙祥杰,宋尚健,等.不同浓度CO2气调贮藏条件下西梅果实品质和生理的变化[J].现代食品科技, 2025, 41(8):140-147.ZHANG L S, SUN X J, SONG S J, et al.Changes in the fruit quality and physiology of plum fruit under controlled atmosphere storage with different CO2 concentrations[J].Modern Food Science and Technology, 2025, 41(8):140-147.

[27] 曾明飞,朱玉杰,冯国红,等.基于可见/近红外光谱的蓝莓新鲜度快速评价[J].食品与发酵工业,2022,48(20):252-259.ZENG M F, ZHU Y J, FENG G H, et al.Rapid evaluation of blueberry freshness based on visible/near-infrared spectroscopy[J].Food and Fermentation Industries, 2022,48(20):252-259.

[28] CHEN C, QI S M, ZHANG S S, et al.Study on the quality change and regulation mechanism of ‘shannongsu’ pear under low-temperature storage[J].International Journal of Molecular Sciences, 2025, 26(7):2900.

[29] 王建旭,谭银雨,覃丹,等.基于近红外反射光谱的宣纸含水率无损检测研究[J].光谱学与光谱分析,2025,45(6):1629-1638.WANG J X, TAN Y Y, QIN D, et al.Research on non-destructive detection of moisture content in Xuan paper based on near-infrared reflectance spectroscopy[J].Spectroscopy and Spectral Analysis, 2025,45(6):1629-1638.

[30] 赖建平,赵辉,王东升,等.GA-XGBoost模型对路基压实质量的预测[J].哈尔滨工业大学学报,2025,57(7):33-41.LAI J P, ZHAO H, WANG D S, et al.Prediction of dynamic deformation modulus of subgrade based on GA-XGBoost model[J].Journal of Harbin Institute of Technology, 2025,57(7):33-41.

[31] 刘燕德,张雨,姜小刚,等.不同贮藏期水蜜桃硬度及糖度的检测研究[J].光谱学与光谱分析,2021,41(1):243-249.LIU Y D, ZHANG Y, JIANG X G, et al.Detection on firmness and soluble solid content of peach during different storage days[J].Spectroscopy and Spectral Analysis, 2021,41(1):243-249.

[32] BAPTISTA M L, GOEBEL K, HENRIQUES E M P.Relation between prognostics predictor evaluation metrics and local interpretability SHAP values[J].Artificial Intelligence, 2022, 306:103667.

Qualitative discrimination and quality prediction model of plum storage period based on near infrared

WANG Yunhai1, MA Wenqiang1,2*, XIANG Binbin1*, CUI Kuanbo2, YANG Liling2, MA Wenjie2, HE Meiling1, ZHU Zhaoshuai2, SUN Lina2

1(College of Mechanical Engineering, Xinjiang University, Urumqi 830049, China)
2(Institute of Agricultural Equipment, Xinjiang Academy of Agricultural Sciences, Urumqi 830091, China)

ABSTRACT In order to realize the qualitative discrimination and quantitative prediction of key quality indexes in the storage stage, the ‘France’ plum during the storage period was taken as the object in this study.The near-infrared spectra of plum during the storage period of 0, 15, 30, 45 and 60 days were collected.Combined with pretreatment methods such as normalization, convolution smoothing, multiple scattering correction and standard normal transformation, and feature extraction methods such as competitive adaptive reweighted sampling, uninformative variable elimination and genetic algorithm, the qualitative discrimination models of support vector machine, K nearest neighbor and linear discriminant analysis were constructed respectively.Single quality benchmark prediction model of soluble solids content, moisture content and hardness with partial least squares regression.On this basis, the interpretable machine learning SHapley Additive exPlanations(SHAP) method is introduced by combining the characterization wavelengths of soluble solids content and water content with the characterization wavelengths of fruit firmness, and it was applied to the contribution evaluation and phased screening of the fused characteristic wavelengths, and an optimized fruit firmness fusion prediction model is constructed.The results showed that the qualitative discriminant model of MSC-GA-LDA storage stage was 100% accurate on the test set (the sample size of the test set n=75, covering all storage stages).In the single quality benchmark prediction model, 30,54 and 15 key response characteristics were screened out from the soluble solids content, water content and fruit firmness models, respectively.The optimal performances of the corresponding models were SNV-CARS-PLSR 2, RMSEp=0.663 9%), SNV-GA-PLSR 2, RMSEp=1.806 e-02%) and SNV-CARS-PLSR 0, RMSEp=0.103 6 N).The fusion model screened by SHAP significantly improved the prediction effect of fruit hardness 5, RMSEp=0.097 5 N), which provided theoretical basis and technical support for the non-destructive detection of storage quality of plums.

Key words ‘France’ plum;near infrared spectroscopy;storage period;characteristic wavelength;fusion model

DOI:10.13995/j.cnki.11-1802/ts.044343

引用格式:王允海,马文强,项斌斌,等.基于近红外光谱分析的西梅贮藏期定性判别和品质预测[J].食品与发酵工业,2026,52(11):358-367.WANG Yunhai, MA Wenqiang, XIANG Binbin, et al.Qualitative discrimination and quality prediction model of plum storage period based on near infrared[J].Food and Fermentation Industries,2026,52(11):358-367.

第一作者:硕士研究生(马文强研究员和项斌斌高级工程师为共同通信作者,E-mail:mwq4530@163.com;xiangbinbin031@163.com)

基金项目:新疆维吾尔自治区农业科学院农业科技创新稳定支持项目(xjnkywdzc-2025003-08-3);新疆维吾尔自治区重点研发项目(2022B02018-4);国家自然科学基金项目(32460613)

收稿日期:2025-08-27,改回日期:2025-11-13