机器算法结合光谱主成分特征融合对青稞酒的判别研究

赵玉霞1,王茹1,张世芝2,殷博1,3,张明锦1,3*

1(青海师范大学 化学化工学院,青海 西宁,810016)

2(青海民族大学 化学化工学院,青海 西宁,810016)

3(青海省环境功能材料先进技术与应用重点实验室,青海 西宁,810016)

摘 要 建立基于光谱融合的定性分析模型,实现保护地理标志产品“互助”青稞酒的快速鉴别。采集白酒的紫外光谱(ultraviolet,UV)和近红外光谱(near-infrared,NIR),分别使用4种方法进行预处理,通过主成分特征提取,应用数据层和特征层策略融合多光谱信息,通过比较验证偏最小二乘判别分析(partial least square-discriminant analysis,PLS-DA)、随机森林(random forest,RF)、反向传播神经网络(back propagation neural network,BPNN)和径向基神经网络(radial basis function neural network,RBF-NN)模型的评价指标来评估建模效果。结果表明,二阶导数预处理后主成分特征提取融合的变量建立PLS-DA模型效果最好,预测集的灵敏度、特异性和受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)分别为1.000、0.966 7和0.962 4;原始光谱和Savitzky-Golay平滑(Savitzky-Golay smooth,SG)光谱经过主成分特征提取融合后的变量建立的RF模型最优,训练集和预测集的分类准确率均达到100%;UV原始光谱和SG预处理后经过主成分特征提取的变量建立的BPNN模型识别效果最好,预测集分类准确率和预测决定系数分别为100%和1,均方误差<0.03;UV原始光谱和SG预处理后的主成分分析-径向基神经网络(principle component analysis-radial basis function neural network,PCA-RBF-NN)分类结果最优,训练集和预测集分类准确率均为100%;NIR全光谱经SNV预处理后建立的RBF-NN模型分类结果最优,训练集和测试集的分类准确率值均为100%;UV-NIR的LF原光谱和SG预处理光谱分类结果最优,训练集和测试集分类准确率均为100%。因此,经主成分特征提取建模所用的光谱数据变量大大减少,有效简化了分类模型,而模型性能仍与全波长所建立的模型性能持平。该文为“互助”青稞酒的快速、无损识别提供了一种可行的方法。

关键词 中国“互助”青稞酒;主成分特征提取;偏最小二乘判别;反向传播神经网络;随机森林;径向基神经网络

白酒是中国特有的一种谷物发酵的蒸馏酒,历史悠久,主要以高粱、小麦、大米等为原料,经蒸馏、陈酿、勾兑等工艺制成[1]。适量饮用白酒可畅通血脉,活血祛瘀,除胃寒[2]。白酒因酿造工艺及原产地的不同形成了产品风格上的差异,消费者根据各自的偏好选择购买白酒。然而白酒市场以次充好现象频频发生,因此迫切需要加强对于白酒原产地标识的保护,增强消费者关于原产地的认知意识[3]。目前,检测白酒中乙醇、总酸、己酸乙酯等关键参数普遍使用的是GB/T 10345—2022《白酒分析方法》和GB 5009.225—2023《食品安全国家标准 酒和食用酒精中乙醇浓度的测定》,然而传统的化学分析方法均存在着样品需要预处理、耗时、费力、测定步骤繁琐等缺点,而且分析结果的准确度和精密度都受到限制。近年来,越来越多的研究者利用紫外、近红外光谱结合化学计量学技术对白酒进行定量定性研究,取得了许多成果。由于不同样品的光谱图包含了能够表现该样品特性的特征信息,利用白酒中C—H、N—H、O—H、C—O和S—H等化学键的泛频或转频振动以及含N、O、S等杂原子的饱和烃衍生物跃迁所致,获得水分、酯、酸、乙醇等组成的基础化学键在近红外、紫外区的吸收光谱,因此图谱具有特异性和典型性。另外,光谱分析方法具有速度快、效率高、测试方便、无损分析等优点,因此应用十分广泛。凌晨等[4]为实现清香型酒醅理化指标的快速检测,结合清香型白酒酿造工艺同时运用近红外(near-infrared,NIR)光谱技术建立了可运用于酒醅日常检测的分析模型。苏媛媛等[5]通过紫外-可见光谱建立的偏最小二乘判别分析(partial least square-discriminant analysis,PLS-DA)模型,可用于高温大曲白酒真实性的鉴别分析。ARZBERGER等[6]用红外光谱和多元统计分析方法测定了烈酒和甜酒中的酒精度、密度和总干物质。

青稞酒是中国青藏高原主要的白酒品种,是重要的特色农产品,在高原农产品资源转化及地方经济建设中都具有无法替代的地位。青稞酒的品质主要取决于青藏高原纯天然无污染的自然环境、传统工艺、独特技术、人文背景及历史渊源等诸多因素。青稞酒的风味研究始于上世纪九十年代[7],目前对青稞酒的研究主要集中在挥发性组分的分析,包括对青稞酒中醇、酯、酮、醛等香气成分的测定[8-9]及青稞酒中挥发性成分的可见-紫外光谱学特性[10]等。研究表明,青稞酒挥发性组分及原酒的紫外-可见光谱学特性受产酒地区、生产厂家及酒品种的影响而存在差异[10]。近来,对青稞酒的质量鉴别方面的研究也开始有报道,WANG等[11]采用全二维气相色谱结合分层聚类和正交偏最小二乘判别分析对不同陈化时间青稞酒进行分类,发现缩醛类物质可作为青稞酒陈化时间的标记物。张世芝等[12]以“互助”青稞酒为研究对象,在对其紫外(ultraviolet,UV)光谱进行适当预处理的基础上,通过比较样品UV光谱与参照光谱的夹角余弦、相关系数以及UV光谱相似度等相似性评价指标,构建了该品牌青稞酒的质量控制图,实现了对“互助”青稞酒与其他品牌青稞酒、非青稞白酒之间的良好识别。此外,基于UV和NIR光谱对青稞酒品质检测和质量控制方面的研究鲜见报道,在“互助”青稞酒的快速检测、质量评价以及掺假识别等方面缺乏系统的理论和方法体系。为进一步提高品牌的国内和国际竞争力,发展地方经济支柱产业,对“互助”青稞酒进行快速质量评价及掺假识别等方面的研究是行业需要解决的科学问题,也是产业发展需要解决的技术问题。

本研究以“互助”青稞酒为研究对象,利用UV和NIR光谱及其融合数据结合化学计量学方法,探索其快速识别方法。采集“互助”牌青稞酒、其他品牌青稞酒和非青稞酒三类白酒样品的UV和NIR光谱,经预处理、主成分分析(principle component analysis,PCA)处理后,进行数据融合,并考察不同的分类方法对“互助”青稞酒的识别能力,为保护地理标志产品“互助”青稞酒、促进白酒质量安全监管方面提供技术支撑。

1 材料与方法

1.1 材料与试剂

白酒样品(共113个样品,其中“互助”牌青稞酒共43种),青海青稞酒股份有限公司专营店;其他品牌青稞酒53种、非青稞原料白酒17种,西宁市各大商场。

甲醇(色谱纯),赛默飞世尔科技(中国)有限公司;无水乙醇(分析纯),中国医药集团有限公司。

1.2 仪器与设备

Lambda系列紫外/可见分光光度计,美国PerkinElmer公司;Antaris Ⅱ近红外光谱仪,Thermo Fisher Scientific公司。

1.3 实验方法

本研究方法如图1所示,分别测定白酒样品的UV、NIR光谱数据后,从低级数据融合、中级数据融合2个层面进行处理和分析。一方面,分别考察UV、NIR单一全光谱和2种光谱低级数据融合光谱建模效果。其中低级数据融合光谱(low-level data fusion,LF)是指UV、NIR单一光谱矩阵进行首尾串联组成一个新的矩阵另一方面,分别对UV、NIR原始光谱进行PCA,观察样品分类效果;然后基于UV、NIR预处理光谱,分别对原始和预处理光谱进行主成分特征提取,并将2种光谱提取的主成分特征进行融合,即完成中级数据光谱融合(middle-level data fusion,MF)。对以上两类处理得到的数据分别利用PLS-DA、随机森林(random forest,RF)、反向传播神经网络(back propagation neural network,BPNN)建立分类模型,考察模型判别效果。

图1 建模流程图

Fig.1 Modeling flow chart

1.3.1 光谱数据采集

取适量样品于1 cm石英比色皿中,以无水乙醇为参比,用紫外光谱仪在200~400 nm波长以1 nm间隔扫描光谱,每个样品扫描3次,取平均光谱即得样品紫外吸收光谱,每个样品光谱含201个波长变量;采用近红外光谱仪透射模式在835~2 630 nm波长扫描样品光谱,扫描次数为32次,分辨率为0.38 nm,每个样品重复测量3次,取平均光谱即得样品近红外光谱,每个样品含2 206个波长变量。

1.3.2 样本集划分

根据Kennard-Stone算法[13],选取样品总数70%的样品构成训练集,其余的样品作为预测集。其中训练集含79个样本,测试集含34个样本。

1.3.3 光谱数据预处理方法

对紫外、近红外光谱分别采用标准正态变量变换(standard normal variate transform,SNV)、Savitzky-Golay平滑(Savitzky-Golay smooth,SG)、一阶导数(first derivative,1D)和二阶导数(second derivative,2D)预处理。预处理方法可以解决光谱的噪声、基线漂移等问题,从而使分析测试者能够得到更加稳定、可信的光谱数据,有助于对后续数据进行深入研究,从而提高定性定量分析的准确度。

1.3.4 建立分类模型

本次研究采用PCA法进行特征提取,将提取的特征光谱数据建立PLS-DA、RF和人工神经网络模型。

a)PCA

PCA算法是最常用的线性降维方法[14],它是以方差最大原则将原始变量投影到主要成分空间,并选择方差贡献率最大的少数几个主成分来代替原变量信息,可有效降低数据维度[15]。选取的主成分既保留了光谱数据的原始特征,同时又不丢失有用的信息。但其存在对异常值敏感、受样本量和变量个数限制的劣势,因此常和其他的机器学习算法相结合,用于数据前处理过程[16]。本研究采用PCA提取紫外和近红外光谱特征数据,并进行主成分特征融合建模。

b)PLS-DA

PLS-DA是一种经典监督学习算法[17-18],基于最小二乘法提取样本的分类信息,建立自变量与分类信息之间的回归模型。PLS-DA的算法是使不同类别数据在投影空间中的距离最大化,同时最小化同类数据的距离[19]。利用PLS-DA的方法寻找可以最好区分不同类别的潜在变量,通过将数据投影到这些潜在变量上,在较低维度的空间中有效地区分不同的类别,这使得在高维数据集上进行分类变得更为可行,并且可以处理多重共线性和高度相关的自变量的情况。通过变换不同投影方向和投影点,寻求最优分类方法,实现对新数据的分类。

c)RF

RF的分类算法通过自助法重采样技术,从原始数据中以有放回的方式随机取样得到n个训练数据集,从每个训练数据集中随机选择k个特征。反复根据这k个特征建立起来m棵决策树,应用每个决策树来预测结果,并且保存所有预测的结果,RF在分类可解释性及缺失值容忍程度上具有无可比拟的优势[16]

d)BPNN

BPNN是一种应用广泛于的人工神经网络模型。通过训练一组权重参数使神经网络对输入数据进行有效的分类或回归预测,具有较高的泛化能力和预测准确性。BPNN的核心思想是通过反向传播误差的方式更新权重参数,从而提高神经网络的预测能力。在BPNN模型中,每个神经元的输入由前一层神经元的输出和权重参数决定,每个神经元的输出由激活函数计算得出。BPNN的训练过程是一个迭代过程,通过不断调整权重参数,使神经网络的预测结果更加准确[20]

e)径向基神经网络(radial basis function neural network,RBF-NN)

该方法最早由ZHU等[21]于1988年提出,其在机器学习研究中得到广泛应用。RBF-NN突出的优势是具有强大的非线性拟合能力,并且由于结构简单,其训练速度非常快,可以逼近任意复杂的非线性函数,在全局逼近和局部特性中,能够实现全局最优逼近,并在局部区域中表现良好的逼近能力[22-23],因此在光伏发电系统[24]和近红外光谱[25]等领域广泛应用。

1.3.5 模型评价

PLS-DA模型运用受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)作为PLS-DA分类预测能力的评价指标,其范围为0~1,AUC指标值越接近1,表明PLS-DA分类预测能力越强。

BPNN模型运用分类准确率(classification accuracy,CA)、预测决定系数(determination coefficient of 均方误差(mean squared error,MSE)指标对预测结果进行评价。CA代表模型预测正确的样本数占总样本数的比例,衡量模型的预测准确性,CA越接近1,说明模型预测能力越好。代表实际类别和预测类别的拟合程度,范围为0~1,其值越接近1,模型的预测结果越准确。MSE函数衡量模型预测结果与实际结果之间的差异程度,当MSE值越接近0,模型的预测结果更接近实际结果[19-20]

RF模型以训练集和测试集的CA反应模型预测能力高低,当训练集和测试集CA都较高时,说明模型分类识别效果好。

2 结果与分析

2.1 UV、NIR光谱分析

图2和图3分别表示经过不同方法预处理的UV、NIR光谱。如图1所示,273 nm吸收峰是糠醛的吸收峰,此吸收峰是白酒组成成分中不饱和有机分子外层电子π→π*跃迁所致,200~220 nm吸收峰是羧基吸收峰,主要来源于非键轨道至反键轨道之间的n→σ*跃迁[26]。近红外光谱区域,乙醇和水的吸收峰特别强,主要因为白酒中乙醇和水是白酒的主要成分,如图2所示。水分子在1 450 nm附近有显著的一级倍频吸收,合频位于1 950 nm附近。乙醇在2 305 nm附近有明显的特征吸收峰。1 780 nm附近是C—H以及倍频的伸缩振动,1 690 nm附近为—CH3一级倍频伸缩振动或者是含有C—H键的方向化合物[27]。在833~2 500 nm区域内,光谱曲线变化趋势类似,波形和波峰没有明显变化,表明不同品牌白酒的成分较为相似,需要进一步借助化学计量学分析处理,以提取有用的光谱差异信息,建立“互助”牌青稞酒的分类模型。

a-S-G预处理UV光谱;b-SNV预处理UV光谱;c-2D预处理UV光谱图;d-1D预处理UV光谱图

图2 预处理后的UV光谱图

Fig.2 UV spectrogram after pretreatment

a-S-G预处理NIR光谱图;b-SNV预处理NIR光谱图;c-2D预处理NIR光谱图;d-1D预处理NIR光谱图

图3 预处理后的NIR光谱图

Fig.3 NIR spectra after pre-processing

2.2 PCA

将UV、NIR经SG预处理光谱进行PCA,UV光谱前3个主成分累积方差贡献率达到90.86%,NIR光谱前3个主成分累积方差贡献率达到99.11%,PCA不仅可以数据降维,同样也能对三类样本间的差异进行初步分析。因此,以前3个主成分为变量绘制散点分布图,结果如图4所示。由图4-a可得,“互助”牌青稞酒和非互助牌青稞酒的主成分散点呈聚类趋势,分类较好,但非青稞酒没有明显的簇拥现象;由图4-b可得,三类样本的主成分散点分布互相交叉,类别之间没有明显的簇拥现象。这可能表现在某些方面,三类样本在主成分方向上具有一些相似性,导致它们在这个方向上不能完全分离。UV和NIR光谱进行PCA处理后的前3个主成分不能对目标样本进行正确分类,因此需要采用模式识别方法进一步分析。

a-UV光谱主成分得分图;b-NIR光谱主成分得分图

图4 光谱的前3个主成分得分图

Fig.4 Score plot of the first 3 principal component of the spectra

对白酒原始光谱和预处理光谱分别进行PCA,不同主成分数下的累积方差贡献率如图5所示。UV、NIR原始光谱和经过SNV、SG预处理光谱在选择较少主成分时累积方差贡献率就能大于90%,而1D和2D预处理光谱则需要选择较多的主成分,累计方差贡献率才能达到90%。可能是求导使光谱信息更加离散,且重要主成分之间的占比趋于接近,在进行PCA降维时,能找到更多相对重要的投影方向,因此需要较多主成分才能解释原始数据信息。基于主成分数与累积方差贡献率的关系,用UV、NIR原始光谱选择不同的主成分数建立模型,从而选择最佳主成分数,并以该主成分数对UV、NIR其余预处理光谱建模。最后将UV、NIR提取的特征数据进行拼接,完成主成分数据融合。分别考察单一光谱主成分特征提取和2种单一光谱主成分特征融合数据建立PLS-DA、BPNN、RF和RBF-NN模型的分类预测能力。

a-UV光谱累积方差贡献率;b-NIR光谱累积方差贡献率

图5 光谱的累积方差贡献率图

Fig.5 Cumulative variance contribution plot of spectra

2.3 分类模型建立

本研究分别采用PLS-DA、BPNN、RF和RBF-NN分类算法对白酒样本构建鉴别模型。主成分数的选择对模型的分类结果有直接影响。图6是UV光谱的PLS-DA、BPNN、RF和RBF-NN模型选择不同主成分时,对应训练集和测试集的分类指标值。图6-a中PCA-PLS-DA模型,当主成分为9,选择5个隐变量、7折交叉验证时,模型性能最佳,训练集和测试集的AUC值分别为0.957 5和0.952 4。当主成分数为2,隐含层节点数为12、学习速率为0.01以及迭代数为1 000时,图6-b中PCA-BPNN模型获得了最高的CA,在训练集和测试集上分别为98.73%和100%。图6-c中当主成分数增加到3时,PCA-RF模型的CA值即达到100%,因此主成分为3时,PCA-RF模型性能最佳,并且得到RF模型稳健型较强。当主成分数为8,径向基扩展速度为100时,图6-d中PCA-RBF-NN模型的训练集和测试集的CA均达到100%,因此,选择8个主成分建立PCA-RBF-NN模型。根据三类算法各自的最优分类指标比较4个分类模型的性能结果,可以看出PCA-RF模型性能最佳,利用其对紫外光谱数据分析可以较好地鉴别不用品牌的白酒。通过原始光谱选取了最佳主成分数,下文中UV光谱经过SNV、SG、1D和2D预处理光谱建立PLS-DA模型选择9个主成分数,建立BPNN模型时选择2个主成分数,建立RF模型时选择3个主成分数,建立RBF-NN模型时选择8个主成分数。

a-PCA-PLS-DA模型;b-PCA-BPNN模型;c-PCA-RF模型;d-PCA-RBF-NN模型

图6 UV光谱不同主成分数对应的模型结果

Fig.6 Modeling results corresponding to different principal component fractions of UV spectra

NIR光谱对白酒样本的化学组成和分子结构信息表征性能良好,所以可利用化学计量学中的分类算法构建基于NIR光谱的白酒样本判别模型。判别模型包括训练集和测试集2个部分。通常认为,当所选主成分的累积方差贡献率达到90%的时候,表明这些主成分可以代替原始数据。但是研究表明,仅依靠这种经验不可能获得最佳的分类结果,这是因为剩余的主成分对原始数据的解释也很重要[28]。本研究在逐步取前20个主成分时分别建立PLS-DA、BPNN、RF和RBF-NN模型并考察其判别性能,结果如图7所示。图7-a中当主成分数为19,选择6个隐变量、5折交叉验证时,PCA-PLS-DA模型具有最高的AUC值,训练集和测试集分别为0.944 0、0.919 3;图7-b中当主成分数为20、隐含层节点数为11、学习速率为0.01时以及迭代次数为1 000时,PCA-BPNN模型具有最高的CA值,训练集和测试集分别为97.47%、85.29%。图7-c中当主成分数为10、决策树数为1 000、最小叶子数为1时,PCA-RF模型具有最高的CA值,训练集和测试集的CA值分别为100%和88.24%。图7-d中当主成分数为7,径向基扩展速度为100时,PCA-RBF-NN模型具有最高的CA值,训练集和测试集的CA值分别为97.47%和91.18%。比较4个分类模型的性能,发现利用PCA-PLS-DA模型对NIR光谱数据分析具有较好的分类判别效果。下文中NIR光谱经过SNV、SG、1D和2D预处理光谱建立PLS-DA模型选择19个主成分数,建立BPNN模型时选择20个主成分数,建立RF模型时选择10个主成分数,建立RBF-NN模型时选择7个主成分数。

a-PCA-PLS-DA模型;b-PCA-BPNN模型;c-PCA-RF模型;d-PCA-RBNN模型

图7 NIR光谱不同主成分数对应的模型结果

Fig.7 Modeling results corresponding to different principal component fractions of NIR spectra

2.3.1 PLS-DA模型

分别考察单光谱数据和融合光谱数据、LF和MF等不同前处理过程对PLS-DA模型的影响。图8-a是对UV、NIR分别经PCA特征提取后的单一光谱数据及其MF数据经不同方法预处理后进行PLS-DA分析的结果;图8-b是未经PCA特征提取,直接对UV、NIR及其LF数据经不同方法预处理后进行PLS-DA分析的结果。

a-PCA特征提取数据及其MF数据;b-全谱数据及其LF数据

图8 基于不同预处理光谱PCA特征提取数据和全谱建立PLS-DA模型的AUC值

Fig.8 AUC values for PLS-DA modeling based on PCA feature extraction data and full spectrum of different preprocessed spectra

一方面,除NIR单光谱数据外,UV、MF和LF数据建立PLS-DA模型的AUC值相差不大,均有较好分类识别效果。其中经过PCA特征提取的训练集建立模型的AUC值均大于0.89,测试集AUC值均大于0.86,全谱数据的训练集建立模型的AUC值均大于0.94,测试集AUC值均大于0.81,2种数据建立模型性能相当,并且PCA提取特征数据建立模型的测试集AUC值较大,表明PCA特征提取后用极少数变量即可达到全变量建立PLS-DA模型的效果,利用PCA特征提取数据建立PLS-DA模型能够满足对目标对象的分类需求。

另一方面,NIR光谱通过PCA特征提取数据建立PLS-DA模型时训练集AUC值为0.63~0.98,测试集AUC值为0.53~0.90,全光谱建模所得训练集AUC值为0.97~0.98,测试集AUC值为0.73~0.92,说明NIR光谱利用PCA特征提取方法建立PLS-DA模型判别分类性能不稳定,其结果很大程度上依赖于预处理方法,图8-a中可见NIR求导后建立的模型效果最差,SG预处理的NIR模型性能最佳。

此外,从数据类型来看,UV、NIR单光谱数据和融合光谱数据相比,融合光谱数据建模后的效果均优于单光谱数据,且表现出一定的稳健性,由图8所示,无论是否使用PCA特征提取,MF和LF建立PLS-DA模型的效果均优于单一光谱建模。而从PLS-DA的最佳隐变量数来看,PCA特征提取数据建立模型所需的潜变量数为3~6,而全光谱建立PLS-DA模型所需潜变量数为10~15,说明进行PCA特征提取在一定程度上减少了模型的计算复杂度。因此,采用PCA特征提取后的融合数据建立PLS-DA模型可在降低计算复杂程度的同时得到理想的分类识别效果。

2.3.2 RF模型

分别考察单光谱数据和融合光谱数据、LF和MF等不同前处理过程对RF模型的影响。图9-a是对UV、NIR分别经PCA特征提取后的单一光谱数据及其MF数据经不同方法预处理后进行RF分析的结果;图9-b是未经PCA特征提取,直接对UV、NIR及其LF数据经不同方法预处理后进行RF分析的结果。

a-PCA特征提取数据及其MF数据;b-全谱数据及其LF数据

图9 基于不同预处理光谱PCA特征提取数据和全谱建立RF模型的CA值

Fig.9 CA values for RF modeling based on different preprocessed spectral PCA feature extraction data and full spectrum

由图9可知,无论是否对数据进行PCA特征提取,所建立的RF在训练集上的CA值均达到100%,表明对数据进行PCA特征提取,可有效对数据降维且保留分类信息。进行PCA降维后,UV-SG、MF-RAW、MF-SG建立PCA-RF模型的CA值均为100%,说明这3组数据建立RF模型具有良好的分类鉴别效果。而采用全谱数据时,UV、NIR全光谱及LF数据建立的RF模型CA值均未达到100%,表明全光谱模型中光谱信息冗余,模型分类效果可能受到一些无关信息的干扰。图9-a中,UV和MF数据建立PCA-RF模型的测试集CA值为94%~100%,表现出较为良好的分类能力。

对单一NIR光谱,全光谱或者PCA降维后的数据建立的RF模型均达不到良好的分类识别效果。且经PCA特征提取后的RF模型分类能力低于全谱模型,图9-b中,1D和2D预处理的NIR光谱建立PCA-RF模型的测试集CA为52.94%和47.06%,1D和2D预处理的NIR全光谱建立RF模型的测试集CA值为94.18%和91.18%,可能是因为NIR光谱经过导数处理后需要更多的主成分数才能解释原始光谱信息。总之,通过对单一光谱数据进行PCA特征提取以及MF融合数据建立PCA-RF模型,不仅极大程度的简化模型计算,而且也能从中得到具有较良好分类识别能力的模型。

2.3.3 BPNN模型

由于NIR和LF光谱数据维数较大,因此本研究考察了UV、NIR经PCA提取的特征数据及其MF数据建立BPNN模型的效果,结果如图10和表1所示。在图10中,UV-RAW、UV-SG、MF-SG建立PCA-BPNN模型的测试集CA值均能达到为1,MSE均较小,表明这3个光谱数据建立PCA-BPNN模型满足分类需求,其中UV-SG建立PCA-BPNN模型是15组建模数据中分类预测能力最佳的,其CA值为为1,MSE为0.021 7。另外,NIR光谱的主成分特征数据及MF数据经过1D和2D方法预处理后建立的BPNN模型各评价指标表明不能达到模型分类预测的要求,其余提取的特征光谱数据建立的模型能够满足对目标对象的分类识别需求。在表1中,UV原始光谱和SG预处理光谱的测试集CA值和分别能达到100%和1,这2个指标值与PCA特征提取数据建模指标值相同,但其全光谱建立模型的MSE值高于UV光谱经过PCA特征提取数据建立模型的MSE值,表明UV全光谱建立BPNN模型时,由于存在的冗余信息,增大了模型的预测误差。

表1 基于不同预处理UV全谱建立BPNN分类模型结果

Table 1 Results of building BPNN classification model based on different preprocessed UV full spectrum

建模方法CA/%R2PMSEUV-RAW100.01.0000.041 3UV-SNV94.120.846 10.135 0UV-SG100.01.0000.244 7UV-1D97.060.933 90.060 1UV-2D97.060.891 80.027 4

图10 基于不同预处理光谱经过PCA特征提取建立BPNN分类模型效果

Fig.10 Effect of establishing BPNN classification model based on different preprocessing spectra after PCA feature extraction

2.3.4 RBF-NN模型

分别考察单光谱数据和融合光谱数据、LF和MF等不同预处理过程对RBF-NN模型的影响。图11-a是对UV、NIR分别经PCA特征提取后的单一光谱数据及其MF数据经不同方法预处理后进行RBF-NN分析的结果;图11-b是未经PCA特征提取,直接对UV、NIR及其LF数据经不同方法预处理后进行RBF-NN分析的结果。

a-PCA特征提取数据及其MF数据;b-全谱数据及其LF数据

图11 基于不同预处理光谱PCA特征提取数据和全谱建立RBF-NN模型的CA值

Fig.11 CA values for RBF-NN modeling based on different preprocessed spectral PCA feature extraction data and full spectrum

一方面,由图11可知,经2D预处理的UV、NIR全光谱和PCA特征提取建立的模型其测试集分类准确率为50%~97.18%,不能满足良好的分类需求,后续不再讨论关于2D预处理光谱数据对RBF-NN模型的影响。图11-a中UV原光谱和预处理光谱通过PCA特征提取后建立的RBF-NN模型其测试集分类准确率为94.12%~100%,其中原光谱和SG预处理光谱数据建立的模型其训练集和测试集分类准确率均为100%;图11-b中UV原始全光谱和预处理全光谱建立的RBF-NN模型其测试集分类识别准确率为91.18%~97.06%,其中,原光谱和SG预处理光谱建立的模型分类效果最佳,其训练集和测试集准确率均为100%、97.06%,说明UV光谱通过PCA特征提取建立RBF-NN模型可以有效简化模型复杂度,降低数据冗余对模型分类识别效果的负面影响,并且利用UV光谱建立RBF-NN模型时,原光谱和简单的SG预处理即可满足建模的分类需求。

另一方面,图11-a中NIR原光谱和预处理光谱通过PCA特征提取后建立的RBF-NN模型其测试集分类准确率为73.53%~91.18%,其中原光谱和SG预处理光谱建立模型的分类效果最佳。其训练集和测试集的分类准确率均为100%、91.18%;图11-b中NIR原始全光谱和预处理全光谱建立的RBF-NN模型其测试集分类准确率为94.12%~100%,其中SNV预处理光谱建立模型分类效果最佳,其训练集和测试集分类准确率均为100%,说明对NIR光谱进行PCA特征提取建模会丢失较多分类识别的有效信息,而致分类准确率降低,利用NIR光谱建立RBF-NN模型时,选择全光谱建模较合适。

此外,图11-a中通过PCA特征提取所得的MF融合数据建立RBF-NN模型的测试集分类准确率为67.65%~91.18%,其中经过1D预处理光谱建立RBF-NN模型的测试集分类准确率最佳为91.18%,图11-b中LF融合数据建立RBF-NN模型的测试集分类准确率为88.24%~100%,其中原始、SG预处理全光谱建立RBF-NN模型的测试集分类准确率最佳为100%,说明UV、NIR的LF融合数据建立RBF-NN模型的分类效果更好。

3 结论

本研究采用4种预处理和主成分特征提取方法对白酒样本的UV和NIR光谱数据进行单独处理和光谱数据融合,基于最佳融合策略建立“互助”青稞酒定性鉴别模型。主要结论如下:

在PLS-DA模型分析中,基于UV光谱使用2D处理后的PCA-PLS-DA分类结果最优,模型预测集的灵敏度AUC为0.966 7;基于NIR光谱使用SG预处理后的全光谱建模结果最优,模型测试集的AUC为0.917 5;基于UV-NIR光谱使用2D处理后的PCA-PLS-DA的分类结果最优,测试集的AUC为0.962 4。

在RF模型分析中,基于UV原始光谱和2D预处理后的PCA-RF模型的分类结果最优,训练集和测试集CA值均达到100%;基于NIR光谱使用1D处理后的全光谱建立的RF模型结果最佳,训练集CA值为100%,测试集CA值为94.12%;基于UV-NIR原始光谱和SG预处理后的PCA-RF分类结果最优,训练集和测试集CA值均达到100%。

在BPNN模型分析中,基于UV原始光谱和SG处理后的PCA-BPNN分类结果最优,预测集CA值和分别为100.0%和1.000,MSE<0.03;基于NIR原始光谱建立的PCA-BPNN模型分类结果最优,预测集CA值和分别为96%和0.938 2,MSE<0.09;基于UV-NIR使用SG处理后的PCA-BPNN模型分类结果最优,预测集CA值和分别为100.0%和1.000,MSE<0.12。

在RBF-NN模型分析中,基于UV原始光谱和SG预处理后的PCA-RBF-NN分类结果最优,训练集和预测集CA值均为100%;基于NIR全光谱经SNV预处理后建立的RBF-NN模型分类结果最优,训练集和测试集CA值均为100%;基于UV-NIR的LF原光谱和SG预处理光谱分类结果最优,训练集和测试集CA值均为100%。

综上分析,得到以下结论:首先,BPNN和RBF-NN作为深度学习算法,其建模总体的分类效果相比RF、PLS-DA统计学习算法的分类结果更好,模型的稳健性更强。其次,对于BPNN模型LF融合主要是其表征变量数多,有效信息难以得到融合,使得LF数据建模预测能力一般,结果与单光谱分类识别效果相差不大,提升度不高。MF融合中,在单一光谱上进行主成分特征提取进而融合数据,分类识别效果稳定,能满足目标对象的分类预测能力的需求。而对于RBF-NN建模可能需要更大的数据量迭代计算,因此LF融合建模优于MF融合建模,由于RBF-NN并不因数据量增大而增加建模时间,所以,RBF-NN在不损失数据量的情况下依然能够达到优良的模型分类能力。

参考文献

[1] 刘建学, 杨国迪, 韩四海, 等.白酒基酒中典型醇的近红外预测模型构建[J].食品科学, 2018, 39(2):281-286.LIU J X, YANG G D, HAN S H, et al.Prediction model for typical alcohols in base liquor based on near infrared spectroscopy[J].Food Science, 2018, 39(2):281-286.

[2] 孙宝国, 李贺贺, 胡萧梅, 等.健康白酒的发展趋势[J].中国食品学报, 2016, 16(8):1-6.SUN B G, LI H H,HU X M,et al.The development trend of healthy Baijiu[J].Journal of Chinese Institute of Food Science and Technology, 2016, 16(8):1-6.

[3] 李娜, 程伟, 张杰, 等.白酒原产地分析鉴别技术研究进展[J].酿酒科技, 2018(6):116-121.LI N, CHENG W, ZHANG J, et al.Research progress in analysis &identification technology of the origin of Baijiu[J].Liquor-Making Science &Technology, 2018(6):116-121.

[4] 凌晨, 马清蓉, 耿超, 等.近红外光谱技术在清香型酒醅检测中的应用研究[J].酿酒, 2024, 51(2):100-106.LING C, MA Q R, GENG C, et al.Application of near infrared spectroscopy in the detection of Fen flavor fermented grains[J].Liquor Making, 2024, 51(2):100-106.

[5] 苏媛媛, 姜雪, 仓义鹏, 等.紫外-可见光谱传感对高温大曲白酒真实性的准确鉴别[J].化学试剂, 2023, 45(10):8-13.SU Y Y, JIANG X, CANG Y P, et al. Accurate identification of high-temperature Daqu liquor by UV-vis sensor[J]. Chemical Reagents, 2023, 45(10):8-13.

[6] ARZBERGER U, LACHENMEIER D W.Fourier transform infrared spectroscopy with multivariate analysis as a novel method for characterizing alcoholic strength, density, and total dry extract in spirits and liqueurs[J].Food Analytical Methods, 2008, 1(1):18-22.

[7] 彭秉顺, 李占海.青稞酒工艺特点及产品风格的探讨[J].酿酒科技, 1991(4):25-27.PENG B S, LI Z H.Discussion on technological characteristics and product style of highland barley wine[J].Liquor-making Science &Technology, 1991(4):25-27.

[8] 许锦文, 李善文.互助青稞酒的香型及其风味特征[J].酿酒科技, 2012(7):82-84;86.XU J W, LI S W.Investigation on the flavor type and the flavoring characteristics of Huzhu highland barley wine[J].Liquor-Making Science &Technology, 2012(7):82-84;86.

[9] QIAN Y L, AN Y Q, CHEN S, et al.Characterization of Qingke liquor aroma from Tibet[J].Journal of Agricultural and Food Chemistry, 2019, 67(50):13870-13881.

[10] 马华丽, 刘志明, 宋永朋.青海青稞酒挥发性成分的可见-紫外光谱学特性分析[J].中国酿造, 2015, 34(2):158-162.MA H L, LIU Z M, SONG Y P.Characteristic of UV-Vis absorption spectroscopy about volatile compounds of Qinghai barley liquor[J].China Brewing, 2015, 34(2):158-162.

[11] WANG X L, SONG X B, ZHU L, et al.Unraveling the acetals as ageing markers of Chinese Highland Qingke Baijiu using comprehensive two-dimensional gas chromatography-time of flight mass spectrometry combined with metabolomics approach[J].Food Quality and Safety, 2021, 5:510.1093: fqsafe.

[12] 张世芝, 唐玮琦, 张明锦, 等.基于紫外光谱法的青稞酒快速鉴别方法[J].食品与发酵工业, 2020, 46(14):211-215.ZHANG S Z, TANG W Q, ZHANG M J, et al.Rapid identification of Qingke liquor based on UV spectroscopy[J].Food and Fermentation Industries, 2020, 46(14):211-215.

[13] CAI J J.PGEToolbox:A Matlab toolbox for population genetics and evolution[J].Journal of Heredity, 2008, 99(4):438-440.

[14] RINGNÉR M.What is principal component analysis?[J].Nature Biotechnology, 2008, 26(3):303-304.

[15] LI C N, QI Y F, SHAO Y H, et al.Robust two-dimensional capped l 2,1-norm linear discriminant analysis with regularization and its applications on image recognition[J].Engineering Applications of Artificial Intelligence, 2021, 104:104367.

[16] WU R Y, HAO N.Quadratic discriminant analysis by projection[J].Journal of Multivariate Analysis, 2022, 190:104987.

[17] ZHANG Z Y, JIANG J Y, WANG G X, et al.Application of two-dimensional correlation UV-vis spectroscopy in Chinese liquor Moutai discrimination[J].American Journal of Analytical Chemistry, 2015, 6(5):395-401.

[18] 胡耀强, 郭敏, 叶秀深, 等.近红外光谱法间接测定白酒酒精度[J].光谱学与光谱分析, 2022, 42(2):410-414.HU Y Q, GUO M, YE X S, et al.Indirect determination of liquor alcohol content based on near-infrared spectrophotometry[J].Spectroscopy and Spectral Analysis, 2022, 42(2):410-414.

[19] 迟茜, 王转卫, 杨婷婷, 等.基于近红外高光谱成像的猕猴桃早期隐性损伤识别[J].农业机械学报, 2015, 46(3):235-241;234.CHI Q, WANG Z W, YANG T T, et al.Recognition of early hidden bruises on kiwifruits based on near-infrared hyperspectral imaging technology[J].Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(3):235-241;234.

[20] PENG J T, ZHOU Y C, PHILIP CHEN C L.Region-kernel-based support vector machines for hyperspectral image classification[J].IEEE Transactions on Geoscience and Remote Sensing, 2015, 53(9):4810-4824.

[21] ZHU Q M, CAI Y, LIU L Z.A global learning algorithm for a RBF network[J].Neural Networks, 1999, 12(3):527-540.

[22] 崔永,申加伟,刘洋,等.油压调控系统在挖机瞬变工况下的适应性研究[J].内燃机工程, 2023, 44(5):50-56;65.CUI Y, SHEN J W, LIU Y, et al.Study on adaptability of oil pressure control system in transient working condition of the excavator[J].Chinese Internal Combustion Engine Engineering, 2023, 44(5):50-56;65.

[23] 余鹏飞,朱继忠,熊小伏,等.基于储能的电力系统安全调控方法[J].电力系统保护与控制,2023,51(19):173-186.YU P F, ZHU J Z, XIONG X F, et al.Power system safety regulation method based on energy storage[J].Power System Protection and Control, 2023, 51(19):173-186.

[24] 郭刚,汪海涛,高晓成,等.基于粗糙径向基神经网络的刮板输送机负载预测方法研究[J].煤炭工程,2024,56(2):138-145.GUO G, WANG H T, GAO X C, et al.Research on load forecasting method of scraper conveyor based on rough radial basis function neural network[J].Coal Engineering, 2024, 56(2):138-145.

[25] 李慧,顾洪涛,苏婷婷.近红外光谱技术用于快速检测藜麦营养成分的研究进展[J].农产品加工,2024(1):93-97;102.LI H, GU H T, SU T T.Research progress of near-infrared spectroscopy for rapid detection of quinoa nutritional components[J].Farm Products Processing, 2024(1):93-97;102.

[26] 许情,吕敏,邓虹霄,等.机器学习在合成大麻素识别鉴定中的应用进展[J].中国药科大学学报, 2024, 55(3):316-325.XU Q, LYU M, DENG H X, et al.Advances in the application of machine learning in the identification and authentication of synthetic cannabinoids Journal of China Pharmaceutical University, 2024, 55(3):316-325.

[27] 李佳,韩宝瑜,梅献山.基于电子鼻技术的有机绿茶贮存期评价方法探讨[J].茶叶通讯,2024, 51(1):68-77.LI J, HAN B Y, MEI X S.Study on evaluation method of storage time of organic green tea based on electronic nose technology[J].Journal of Tea Communication, 2024, 51(1):68-77.

[28] DE ALMEIDA V E, DE SOUSA FERNANDES D D, DINIZ P H G D, et al.Scores selection via Fisher’s discriminant power in PCA-LDA to improve the classification of food data[J].Food Chemistry, 2021, 363:130296.

Machine algorithm combined with spectral principal component feature fusion for discriminative study of Qingke liquor

ZHAO Yuxia1, WANG Ru1, ZHANG Shizhi2, YIN Bo1,3, ZHANG Mingjin1,3*

1(College of Chemistry and Chemical Engineering, Qinghai Normal University, Xining 810016, China)

2(College of Chemistry and Chemical Engineering, Qinghai University for Nationalities, Xining 810016, China)

3(Qinghai Key Laboratory of Advanced Technology and Application of Environmental Functional Materials, Xining 810016, China)

ABSTRACT This study established a qualitative analysis model based on spectral fusion to achieve rapid identification of the protected geographical indication product “Huzhu” Qingke liquor. Ultraviolet (UV) and near-infrared (NIR) spectra of Baijiu were collected and preprocessed using four methods. Principal component feature extraction was employed to integrate multispectral information through data layer and feature layer strategies. The modeling effectiveness was evaluated by comparing the performance metrics of partial least square-discriminant analysis (PLS-DA), random forest (RF), back propagation neural network (BPNN), and radial basis function neural network (RBF-NN) models. Results indicated that the PLS-DA model built with variables derived from second derivative preprocessing and principal component feature extraction performed the best, achieving sensitivity, specificity, and area under the curve (AUC) of receiver operating characteristic (ROC) of 1.000, 0.966 7, and 0.962 4 in the prediction set, respectively. The RF model optimized by principal component feature extraction of raw spectra and Savitzky-Golay smooth (SG) spectra achieved the highest classification accuracy of 100% in both training and prediction sets. The BPNN model established with principal component variables from raw UV spectra and SG-preprocessed spectra demonstrated the best recognition performance, with a prediction set classification accuracy of 100% and a prediction coefficient of determination of 1, while the mean squared error (MSE) was less than 0.03. Principal component analysis-radial basis function neural network (PCA-RBF-NN) classification yielded optimal results, achieving 100% classification accuracy in both training and prediction sets. The RBF-NN model built from full NIR spectra after SNV preprocessing also produced the best classification results, with 100% accuracy in both training and test sets. The UV-NIR LF raw spectra and SG-preprocessed spectra classification results were the most optimal, achieving 100% classification accuracy in both training and test sets. Consequently, the spectral data variables used for principal component feature extraction modeling were significantly reduced, effectively simplifying the classification model while maintaining performance parity with models built using full wavelengths. This study provides a feasible method for rapid, non-destructive identification of “Huzhu” Qingke liquor.

Key words Chinese Huzhu Qingke liquor; principal component feature extraction; partial least square-discriminant analysis; back propagation neural network; random forest; radial basis function neural network

DOI:10.13995/j.cnki.11-1802/ts.041311

引用格式:赵玉霞,王茹,张世芝,等.机器算法结合光谱主成分特征融合对青稞酒的判别研究[J].食品与发酵工业,2025,51(24):75-85.ZHAO Yuxia,WANG Ru,ZHANG Shizhi, et al.Machine algorithm combined with spectral principal component feature fusion for discriminative study of Qingke liquor[J].Food and Fermentation Industries,2025,51(24):75-85.

第一作者:硕士研究生(张明锦教授为通信作者,E-mail:zhangmingjin@qhnu.edu.cn)

基金项目:国家自然科学基金项目(22363010);青海省自然科学基金项目(2022-ZJ-769)

收稿日期:2024-10-15,改回日期:2025-04-30