基于机器学习混合特征选择方法的近红外光谱检测浓香型白酒基酒等级

曹梦德1,王怡博1,张贵宇1,2,3*,黄治超4,曾祥林5,6,彭英杰1,2

1(四川轻化工大学 自动化与信息工程学院,四川 宜宾,644000)

2(四川轻化工大学,人工智能四川省重点实验室,四川 宜宾,644000)

3(酿酒生物技术及应用四川省重点实验室,四川 宜宾,644000)

4(成都洺阔数智有限公司,四川 成都,610000)

5(企业信息化与物联网测控技术四川省高校重点实验室,四川 宜宾,644000)

6(四川轻化工大学 计算机科学与工程学院,四川 宜宾,644000)

摘 要 白酒基酒等级检测过程中,存在感官评价方式主观性强,传统方法效率较低且造成污染的问题,如何快速准确地预测其等级具有重要意义。该研究以浓香型白酒基酒为研究对象,利用近红外光谱建立了白酒基酒等级判别模型,并对其效果进行了检验。该方法首先将交叉验证递归特征消除与机器学习方法相结合,用于度量近红外光谱特征重要性并进行初步提取;再利用前向逐步贪婪算法确定基酒等级预测的最佳特征子集;最后使用分类提升建立预测模型,通过准确率、召回率、F1分数、混淆矩阵和受试者工作曲线系统比较了5种机器学习特征提取方法(多元逻辑回归、决策树、随机森林、梯度提升机、极端梯度提升)的性能。结果表明,交叉验证递归特征消除结合极端梯度提升的方法特征提取效果最优,最终分类准确率达94.24%,相比未特征提取提高14.14%。该方法重现性好,可解释性强,为白酒基酒等级快速检测提供了新思路。

关键词 近红外光谱;基酒等级;特征选择;机器学习;递归特征消除

中国白酒是中国最传统,也是最受欢迎的酒类之一,是中国文化的重要组成部分。其以粮食作为原料,以酵母或者曲类作为固体糖化发酵剂,经过固态糖化发酵,蒸馏后得到白酒基酒[1]。成品酒来源于对基酒的勾调,基酒的品质奠定了成品酒品质。在生产中,基酒的分级主要依赖于人工感官品评,但该方法受到主观影响较大,缺乏严密性、标准性且重现性差[2]。而传统分析方法,如气相色谱法、液相色谱法、质谱法等[3-5],虽然更为严密标准,但检测技术大多需要对待测样品进行化学制备,造成化学污染,同时存在分析速度较慢、成本高等问题。而近红外光谱技术作为一种快速、无损无污染、无需样本制备、重现性好的检测技术,具有广阔的应用潜力[6]

近年来,近红外光谱技术被广泛应用于白酒定性分析。ZHONG等[7]将集成移动窗口波段筛选的偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)应用于白酒品牌鉴别,提出了包含五类波段的简化最优模型。YANG等[8]应用PLS-DA对香气和酒精度相同的白酒品牌进行鉴别,预测集达99.1%。宗绪岩等[9]研究发现白酒基酒中典型醇和酯的主要光谱吸收波段为4 833~6 846 cm-1,并通过此波段分别建立年份、等级模型。ZHANG等[10]采用改进的竞争自适应重加权算法(competitive adaptive reweighted sampling,CRAS)结合核主成分分析(kernel principal component analysis,KPCA)对白酒基酒的特征光谱进行提取,预测集效果达96%以上。从上述研究中可以看出,近红外技术在多组分样本检测中体现出了良好的适用性,但同时由于光谱数据具有高维、小样本的特点,以及多组分样本中成分间的复杂协调作用,光谱特征的有效性在很大程度上影响了最终的模型效果。

传统特征选择方法大多使用偏最小二乘参数度量特征重要性[11]。对于光谱数据这样的复杂数据集,特征之间可能存在复杂的非线性关系,依赖偏最小二乘参数来评估特征重要性进行特征提取,会由于偏最小二乘回归分析本质上是线性模型,可能无法充分捕捉这些非线性模式,从而导致重要特征的遗漏。为了解决非线性特征带来的困扰,有的方法大量采样特征子集评估变量组合的影响,但这无疑加大了计算复杂度同时引入了随机性。而类似于KPCA这类通过变量投影降维的方法则会面临提取的主成分可能并不具有物理或化学上的直观意义,不利于结果解释和指导生产的问题。目前多采用多特征选择方法联用的混合特征选择方式弥补各方法的缺陷以获取更好的预测效果[12-13],但这无疑使近红外预测模型更加复杂和不易调控。

随着机器学习(machine learning,ML)方法的不断发展,近红外光谱的特征选择方法也出现了新的思路。一方面机器学习方法像决策树(decision tree,DT)、随机森林(random forest,RF)、梯度提升树(gradient boosting decision tree,GBDT)等,能够自动捕捉特征之间的非线性关系,从而更好地挖掘数据的内在联系,提取更具有区分度的特征。另一方面相比于传统方法,它有着更好的鲁棒性和泛化能力。谢玮萍等[14]使用多种机器学习方法提取激光诱导击穿光谱特征以鉴别稻米产地,均取得更优的准确率。梅轩铭等[15]使用RF结合交叉验证递归特征消除方法提取高光谱特征判别马铃薯叶片干旱状态,取得了优于CARS的特征提取结果。ZHENG等[16]的研究表明,对于近红外光谱,使用机器学习提取特征建模相较于CARS,在泛化能力和防止过拟合上更优。基于机器学习的特征选择方法已经展现出自身的独特优势,但还鲜见于白酒基酒等级评价。因此,本研究采用了5种不同的ML方法,结合交叉验证递归特征消除(recursive feature elimination with cross-validation,RFECV),提出了RFECV-ML混合特征选择方法,用于预测浓香型白酒基酒等级,以期为机器学习特征选择方法在白酒检测领域的应用提供思路。

1 材料与方法

1.1 基酒样本采集

本研究的基酒样品采集于四川某知名酒企的浓香型白酒,该样品由用高粱、大米、糯米、小麦和玉米组成的混合原料,使用包包曲和双轮底发酵工艺得到的糟醅蒸馏而来。为了兼顾所采集样品的完整性和代表性,样品采集自3个不同生产批次的不同窖池。为使得样品能够尽可能多地覆盖浓香型基酒的特点,设置了5个采样段,其中头、中、尾3段,在酒体较为稳定时进行小间隔采样,作为具有基酒典型特征的样品;两过渡段采用连续采样,作为需要细致区分的复杂样本。原酒样品采集过程由具有10年以上摘酒经验的摘酒师傅完成,与实际生产时摘酒方法相同,根据实时馏酒情况,如酒花、酒精度、现场品评情况适时摘取原酒样品。共采集样品55组,每组14个,共770个样品,具体采样方式见图1。

图1 基酒样品采集方式

Fig.1 Base liquor sample collection method

完成样品采集后进行感官品评以确定最终等级。感官品评由酒厂的品评小组完成,小组由5位国家三级品酒师组成,根据GB/T 10345—2022《白酒分析方法》、GB/T 33404—2016《白酒感官品评导则》结合酒厂质量评价标准对基酒进行综合评价。除去8个有争议样品,共保留有效样品762个,其中一级酒样品186个,二级酒样品384个,三级酒样品192个。

1.2 近红外光谱采集

使用的仪器为MATRIX-F傅立叶近红外光谱仪(带有透射型液体探头,德国Bruker公司)。检测前光谱仪预热1 h,检测参数为:环境温度(20±2) ℃;空气相对湿度小于80%;光谱波数为12 500~4 000 cm-1

将基酒样品(5 mL)放入样品瓶中,每个样品扫描32次,自动获得平均光谱。每个样品的检测时间约为18 s。为了避免贮存对样品的影响,同步进行红外光谱采集和品酒小组品评。

1.3 数据处理方法

1.3.1 数据预处理与数据集划分

近红外光谱数据组成复杂,除特征变量外还含有采集环境和设备引起的基线漂移和噪声,因此在建模前需要通过预处理过滤掉无用信息。本研究采用了透射原理采集近红外光谱,透射光谱常采用的基线矫正方法是一阶导数(first derivative,ID)法[17],以提高光谱的分辨率。然而近红外光谱中的随机噪声一般为高频信号,导数方法会放大噪声信号。因此先选用SG(Savitzky-Golay)卷积平滑算法进行滤波,再使用一阶导数方法增强光谱分辨率。预处理后使用基于联合X-Y距离的样本集划分(sample partitioning based on joint x-y distance,SPXY)划分训练集和测试集,划分比例为3∶1,通过在预处理后的训练集上训练模型,根据分类准确率选择最优的预处理方法。

1.3.2 特征选择方法

近红外光谱存在着高维,共线性的特点,利用全光谱建立模型会使得计算量较大,同时还会引入无信息变量和噪声干扰模型评价,因此需要对光谱特征进行选择以提高模型性能。通过减少特征数量来识别有意义的数据,从而提高数据质量并避免模型过拟合。本研究采用RFECV与机器学习相结合RFECV-ML的方法对影响基酒等级的各光谱变量进行排序和打分,得到各变量的综合排序,为进一步的模型训练提供基础。

RFECV方法将递归特征消除(recursive feature elimination,RFE)与交叉验证(cross validation,CV)结合在特征选择之中。RFE作为一种贪婪算法,通过迭代的构建基础模型来评估每个特征的重要性,然后根据特征重要性得分对特征进行排序,逐步消除相关性弱的特征。与单纯的基于统计或模型的特征选择方法不同,RFECV-ML通过迭代消除和交叉验证动态地调整特征子集,在保证模型精度的同时有效减少了特征数量[18]。在整个特征选择过程中,机器学习方法不仅被用于特征重要性度量,还用作性能评估的基础模型。在本研究中特征选择方法中的每一种都与各自的基础模型相对应。完整的特征选择过程包含以下2个步骤:

a)特征评分和初步选择。在这一步中采用RFECV-ML方法进行特征选择,输入的训练集数据将按照CV方法重新被划分为训练集和验证集,使用训练集中的所有特征训练基础模型,并在验证集上进行评估。计算在每个部分上的特征重要性,对各部分重要性取平均值以得出最终特征排名,在每次迭代中,最不重要的特征将被排除,然后将剩余的特征重新组合到模型中以生成一组新的重要性得分。当模型性能不再改善或保持不变时,迭代终止。

b)二次选择与性能评估。对第1步中得到的特征使用k折交叉验证方法训练和评估基础模型的预测性能,评估过程使用前向逐步贪婪算法逐步添加特征,从最重要的特征开始,当模型性能不再改善或保持不变时,训练终止。

1.3.3 机器学习方法

本研究使用了5种机器学习模型来比较和评估混合特征选择方法的有效性。在模型选择方面选择了预测原理差异较大的方法,以更为全面地覆盖不同的机器学习模型。这些模型不仅可以计算特征选择中的重要性或分数,还可以作为混合特征选择方法性能评估的基础模型。这些模型包括两类:传统机器学习模型[多元逻辑回归(multinomial logistic regression,MLR)和决策树(decision tree,DT)]和集成学习模型[随机森林(random forest,RF)、梯度提升机(gradient boosting machine,GBM)、极端梯度提升(extreme gradient boosting,XGB)]。下面简要介绍每种模型的基本原理。

a)MLR方法是逻辑回归在多分类问题上的扩展,适用于目标变量有3个或更多类别的情况[19]。核心思想是使用Softmax函数建模多个类别的概率分布,从而实现多分类,其条件概率分布如公式(1)和公式(2)所示:

(1)

(2)

式中:Y取{1,2,…,K}的值;x表示输入特征;ω表示与该特征相关的权重。

b)DT方法是基于树结构,通过对数据集进行划分和分类,构建树状结构,以特征为节点,分类结果为叶节点,实现未知样本的分类和预测[20]。但该算法容易出现过拟合,需要进行剪枝等优化以提高模型的泛化能力。此外,特征选择和数据预处理等因素也会显著影响决策树算法的性能。

c)RF方法基于集成学习,适用于分类和回归问题[21]。在构建RF算法时,采用带有放回的Bootstrap方法从训练集样本中随机选择m个新样本集,并为每个子样本集构建决策树模型。在构建每棵决策树时,根据设置比例从节点的n个特征中随机选择k(kn)个特征。根据基尼指数等标准选择特征作为分裂节点。选择基尼值最小的特征作为最优特征,并以此特征进行节点分裂。基尼指数计算如公式(3)所示:

(3)

式中:m是类别数;P(j)表示预测结果属于类别j的概率;i为训练集样本中第i个样品集。

d)GBM方法基于Boosting,通过组合多个弱分类器(通常是DT)来构建强模型[22]。这些弱分类器是通过多次迭代生成的,每次迭代的目的都是纠正先前模型的残差并逐渐逼近真实值。GBM采用不同于传统深度优先生长方法的叶生长方法。该方法通过选择增益最大的节点来增加树的深度,从而显著提高模型的训练速度。在梯度提升的每次迭代期间,GBM通过计算每个叶节点的分数来更新树的结构,其中叶分数表示该叶节点的输出值。

e)XGB方法本质上是GBM算法的改进和优化。在XGB模型的训练过程中,DT模型主要通过目标函数的优化来构建,目标函数包括损失函数和正则化项,如公式(4)所示:

(4)

式中:k是迭代次数;l是损失函数,测量预测值和目标值yi之间的差异;是上一次迭代k-1的预测,Ω(fk)是第k次迭代的规范项。如公式(5)所示:

(5)

式中:T表示树结构中的总节点数;γλ是正则化系数,用于防止过拟合;w表示模型对子节点给出的分数值。

XGB特征重要性得分计算如公式(6)所示:

ISi={x|x=wivi}

(6)

式中:vi是特征集;wi是相应特征的权重。

1.3.4 建模方法与性能指标

选用CatBoost来进行模型构建,该方法是GBDT算法的一种,专为解决机器学习中涉及类别特征和高维稀疏数据的问题设计[23],通过有序提升和目标统计技术,防止因类别特征编码引入目标泄漏,从而避免引入偏差。通过构造对称树显著减少了树的搜索空间,提升了训练速度,降低了过拟合的可能性,增强模型的鲁棒性。

本研究以VS code 2024为编译器,使用Python 3.9.0进行数据处理和建模,Matplotlib库进行数据可视化。表1详细说明了包括建模算法和特征提取算法在内的6个模型的主要参数和函数。

表1 六个基本模型的超参数

Table 1 The hyper-parameters of six base models

基础模型模型超参数设置深度迭代次数特征子集采样比例样本子集采样比例惩罚项/C值分裂时的最小样本数叶子节点最少样本数标准函数优化器学习率LR————L2/0.01———LBFGS—DT10————21Gini——RF5100———21Gini——GBM52000.80.8—————0.1XGB101000.80.8—————0.1CatBoost101000.80.8—————0.1

注:—表示无数据。

使用5折交叉验证来估计模型的预测性能,考虑混淆矩阵、准确率、召回率、F1分数和受试者工作特征曲线(receiver operating characteristic curve,ROC)用于评估分类模型的性能。

混淆矩阵是用于评估分类模型的一种表格形式,可以直观展示模型在不同类别样本上的表现。表2是一个二分类的混淆矩阵,其每一行表示真实类别,每一列表示预测类别。对于多分类问题,把一个类别视为正类时,其余的类均为负类。

表2 二分类混淆矩阵

Table 2 Two-class confusion matrix

标签预测正类负类真实正类TPFN负类FPTN

准确率计算如公式(7)所示:

准确率

(7)

召回率是指实际为正的样本中,被预测为正样本所占的比例。其计算如公式(8)所示:

召回率

(8)

ROC是模型在不同分类阈值下性能的图形表示,被应用于多分类,以可视化不同决策阈值下灵敏度和特异性之间的权衡。曲线下面积(area under the curve,AUC)表示ROC曲线下的面积,取值0~1。AUC值越接近1,模型在各种阈值下表现越好,区分正负类样本越有效。AUC的计算如公式(9)所示:

(9)

2 结果与分析

2.1 近红外光谱预处理结果分析

由于波数范围在12 500~9 025 cm-1的光谱几乎无化学键吸收,在4 200~4 000 cm-1的光谱受仪器和环境影响杂乱无规律,因此只选取9 025~4 200 cm-1内的1 215个光谱数据进行后续分析。通过全光谱波段的模型构建来进行预处理方式的选择。预处理结果如表3所示,其中SG(n-m)表示nm次卷积平滑。结果显示SG卷积平滑结合一阶导数能有效去除原始光谱中存在的噪声,增强光谱的分辨率,其中经过11点2次卷积平滑一阶导处理的光谱构建的模型具有最好的效果,准确率为80.1%,预处理后光谱图如图2所示。因此本研究后续选用该方式预处理的数据进行进一步分析。

表3 不同预处理方式CatBoost模型性能比较

Table 3 Comparison of CatBoost model performance different pretreatment methods

指标预处理方法原始光谱SG(3-2)1DSG(5-2)1DSG(7-2)1DSG(9-2)1DSG(11-2)1D准确率/%74.6873.6276.8276.9677.4380.10召回率/%74.6473.6876.8476.9277.4780.06F1分数/%74.6273.5876.8176.9177.3279.86

a-预处理前;b-预处理后

图2 预处理前后光谱比较

Fig.2 Spectral comparison before and after preprocessing

2.2 特征选择结果分析

对2.1节中预处理后的近红外光谱分别用选定的5种RFECV-ML方法进行特征提取,并与较为常用的CARS对比。表4中列出了在20次重复实验中各方法选择的特征点数与主要分布区间,图3则展示了各特征选择方法筛选出的特征波长在光谱上的分布。

表4 不同方法在光谱上筛选的特征变量数

Table 4 The number of characteristic variables screened by different methods on the spectrum

特征选择方法CARSRFECV-LRRFECV-DTRFECV-RFRFECV-GBMRFECV-XGB特征变量数4~4728±124±126±222±125±1

图3 不同方法在光谱上筛选的特征变量分布

Fig.3 The distribution of characteristic variables screened by different methods on the spectrum

从选择的特征点数量中可以看出,RFECV-ML类方法选择在特征点数量上更加稳定。得益于前向贪婪算法使得最优特征子集的选择标准更为科学和稳定,最终保证了这类算法输出的特征子集数量基本稳定。而CARS方法则由于随机采样和随机初始化影响了输出的稳定性。

从特征点的分布上来看,5种RFECV-ML方法选中的区间具有较强的一致性,主要都集中在9 000~8 800、6 100~5 900、5 730~5 630、5 200~5 100、4 500~4 400 cm-1;而CARS选择的特征则在5 800~5 750、5 100~4 950、4 750~4 700、4 500~4 350 cm-1显著集中,两类方法选择的特征点分布区间有一定的重合,但差异也较为明显,其对模型的影响将在后文进行讨论。在选择的区间中,9 000~8 800 cm-1被认为与芳香族化合物的C—H键相关,在白酒品质评价中较为重要[24],6 100~5 900 cm-1则与乙酸乙酯、己酸乙酯、乙酸己酯的近红外表征相关[25]。以5 800 cm-1和5 680 cm-1为中心的区域通常被认为是亚甲基的组合频谱带,被认为与乙醇相关[26]。以5 160 cm-1为中心是乙酸乙酯的羰基二级倍频吸收峰,5 100 cm-1则是醛和酮的羰基二级倍频吸收峰[27]。4 748 cm-1附近的光谱吸收峰归属为C—H弯曲振动和CO伸缩振动的组合频,属于羧酸的吸收峰[28]。4 500~4 400 cm-1信息丰富且包含多种C—H伸缩和弯曲振动的组合峰,表现出了白酒中酯成分的特征吸收[29]。在多次实验中,RFECV-ML方法所选出的特征波点基本重合,这得益于通过交叉验证建立大量子模型以综合评价各特征点对于分类的重要性,在多次重复实验中该类方法得出的特征点重要性排名基本一致。值得注意的是CARS方法在多次重复实验中虽然特征点的数量有着很大的波动,但点的分布也保持了高度的重合,这表明该方法在重要性度量实际方面有较好的稳定性,只是在最优子集的选择上受到较大的随机干扰。

2.3 模型结果分析

对6种方法提取出的最佳特征子集进行建模,以进一步分析不同的变量选择策略的有效性。从表5可以看出,RFECV-XGB拥有最好的性能指标预测集准确率达94.24%,相较于未经特征提取的数据提升了14.14%。从整体上来看,在5种机器学习混合方法中基于集成学习的3种方法要优于2种传统方法,而CARS则显著低于机器学习方法。进一步通过观察各方法的混淆矩阵图4可以发现,大多数分类错误都是围绕二级酒发生的,二级酒作为酒体的主要过渡段,样本量大成分变化复杂,与相邻类别的显著特征重叠从而使分类复杂化。ROC曲线显示了不同阈值下的真阳性率和假阳性率的变化,可以提供较为全面直观的性能比较。各方法ROC曲线如图5所示,拟合效果与预测集模型准确率结果一致。其中RFECV-RF虽然在总体准确率上略逊于RFECV-XGB,但一级酒的AUC值略高于后者,可能还有优化提升的空间。同时可以观察到CARS方法在二级酒上AUC曲线是最早收敛的,但同时AUC值也是最低的,这表明CARS很可能陷入了局部最优解,导致过早地收敛未能全面评估特征对于分类结果的重要性。从2.2节的分析中可以发现,CARS方法没有选择小于5 800 cm-1的任何波点,其选择的区间集中在与乙酸乙酯和其他酯类强相关的区间中,诚然乙酸乙酯是白酒基酒等级衡量的一项重要指标,但只依靠该指标并不能完全准确地预测基酒等级。CARS基于回归的重要性评估方法很可能没有充分捕捉到特征之间可能存在复杂的非线性关系,导致给乙酸乙酯这类显著特征赋予了过大权重,陷入了局部最优之中。总体而言,基于机器学习的特征提取方法在稳定性和准确性上都体现出了较好的效果,可以克服白酒基酒近红外光谱数据的高维、高共线性带来的困难,可以作为基酒等级分类的有效工具,为实际应用提供新思路。

表5 模型效果评估指标表

Table 5 Model effect evaluation index table

特征选择方法CARSRFECV-LRRFECV-DTRFECV-RFRFECV-GBMRFECV-XGB准确率/%86.9192.1590.0593.1993.1994.24召回率/%87.0292.1490.0493.2093.1894.26F1分数/%86.9892.1690.0093.2093.1994.23

a-CARS;b-RFECV-LR;c-RFECV-DT;d-RFECV-RF;e-RFECV-GBM;f-RFECV-XGB

图4 基于6种特征提取方法的预测模型混淆矩阵

Fig.4 Prediction model confusion matrix based on six feature extraction methods

a-CARS;b-RFECV-LR;c-RFECV-DT;d-RFECV-RF;e-RFECV-GBM;f-RFECV-XGB

图5 基于6种特征提取方法的预测模型ROC曲线

Fig.5 ROC curve of prediction model based on six feature extraction methods

3 结论与讨论

本文比较了5种基于机器学习的RFECV-ML近红外光谱特征提取方法,并与常用的传统特征提取方法对比,结果表明机器学习方法在准确率和稳定性上表现更好,可以更有效地提取近红外光谱中的非线性特征。通过将变量重要性与分类效果直接关联,最大化与目标变量的相关性来自动选择最优特征,能更好地满足预测任务的需求。同时机器学习方法中的交叉验证和正则化技术可以减小过拟合风险,且能够自动选择最优特征组合,避免局部最优的问题。目前对于将机器学习应用于近红外光谱特征选择的研究较少,在下一步的研究中将会针对机器学习方法进行优化,以适应白酒基酒的近红光谱数据特征,推动白酒基酒检测的便捷化和实时化,从而推动白酒产业智能化升级。

参考文献

[1] QIAN W, LU Z M, CHAI L J, et al.Cooperation within the microbial consortia of fermented grains and pit mud drives organic acid synthesis in strong-flavor Baijiu production[J].Food Research International, 2021, 147:110449.

[2] LI H H, ZHANG X, GAO X J, et al.Comparison of the aroma-active compounds and sensory characteristics of different grades of light-flavor Baijiu[J].Foods, 2023, 12(6):1238.

[3] WANG Z, WANG Y, ZHU T T, et al.Characterization of the key odorants and their content variation in Niulanshan Baijiu with different storage years using flavor sensory omics analysis[J].Food Chemistry, 2022, 376:131851.

[4] WU Z Y, QIN D, DUAN J W, et al.Characterization of benzenemethanethiol in sesame-flavour baijiu by high-performance liquid chromatography-mass spectrometry and sensory science[J].Food Chemistry, 2021, 364:130345.

[5] HE F, DUAN J W, ZHAO J W, et al.Different distillation stages Baijiu classification by temperature-programmed headspace-gas chromatography-ion mobility spectrometry and gas chromatography-olfactometry-mass spectrometry combined with chemometric strategies[J].Food Chemistry, 2021, 365:130430.

[6] LUO W, TIAN P, FAN G Z, et al.Non-destructive determination of four tea polyphenols in fresh tea using visible and near-infrared spectroscopy[J].Infrared Physics &Technology, 2022, 123:104037.

[7] ZHONG J, CHEN J M, YAO L J, et al.Discriminant analysis of liquor brands based on moving-window waveband screening using near-infrared spectroscopy[J].American Journal of Analytical Chemistry, 2018, 9(3):124-133.

[8] YANG B, YAO L J, PAN T.Near-infrared spectroscopy combined with partial least squares discriminant analysis applied to identification of liquor brands[J].Engineering, 2017, 9(2):181-189.

[9] 宗绪岩, 彭厚博, 吴键航, 等.化学计量学结合NIR对浓香型白酒年份、等级的研究[J].包装与食品机械, 2022, 40(2):87-94.ZONG X Y, PENG H B, WU J H, et al.Study on the year and grade of Luzhou-flavor liquor by chemometrics and NIR[J].Packaging and Food Machinery, 2022, 40(2):87-94.[10] ZHANG G Y, TUO X G, PENG Y J, et al.A rapid nondestructive detection method for liquor quality analysis using NIR spectroscopy and pattern recognition[J].Applied Sciences, 2024, 14(11):4392.

[11] FU J S, YU H D, CHEN Z, et al.A review on hybrid strategy-based wavelength selection methods in analysis of near-infrared spectral data[J].Infrared Physics &Technology, 2022, 125:104231.

[12] CHEN Y, MA H, ZHANG Q, et al.Comparison of several variable selection methods for quantitative analysis and monitoring of the Yangxinshi tablet process using near-infrared spectroscopy[J].Infrared Physics &Technology, 2020, 105:103188.

[13] REN G X, NING J M, ZHANG Z Z.Multi-variable selection strategy based on near-infrared spectra for the rapid description of dianhong black tea quality[J].Spectrochimica Acta Part A:molecular and Biomolecular Spectroscopy, 2021, 245:118918.

[14] 谢玮萍, 徐将, 魏海波, 等.碾磨程度对LIBS鉴别稻米产地准确度的影响[J].江西农业大学学报, 2025, 47(2):478-485.XIE W P, XU J, WEI H B, et al.Evaluating impact of milling degree on rice origin identification by laser-induced breakdown spectroscopy[J].Acta Agriculturae Universitatis Jiangxiensis (Natural Sciences Edition), 2025, 47(2):478-485.

[15] 梅轩铭, 胡耀华, 张浩天, 等.基于高光谱成像技术判别马铃薯叶片干旱状态[J].干旱地区农业研究, 2024, 42(5):246-254.MEI X M, HU Y H, ZHANG H T, et al.Evaluation of drought status of potato leaves based on hyperspectral imaging[J].Agricultural Research in the Arid Areas, 2024, 42(5):246-254.

[16] ZHENG R Y, JIA Y Y, ULLAGADDI C, et al.Optimizing feature selection with gradient boosting machines in PLS regression for predicting moisture and protein in multi-country corn kernels via NIR spectroscopy[J].Food Chemistry, 2024, 456:140062.

[17] ZHANG X, GAO Z M, YANG Y L, et al.Rapid identification of the storage age of dried tangerine peel using a hand-held near infrared spectrometer and machine learning[J].Journal of Near Infrared Spectroscopy, 2022, 30(1):31-39.

[18] TEKLER Z D, LEI Y, PENG Y Z, et al.A hybrid active learning framework for personal thermal comfort models[J].Building and Environment, 2023, 234:110148.

[19] WANG Z H, CAI Y D, LIU D M, et al.Intelligent classification of coal structure using multinomial logistic regression, random forest and fully connected neural network with multisource geophysical logging data[J].International Journal of Coal Geology, 2023, 268:104208.

[20] XU Q, LI X Y, JIANG S Z, et al.Features selection for recognition of severe slugging in a long pipeline with an S-shaped riser by decision tree[J].Flow Measurement and Instrumentation, 2024, 96:102537.

[21] TAN X Z, LI Y, WU X X, et al.Identification of the key driving factors of flash flood based on different feature selection techniques coupled with random forest method[J].Journal of Hydrology:Regional Studies, 2024, 51:101624.

[22] RUFINO J, RAMREZ J M, AGUILAR J, et al.Performance and explainability of feature selection-boosted tree-based classifiers for COVID-19 detection[J].Heliyon, 2023, 10(1):e23219.

[23] PROKHORENKOVA L, GUSEV G, VOROBEV A, et al. CatBoost: Unbiased Boosting With Categorical Features[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems. ACM, 2018:6639-6649.

[24] 张劲松, 周迪, 陈明举, 等.基于稀疏主成分分析白酒GC-MS图谱分类识别技术[J].中国酿造, 2022, 41(4):216-221.ZHANG J S, ZHOU D, CHEN M J, et al.Classification identification technology of GC-MS chromatographic data of Baijiu based on sparse principal component analysis[J].China Brewing, 2022, 41(4):216-221.

[25] YE M Q, GAO Z P, LI Z, et al.Rapid detection of volatile compounds in apple wines using FT-NIR spectroscopy[J].Food Chemistry, 2016, 190:701-708.

[26] MARTELO-VIDAL M J, VZQUEZ M.Evaluation of ultraviolet, visible, and near infrared spectroscopy for the analysis of wine compounds[J].Czech Journal of Food Sciences, 2014, 32(1):37-47.

[27] WORKMAN J JR.Practical Guide to Interpretive Near-Infrared Spectroscopy[M].Beijing:Chemical Industry Press, 2009:64-65.

[28] 赵玉霞, 王茹, 张世芝, 等.基于紫外-近红外融合光谱对“互助”青稞酒判别分析研究[J].食品与发酵工业, 2025, 51(4):301-308.ZHAO Y X, WANG R, ZHANG S Z, et al.Qualitative identification of Chinese Huzhu Qingke Liquor based on ultraviolet spectroscopy combined with near infrared spectroscopy[J].Food and Fermentation Industries, 2025, 51(4):301-308.

[29] 高畅, 张宇飞, 辛颖, 等.近红外光谱技术结合波段筛选用于白酒基酒总酯定量分析[J].中国酿造, 2021, 40(4):155-158.GAO C, ZHANG Y F, XIN Y, et al.Quantitative analysis of total esters in Baijiu base liquor by near-infrared spectroscopy combined with band selection[J].China Brewing, 2021, 40(4):155-158.

Detection of base liquor grade of Nongxiangxing Baijiu by near-infrared spectroscopy based on machine learning hybrid feature selection method

CAO Mengde1, WANG Yibo1, ZHANG Guiyu1,2,3*, HUANG Zhichao4,ZENG Xianglin5,6, PENG Yingjie1,2

1(School of Automation &Information Engineering, Sichuan University of Science &Engineering, Yibin 644000, China)

2(Artificial Intelligence Key Laboratory of Sichuan Province, Sichuan University of Science &Engineering, Yibin 644000, China)

3(Liquor Making Biological Technology and Application of Key Laboratory of Sichuan Province, Yibin 644000, China)

4(Chengdu Mingkuo Digital Intelligence Company Limited, Chengdu 610000, China)

5(Key Laboratory of Enterprise Informatization and Internet of Things Measurement and Control Technology, Colleges and Universities of Sichuan Province, Yibin 644000, China)

6(School of Computer Science and Engineering, Sichuan University of Science &Engineering, Yibin 644000, China)

ABSTRACT During the grading process of Chinese liquor base liquor, sensory evaluation methods are highly subjective, while traditional methods are inefficient and prone to contaminating the samples.Therefore, it is of great significance to predict its grade quickly and accurately.This study focuses on the base liquor of strong-flavor Chinese liquor and uses near-infrared spectroscopy to establish a grade discrimination model, which is then tested for effectiveness.The method first combines cross-validation recursive feature elimination with machine learning techniques.This approach is used to measure the importance of near-infrared spectral features and perform initial extraction.Next, a forward stepwise greedy algorithm is used to determine the optimal feature subset for base liquor grade prediction.Finally, a classification boosting model is built for prediction.The performance of five machine learning feature extraction methods (multinomial logistic regression, decision tree, random forest, gradient boosting machine, and extreme gradient boosting) is compared using accuracy, recall, F1 score, confusion matrix, and receiver operating characteristic curve.The results show that the combination of cross-validation recursive feature elimination and extreme gradient boosting yields the best feature extraction performance.The final classification accuracy reaches 94.24%, an improvement of 14.14% compared to the method without feature extraction.This method demonstrates good reproducibility and strong interpretability, providing a new approach for the rapid detection of Chinese liquor base liquor grades.

Key words near-infrared spectroscopy; base liquor grade; feature selection; machine learning; recursive feature elimination

DOI:10.13995/j.cnki.11-1802/ts.042213

引用格式:曹梦德,王怡博,张贵宇,等.基于机器学习混合特征选择方法的近红外光谱检测浓香型白酒基酒等级[J].食品与发酵工业,2025,51(24):359-367.CAO Mengde,WANG Yibo,ZHANG Guiyu, et al.Detection of base liquor grade of Nongxiangxing Baijiu by near-infrared spectroscopy based on machine learning hybrid feature selection method[J].Food and Fermentation Industries,2025,51(24):359-367.

第一作者:硕士研究生(张贵宇副教授为通信作者,E-mail:gyz_118@163.com)

基金项目:企业信息化与物联网测控技术四川省高校重点实验室开放基金资助项目(2023WYY02);四川轻化工大学“652”科研创新团队计划资助项目(SUSE652B005);五粮液产学研合作项目(CXY2022ZR007);四川轻化工大学科技成果转化专项项目(mes+)(HXJY01);劲酒产学研合作项目(HX2021041);中国轻工业酿酒生物技术及智能制造重点实验室开放基金项目(2023-01)

收稿日期:2025-01-21,改回日期:2025-06-16