基于机器学习的房县黄酒新鲜度预测模型研究

何文杰1,张凤杰2,崔路露3,叶小侠3,于佳俊2,张晓蒙2,杨武3,王岸3,薛洁1,2∗

1(新疆农业大学 食品科学与药学学院,新疆 乌鲁木齐,830052)2(中国食品发酵工业研究院有限公司,北京,100015)3(房县黄酒产业发展中心,湖北 十堰,442100)

摘 要 该研究聚焦于房县黄酒的“鲜活”品质特征,利用机器学习算法构建了黄酒新鲜度预测模型。通过对76个样品的常规理化指标、氨基酸及挥发性风味物质的测定,并结合专家感官评分,筛选出L值、b值、电导率、非糖固形物和DPPH自由基清除率等关键变量作为模型输入。在随机森林、支持向量机回归和Lasso回归的对比中,随机森林模型表现最优,其决定系数(R2)达到0.89以上。特征重要性分析和SHAP(shapley additive explanations)解释方法表明,糠醛、L值、b值、硫代巴比妥酸值和乳酸乙酯对新鲜度影响显著,其中硫代巴比妥酸值、糠醛、b值和L值与新鲜度呈非线性关联。模型验证实验显示,随机抽取的10个未知样品的预测值与实测值偏差率为-6.30%~5.09%,验证了模型的可靠性。该研究为房县黄酒品质评价提供了客观量化的解决方案,有效解决了传统感官评价主观性强、稳定性差、难以量化以及对人员专业性要求高的问题,为其“鲜活”品质控制提供了重要参考依据。

关键词 房县黄酒;新鲜度;随机森林;支持向量机回归;Lasso回归

黄酒是中国起源最早的发酵酒之一,作为重要的非物质文化遗产,承载着丰富的文化和历史[1]。房县黄酒历史悠久,起源于周朝,兴盛于唐代,曾被封为“御酒”,因此又有“皇酒”的美誉[2]。房县黄酒是中国黄酒的重要产区之一,拥有悠久的历史和文化背景,作为甜黄酒的代表,已获得多项荣誉,包括国家地理标志保护产品和世界美酒特色产区等。目前,房县拥有100余家传统手工制曲作坊、19家黄酒生产企业、5家黄酒专业合作社、3 000余家黄酒专业酿造作坊,以及9家黄酒扶贫车间,从业人员超过1.7万人[3]。房县黄酒采用即酿即售的模式,发酵完成后立即装瓶销售,最大限度保持了酒的新鲜度、营养和风味[4]。因此,新鲜度成为衡量房县黄酒品质的重要指标,直接关联到酒的口感、香气和整体感官体验。

当前饮料酒领域的黄酒研究多聚焦于陈酿黄酒的酿造工艺优化、风味解析及贮存稳定性,而针对“新鲜度”这一关键品质维度的研究仍处于起步阶段[5]。相比之下,啤酒行业已形成较为成熟的新鲜度评估体系,如RICO-YUSTE等[6]通过基于智能手机的阅读器定量分析啤酒中的糠醛来估计贮存一年以上啤酒的新鲜度。王楠等[7]使用PSR-3500便携式地物光谱仪,发现啤酒在842.0 nm处的稳定吸收特征,证明在798~872 nm范围内,仅需10 nm的光谱分辨率和不低于35 dB的信噪比就可以准确评估啤酒新鲜度。尽管传统方法在啤酒新鲜度检测中效果显著,但随着技术进步,机器学习预测模型已广泛应用于食品科学领域。李鑫星等[8]基于支持向量机(support vector machine,SVM)核机器学习方法结合电子鼻系统,建立了三文鱼新鲜度预测模型。蒋诗泉等[9]基于随机森林算法筛选葡萄酒质量评价关键指标,研究表明该算法显著提升了准确性并降低了主观因素影响。RIBEIRO等[10]采用随机森林分类与回归预测草莓质量,所开发的模型能用于草莓的质量控制。ASTRAY等[11]基于机器学习,开发了预测模型,能较精准的确定红葡萄酒的老化时间。JU等[12]采用决策树、随机森林(random forest,RF)、SVM等多种机器学习方法准确预测水稻、玉米和大豆的产量趋势。

目前,机器学习模型,尤其是RF、支持向量回归(support vector regression,SVR)等尚未在黄酒的新鲜度研究中得到充分应用。因此,本研究首次采用RF、SVR和Lasso(Least Absolute Shrinkage and Selection Operator)回归算法,通过对黄酒理化指标的分析,筛选出关键的新鲜度指标,并构建出最优的预测模型。该研究不仅填补了新鲜度评估领域的研究空白,更首次建立房县鲜黄酒新鲜度量化评估体系,为房县鲜黄酒的生产提供了科学依据和理论支持,助力产品质量和市场竞争力方的进一步提升。

1 材料与方法

1.1 材料与试剂

1.1.1 样本

黄酒样品取自湖北房县的7家企业和30家作坊,共76个样品,所有样品均在6个月内进行低温贮藏。

1.1.2 试剂

硫酸铜(分析纯)、四水合酒石酸钾钠(分析纯)、葡萄糖(分析纯)、次甲基蓝(分析纯)、甲基红(分析纯)、氢氧化钠(分析纯)、邻苯二甲酸氢钾(分析纯),西陇科学股份有限公司;无水乙醇(分析纯)、无水乙醇(色谱纯)、无水柠檬酸(分析纯)、乙酸钾(分析纯)、乙酸钠(分析纯)、甲醛溶液(分析纯),天津市大茂化学试剂厂;冰醋酸(分析纯),北京化工厂;2-硫代巴比妥酸(thiobarbituric acid,TBA)(分析纯)、DPPH(分析纯),上海源叶生物科技有限公司;盐酸(优级纯),北京市通广精细化工公司;氯化锂(分析纯)、硼酸(分析纯)、甲醇(色谱纯)、氢氧化锂、一水(优级纯)、无水氯化锂(分析纯),上海阿拉丁生化科技股份有限公司;2-辛醇(色谱纯),东京化成工业株式会社。

1.2 仪器与设备

Perkin Elmer Clarus 500气相色谱-质谱仪,美国Agilent公司;DB-WAX色谱柱(30 m × 0.25 mm ×0.25 μm),美国J&W公司;手动固相微萃取进样器、50/30 μm二乙基苯/碳分子筛/聚二甲基硅氧烷固相微萃取柱,美国Supelco公司;TU-1810紫外可见分光光度计,北京普析通用仪器有限责任公司;电导率仪,上海仪电科学仪器股份有限公司;表面张力仪,北京奥德利诺仪器有限公司;氨基酸自动分析仪,德国Sykam公司。

1.3 实验方法

1.3.1 感官评价方法

本研究邀请了10位国家级黄酒品酒师组成专家组,依据表1中的感官评定标准,对房县黄酒的新鲜度进行评分。为确保评价的客观性,实验采用双盲测试设计。样品经过随机编码处理后匿名呈递,全程隐去产品品牌及生产信息。数据处理采用算术平均法,以10位专家评分结果的平均值作为最终评定分数[13-14]

表1 房县黄酒的感官评分标准 单位:分
Table 1 Sensory scoring criteria of Fangxian Huangjiu

新鲜度的感官定义主要从色泽、气味和口感3个方面进行综合判断。色泽方面,新鲜的房县黄酒通常呈现清亮透明的状态;气味上,具有浓郁的酒香和独特的米香;口感上,新鲜的黄酒鲜甜,具有清新、轻爽口感,无苦涩或其他不良口感。这些感官特征与相关感官分析标准及行业规范一致,用以科学衡量房县黄酒的新鲜度水平。

为确保感官品评结果的准确性和一致性,在研究开始前对评价员进行了系统的训练。首先,本文选取不同新鲜度的房县黄酒样本作为参照样,这些样本涵盖了从新鲜到不同贮存时间的样品。评价员通过反复品尝和观察参照样,熟悉不同新鲜度黄酒的感官特征。同时,还对描述词定义和参照样的理解以及标度表使用进行培训;共经过每周3次,每次1.5 h共30 h的实操培训。培训要求评价小组在一致性、重复性和区分力等方面达到评价要求。

1.3.2 常规指标检测方法

色泽参数:采用CIE Lab色彩空间法[15],测定酒样明度(L值)、红/绿通道色度(a值)及黄蓝通道色度(b值)。

电导率:使用数字电导率仪测定,操作参照文献[16]

表面张力:采用吊环法(铂金环直径6.0 mm),通过全自动表面张力仪[测试温度(25.0±0.1) ℃]测定,具体方法参照文献[17]

基础理化指标:依据GB/T 13662—2018《黄酒》标准,测定总糖(葡萄糖计)、非糖固形物(质量法)、酒精度(蒸馏-密度法)、总酸(酸碱滴定法)、氨基酸态氮(甲醛值法)及pH值(pH计法)。

抗氧化特性:基于DPPH自由基清除法[18],在517 nm波长下测定吸光度,计算清除率,如公式(1)所示:

老化指标:参照TBA法[19],于530 nm波长处测定吸光度,计算TBA值(mg MDA/kg)。

1.3.3 游离氨基酸含量测定

参照沈棚等[20]的方法,取1 mL黄酒样品稀释10倍,充分混匀后,过0.22 μm水膜后通过全自动氨基酸分析仪待测。

1.3.4 挥发性风味测定

前处理条件:参考GAO等[5]的方法,取6 mL黄酒样品于顶空瓶中,加2.0 g氯化钠和20 μL 2-辛醇(内标,125 mg/L)溶液与酒样混匀。将顶空瓶置于60 ℃恒温水浴锅,平衡10 min;将经250 ℃老化后的萃取针头插入顶空瓶的顶空部分,距离样品上方1 cm处,萃取吸附30 min后取出,并在250 ℃条件下解吸5 min,进行GC-MS检测。

色谱条件:GC条件:DB-INNOWAX毛细管色谱柱(30 m ×0.25 mm,0.50 μm);升温程序为起始温度50 ℃,保持2 min;以2 ℃/min升至150 ℃,保持5 min;再以8 ℃/min升至230 ℃,保持5 min。不分流进样模式下,载气为氦气(He)(纯度≥99.999%),恒流1.0 mL/min;溶剂延迟2 min;进样口温度250 ℃。质谱条件:电子电离源;离子源、四极杆和质谱接口温度分别为230、150、250 ℃;电子能量70 eV,扫描方式为全扫描模式;质量扫描范围45~450 m/z

定性定量分析:通过使用美国国家标准技术研究院(National Institute of Standards and Technology,NIST)质谱数据库并结合标准物质进行定性分析,同时采用峰面积归一化法进行定量分析。

1.3.5 数据标准化处理

为了确保变量之间的可比性,并消除不同量纲的影响,采用Z-score标准化方法[21]。该方法的基本原理是将原始数据转换为标准正态分布,其中数据的均值为0,标准差为1。Z-score标准化的公式如公式(2)所示:

式中:Z,某一变量值经过标准化后的值,即Z-score;x,原始变量值;μ,原始变量的均值;σ,原始变量的标准差。

1.3.6 机器学习方法

1.3.6.1 RF回归算法

RF是一种集成学习算法,包含回归与分类两类任务[22]。本研究因目标变量(新鲜度)为连续型数据,故采用RF回归模型。其核心流程如下:

a)通过Bootstrap重采样从原始数据集(理化指标与新鲜度评分)中生成多个子训练集;

b)基于各子集构建多棵决策树,每棵树节点分裂时随机选取部分特征,以降低模型相关性;

c)通过聚合所有决策树的预测结果实现最终预测[23-24]。该算法因抗过拟合能力强且调参简单,被广泛应用于复杂非线性关系的建模。

1.3.6.2 Lasso回归算法

Lasso是一种基于L1正则化的线性回归方法,其核心思想是在回归分析中对回归系数的绝对值之和设置约束,从而最小化残差平方和。通过引入绝对值形式的惩罚项,Lasso能够将部分自变量的回归系数压缩为零,进而实现变量选择,最终得到一个具有较好解释性的模型[25]

1.3.6.3 SVR算法

SVR是一种基于SVM理论的回归分析技术,旨在处理回归问题。其原理是通过采用非线性函数φ,将低维空间中的输入数据x 映射到一个高维特征空间φ(x),在这一高维空间中,寻找一个最佳的超平面,以此来有效应对低维空间内的非线性问题。该方法之所以备受青睐,是因为它能显著减少过拟合的风险,并展现出强大的泛化能力[26]

1.3.6.4 模型评价指标

模型的性能根据决定系数(coefficient of determination,R2)、均方根误差(root mean square error,RMSE)和平均绝对误差(mean absolute error,MAE)指标进行评估。 R2越大,RMSE和MAE越小,表明模型的拟合和预测性能越好[27]

1.3.6.5 特征重要性分析

为了探讨新鲜度指标对新鲜度预测的影响,本文采用特征重要性分析和SHAP(shapley additive explanations)方法系统评估输入变量对最终预测结果的影响。特征重要性分析通过量化变量的权重系数,评估各个变量对预测结果的影响,通常作为机器学习模型的内置功能;而SHAP方法借鉴博弈论中的Shapley值,旨在精确计算每个变量对模型预测结果的具体贡献,从而提供更细致的解释[28]

1.4 数据处理

采用IBM SPSS Statistics 20.0进行显著性差异分析(least significant difference,LSD)、线性回归(最小二乘法);采用Origin软件做柱状图、相关性热图分析。

2 结果与分析

2.1 相关性分析

2.1.1 房县黄酒新鲜度与理化指标相关性分析

由图1所示,房县黄酒新鲜度得分与CIELab色度参数(Lab值)、电导率及表面张力均呈现显著相关性(P <0.01)。具体而言,L值与新鲜度得分呈极显著正相关(r=0.91)(P <0.01),而a值(r=-0.57)、b值(r=-0.83)、电导率(r=-0.46)和表面张力(r=-0.33)与新鲜度得分呈极显著负相关(P <0.01)。此结果与文献报道一致;徐建芬等[29]使用表面张力仪测定不同陈酿时间的黄酒,发现随着陈酿时间延长,黄酒表面张力逐渐增大。朱一松等[16]比较生黄酒与5年陈黄酒的电导率,结果显示5年陈黄酒的电导率显著高于生黄酒。pH与新鲜度得分之间未发现显著相关性。综上所述,新鲜度较高的黄酒通常具有较高的L值,较低的a值和b值,同时电导率和表面张力减少。这一规律为黄酒新鲜度科学评价提供了量化依据,亦与陈酿过程中色泽加深、胶体稳定性下降的理化机制相契合。

图1 新鲜度得分与物理指标相关性分析
Fig.1 Correlation analysis between freshness score and physical indicators

注:∗P≤0.05,∗∗P≤0.01(下同)。

2.1.2 房县黄酒新鲜度与关键化学指标的相关性分析

由图2可知,氨基酸态氮、非糖固形物、TBA值、DPPH自由基清除率均与新鲜度得分呈显著负相关。具体而言,随着黄酒新鲜度提升,氨基酸态氮(r=-0.26)、非糖固形物(r=-0.43)含量显著降低,同时伴随TBA值(r=-0.83)和DPPH自由基清除率(r=-0.55)下降。该趋势与王岸娜等[30]关于陈酿黄酒非糖组分累积的研究结论一致,亦支持朱长满[31]提出的“氧化产物(TBA值) 及抗氧化能力(DPPH自由基清除率)可作为黄酒新鲜度评价关键指标”的理论框架,表明新鲜度较高的黄酒具有更低的非酶褐变产物积累与氧化应激水平。

图2 新鲜度得分与部分化学指标相关性分析
Fig.2 Correlation analysis between freshness score and chemical indicators

2.1.3 房县黄酒新鲜度与游离氨基酸组分的相关性分析

黄酒中的氨基酸主要来源于原料和微生物的代谢过程,这些氨基酸不仅赋予黄酒较高的营养价值,还直接影响其风味。根据ZHAO等[32]的研究,呈味氨基酸可分为鲜味、甜味、苦味和咸味氨基酸。在76种不同新鲜度的黄酒中,共检测到32种氨基酸,并将其细分为鲜味、甜味、苦味和咸味氨基酸四大类以及氨基酸总量,共计37个氨基酸指标。对这37个氨基酸指标与新鲜度得分进行相关性分析,筛选出8个与新鲜度得分显著相关的指标,结果如图3所示。

图3 新鲜度得分与游离氨基酸相关性分析
Fig.3 Correlation analysis between freshness score and free amino acids

由图3可知,磷酸丝氨酸、牛磺酸、天冬酰胺、胱氨酸、亮氨酸、甜味氨基酸、鲜味氨基酸以及氨基酸总量与黄酒的新鲜度得分之间均存在显著相关性。具体而言,磷酸丝氨酸(r=-0.80)、牛磺酸(r=-0.72)、天冬酰胺(r=-0.51)、胱氨酸(r=-0.62)、亮氨酸(r=-0.62)、鲜味氨基酸(r=-0.34)、甜味氨基酸(r=-0.46)和氨基酸总量(r=-0.49)与新鲜度得分呈极显著负相关(P <0.01)。沈棚等[20]通过测定不同陈酿年份绍兴黄酒中氨基酸的变化发现,在3~12年陈酿的黄酒中,随着陈酿年份的增加,游离氨基酸的含量整体呈上升趋势。相关性分析表明,氨基酸总量与新鲜度评分显著负相关(P <0.05),说明氨基酸的变化能够有效反映黄酒的新鲜度。SONG等[33]的研究结果表明,随着陈酿时间的延长,绍兴黄酒中苦味、甜味和鲜味的游离氨基酸含量逐渐增加。

综上所述,考虑到氨基酸与新鲜度得分之间的相关性强度及其含量变化,氨基酸总量可作为评估黄酒新鲜度的核心指标。氨基酸测定方法成熟、操作简便,可高效精准测定不同工艺黄酒样本;其次相较于单一天冬氨酰胺等指标,总量指标规避了地域菌群差异对特定氨基酸代谢的影响,具备更高稳定性因此,氨基酸总量是理想的黄酒新鲜度评价指标。

2.1.4 房县黄酒挥发性风味物质与新鲜度关联机制解析

本研究采用顶空固相微萃取-气质联用技术(headspace solid-phase microextraction-gas chromatography-mass spectrometry,HS-SPME/GC-MS)对房县黄酒挥发性风味物质进行系统分析。经3次平行检测,共鉴定157种挥发性化合物,包含醇类(39种)、醛类(13种)、酸类(14种)、酯类(50种)、酚类(8种)、酮类(13种)及其他(20种)。由图4可知,通过Pearson相关性分析(P <0.01),筛选出7种与新鲜度显著负相关的标志物。

图4 新鲜度得分与挥发性风味相关性分析
Fig.4 Correlation analysis between freshness score and volatile flavor compounds

酯类物质:乳酸乙酯(r=-0.62)、丁二酸二乙酯(r=-0.43)、乳酸异丁酯(r=-0.45)、乳酸异戊酯(r=-0.50),其含量升高与新鲜度下降显著相关,印证了醇酸酯化反应在陈酿过程中的持续进行[34];醛类物质:糠醛(r=-0.87)、α-亚乙基苯乙醛(r=-0.77)、4-苯基丁醛(r=-0.75),其浓度随贮存时间延长呈指数增长,可作为黄酒老化的关键指示物。醇类、酸类及酚类物质与新鲜度无显著相关性,可能与其化学稳定性或阈值效应有关。

2.2 房县黄酒新鲜度指标的差异性分析

基于76个房县黄酒样本的物理、化学及挥发性风味指标差异性分析(表2),16项品质指标在不同新鲜度样本间呈现极显著差异(P <0.01)。其中,物理品质指标变异程度最为突出,平均变异系数达796.91%,尤以a值(红绿通道色度)的变异系数最高(3 836.25%),表明原料色泽不均或氧化程度差异显著影响酒体表观特性。化学指标平均变异系数为46.12%,其中TBA值与DPPH自由基清除率变异系数分别达68.3%与52.7%,反映氧化稳定性受陈酿环境影响显著。挥发性风味指标平均变异系数达134.91%,关键差异组分,特别是在糠醛、α-亚乙基-苯乙醛、4-苯基丁醛、乳酸异丁酯和乳酸异戊酯等成分的变异系数均超过了100%,表明不同新鲜度的黄酒在这些成分上存在显著的品种差异。

表2 十六个品质指标的差异分析
Table 2 Variability analysis of 16 quality indicators

2.3 房县黄酒新鲜度评价指标的确定

根据相关性分析和差异分析的结果,本研究系统筛选出房县黄酒新鲜度评价的9项核心指标:

物理指标:L值、b值与新鲜度呈极显著负相关(r=-0.83)(P <0.01),变异系数分别达12.3%与15.7%,敏感性强且稳定性高;电导率与新鲜度同样呈现极显著负相关(r=-0.46)(P <0.01),变异系数为18.9%,反映离子迁移对新鲜度的影响。尽管表面张力和a值与新鲜度之间也存在极显著相关性,但由于表面张力的变异系数小于10%,意味着其变化不如其他指标明显。此外,虽然a值变异系数较大,但其表征的红绿通道与黄酒主色调(黄/棕)关联度低。因此,考虑到敏感性和数据稳定性,决定选择色泽L值、b值和电导率作为代表黄酒新鲜度的物理指标。在关键化学指标中,TBA值与DPPH自由基清除率因高相关性及显著变异被纳入;非糖固形物反映非酶褐变产物积累,氨基酸总量因普适性强替代单一氨基酸等指标。氨基酸态氮的变异系数最小,且与黄酒新鲜度的相关性系数较低,表明其在反映黄酒新鲜度方面的敏感性较弱。由于该指标的变异性较小且与新鲜度之间的关系较弱,因此在选择代表黄酒新鲜度的化学指标时,排除氨基酸态氮,以确保所选指标能够更准确、灵敏地反映黄酒的新鲜度变化。

在挥发性风味成分中,尽管3种醛类物质的变异系数均大于100%,且与黄酒新鲜度之间存在极显著相关性,但由于α-亚乙基-苯乙醛和4-苯基丁醛在黄酒中的含量较低,这些醛类物质未能展现出足够的代表性,无法有效反映黄酒的新鲜度。LI等[35]通过气相色谱-质谱-嗅觉测定(gas chromatography-mass spectrometry-olfactometry/detection frequency,GC-MSO/DF)和正交偏最小二乘法判别分析(orthogonal partial least square discriminant analysis,OPLS-DA)等多元统计分析方法,检测了不同陈酿时间的谢村黄酒香气。结果表明,糠醛被确定为区分不同陈酿时间谢村黄酒的标志物之一。糠醛是黄酒中焦糖香和焦糖色的主要来源,是长期陈酿黄酒中的标志性挥发性羰基化合物[36]。因此,选择糠醛作为新鲜度评价指标能够有效地反映黄酒的老化程度集新鲜度变化。在酯类物质中,乳酸丁酯和乳酸异戊酯的变异系数大于100%,但其含量较低。丁二酸二乙酯变异系数和与新鲜度得分相关性均为最低。虽然乳酸乙酯变异系数较小,但其与新鲜度的相关性高于其他酯类物质。乳酸乙酯在红曲黄酒中被鉴定为关键香气成分[37]。因此,选择乳酸乙酯作为新鲜度评价指标。这些酯类物质在黄酒中的含量较为适中,且与新鲜度变化密切相关。

综合考虑,房县黄酒新鲜度的9个代表性指标为L值、b值、电导率、非糖固形物、DPPH自由基清除率、TBA值、氨基酸总量、糠醛、乳酸乙酯,兼具敏感性(CV >10%)、稳定性(RSD <5%)及机制关联性(氧化/褐变/酯解路径),可构建多维度新鲜度评价模型,为黄酒品质控制提供科学标准。

2.4 新鲜度模型构建

2.4.1 模型优选与评估

L值、b值、电导率、非糖固形物、DPPH自由基清除率、TBA值、氨基酸总量、糠醛及乳酸乙酯为输入变量,新鲜度得分为目标变量,构建SVR、Lasso回归及RF3种机器学习预测模型。模型性能评估结果见表3。

表3 新鲜度预测模型训练和测试结果
Table 3 Training and testing results of freshness prediction model

综合比较3种回归模型的拟合效果发现,SVR模型在训练集与测试集上的R2 值分别为0.845 1和0.826 2,明显低于RF模型,表明其拟合效果较差,模型的解释能力有限,可能存在过度简化或引入不必要复杂性的情况。Lasso回归模型的R2 值虽然高于SVR,但也均低于RF模型,说明其拟合效果也相对较弱。RF模型在训练集上的R2 值达到0.954 4,体现出良好的数据拟合能力;其在测试集上的R2 值为0.890 1,虽略低于训练集,但仍表现出良好的泛化能力,显著优于其他2种模型。此外,RF模型在训练集和测试集上的RMSE和MAE均为最低,说明其预测精度更高,对未知数据的预测表现更为可靠。因此,RF模型通过集成多棵决策树及特征随机选择,有效捕捉黄酒新鲜度与多维度指标的复杂非线性关系,综合性能最优,适合用于房县黄酒新鲜度的预测。

图5展示了3种模型在原有76个样本上的预测表现,通过散点图比较预测值与真实值。图中,SVR的预测结果呈现较大的离散趋势,表明其准确性较低。相反,RF和Lasso回归模型的预测值更接近实际值,数据点集中分布在y=x 直线附近,显示出较高的预测一致性和较小的预测偏差。这表明RF和Lasso回归模型在建模样本集上具有良好的拟合效果,并在预测未知数据时展示出较高的准确性。此外,对比性能指标显示RF模型在R2、RMSE、MAE上均优于Lasso回归,表现出更强的泛化能力。综合图表所述,在构建的3个模型中,RF模型通过量化关键指标贡献度,可指导黄酒生产工艺优化,为行业智能化品质管控提供技术支撑。

图5 真实值与预测值对比
Fig.5 Comparison between actual and predicted values

a-RF;b-SVR;c-Lasso回归

2.4.2 特征重要性分析与非线性关系验证

基于RF模型的特征重要性分析(图6),糠醛(20%)、L值(19%)、TBA值(15%)、乳酸乙酯(13%)、b值(11%)及非糖固形物(11%)为前六大关键变量,累计贡献率达89%,显著影响新鲜度预测。其中,糠醛作为美拉德反应标志物,其含量随陈酿时间延长呈指数增长,与新鲜度呈现强负相关性,印证了其在黄酒老化进程中的核心作用[29]

图6 RF模型特征重要性分布
Fig.6 Distribution of feature importance in random RF

图7总结了各变量在预测新鲜度时各数据点的SHAP值,其中横坐标表示SHAP值,数据点颜色代表变量自身的数值大小,红色表示变量数值较高,蓝色表示变量数值较低。当SHAP值为正时,说明变量对新鲜度产生正向影响,且值越大影响越显著,反之则为负向影响。从图中可以看出,TBA值、糠醛、b值的SHAP值大小排名分别位居第一、第二和第三,体现出这些变量对新鲜度预测的重要贡献。其中,这3个变量的低值点分布于SHAP值的正负两侧,高值点则集中于负侧,这意味着TBA值、糠醛和b值与新鲜度之间存在明显的非线性或复杂关系。当这些变量数值较高时,对模型输出具有负向影响(新鲜度降低);而在这些变量数值较低时,影响情况则更加复杂,可能同时存在正向或负向影响,这表明这些变量的低值区间可能受到其他因素或变量的交互作用影响。 L值排名第4,说明L值对预测结果贡献相对较大。其高值点主要集中在正SHAP值侧,低值点分布于SHAP值的正负两侧。这意味着L值与新鲜度之间存在明显的非线性或复杂关系。当这些变量数值较高时,对模型输出具有正向影响(新鲜度提高)。而在这些变量数值较低时,影响情况则更加复杂,可能同时存在正向或负向影响,这表明这些变量的低值区间可能受到其他因素或变量的交互作用影响。乳酸乙酯分布情况与相关性分析一致,与新鲜度之间存在负相关性。

图7 基于RF的SHAP值
Fig.7 SHAP values based on RF

非糖固形物、氨基酸总量、电导率及DPPH自由基清除率的SHAP值相对较小,表明这些变量对新鲜度预测的重要性次于前述变量。

综上所述,糠醛、L值、TBA值、乳酸乙酯和b值是影响新鲜度的重要参数,TBA值、糠醛、b值、L值与新鲜度之间呈现明显的非线性或复杂关系。

2.4.3 模型验证

为验证模型的实际效果,本研究随机抽取房县黄酒样本10个,同步测定9项新鲜度指标并组织10名国家级品酒师进行双盲感官评分(表4)。将样本数据输入RF模型,预测得分与感官评分对比分析显示(表5),绝对偏差范围为-6.30%~5.09%,这一偏差范围表明,模型的准确性在可接受得误差限制内,表明模型预测精度满足工业化品质控制需求。10个样品新鲜度得分与预测得分绘制散点图,由图8可知,散点图中正方形和三角形符合分别代表实际新鲜度得分和预测得分。数据点大部分紧靠在一条直线附近,显示出较高的相关性,R2值为0.954 9。这一高R2值指示预测得分与实际新鲜度得分之间有很好的线性关系,说明模型预测的拟合效果良好。综上所述,该模型可替代传统感官评价,应用于黄酒生产线的实时品质监控。

图8 新鲜度真实值与预测值对比
Fig.8 Comparison between actual and predicted freshness values

表4 十个样品新鲜度指标
Table 4 Freshness indicators of ten samples

注:不同小写字母表示组间存在显著性差异(P <0.05)(下同)。

表5 模型预测未知样品结果
Table 5 Model prediction results for unknown samples

3 结论与讨论

本研究通过多维度指标筛选与机器学习建模,系统构建了房县黄酒新鲜度智能评价体系,主要结论如下:

a)指标筛选:基于相关性分析(|r| >0.40)与变异系数(CV >15%)双阈值,确立L值、b值、电导率、非糖固形物、DPPH自由基清除率、TBA值、氨基酸总量、糠醛及乳酸乙酯9项核心指标,其累计解释方差达89.7%。

b)模型优选:RF模型在测试集上表现最优,较SVR及Lasso回归显著提升预测精度,证实集成学习对非线性关系的解析优势。

c)机制解析:SHAP值分析表明,TBA值(贡献度28%)、糠醛(25%)及L值(19%)通过氧化应激、美拉德反应及非酶褐变路径主导新鲜度衰退,且存在显著交互效应(协同权重>0.20)。

基于RF的构建的新鲜度预测模型,通过抽取未知样品,对预测值和真实值进行对比,结果表明,模型的准确性在可接受得误差限制内,散点图对比的R2值为0.954 9,说明模型预测的拟合效果良好。

本研究结果在实际的房县黄酒新鲜度评价具有一定的应用价值和推广前景。

参考文献

[1]毛健.国酒:黄酒[M].北京:化学工业出版社,2022:1-16.MAO J.Huangjiu:Chinese National Alcohols[M].Beijing:Chemical Industry Press,2022:1-16.

[2]陈程.房县黄酒[M].武汉:长江出版社,2019.CHEN C.Fangxian Huangjiu[M].Wuhan:Changjiang Press,2019.

[3]常堃,陈祥,李评,等.基于SWOT分析的房县黄酒产业发展策略[J].中国酿造,2025,44(2):299-302.CHANG K,CHEN X,LI P,et al.Development strategy of Fangxian Huangjiu industry based on SWOT analysis[J].China Brewing,2025,44(2):299-302.

[4]刘慧杰,王娟,王忠朝,等.全二维气相色谱-质谱联用技术解析房县黄酒的挥发性成分[J].食品与发酵工业,2022,48(17):249-255.LIU H J,WANG J,WANG Z C,et al.Characterization of volatile compounds in Fangxian Huangjiu by two-dimensional gas chromatography-mass spectrometry [J].Food and Fermentation Industries,2022,48(17):249-255.

[5]GAO X L,FENG T,SHENG M J,et al.Characterization of the aroma-active compounds in black soybean sauce,a distinctive soy sauce[J].Food Chemistry,2021,364:130334.

[6]RICO-YUSTE A,GONZÁLEZ-VALLEJO V,BENITO-PEÑA E,et al.Furfural determination with disposable polymer films and smartphone-based colorimetry for beer freshness assessment[J].Analytical Chemistry,2016,88(7):3959-3966.

[7]王楠,张立福,邓楚博,等.光谱分析啤酒新鲜度检测方法[J].光谱学与光谱分析,2020,40(7):2273-2277.WANG N,ZHANG L F,DENG C B,et al.Beer freshness detection method based on spectral analysis technology[J].Spectroscopy and Spectral Analysis,2020,40(7):2273-2277.

[8]李鑫星,董保平,杨铭松,等.基于SVM核机器学习的三文鱼新鲜度检测系统[J].农业机械学报,2019,50(5):376-384.LI X X,DONG B P,YANG M S,et al.Detection system of salmon freshness based on SVM kernel-based machine learning[J].Transactions of the Chinese Society for Agricultural Machinery,2019,50(5):376-384.

[9]蒋诗泉,刘中侠,蒋诗平,等.随机森林算法在红葡萄酒质量评价指标体系选择中的应用[J].食品工业科技,2014,35(7):264-267.JIANG S Q,LIU Z X,JIANG S P,et al.Application of random forest algorithm on selecting evaluation index system of the quality of red wine[J].Science and Technology of Food Industry,2014,35(7):264-267.

[10]RIBEIROM N,CARVALHO I A,FONSECA G A,et al.Quality control of fresh strawberries by a random forest model[J].Journal of the Science of Food and Agriculture,2021,101(11):4514-4522.

[11]ASTRAY G,MEJUTO J C,MARTÍNEZ-MARTÍNEZ V,et al.Prediction models to control aging time in red wine[J].Molecules,2019,24(5):826.

[12]JU S,LIM H,MA J W,et al.Optimal county-level crop yield prediction using MODIS-based variables and weather data:A comparative study on machine learning models[J].Agricultural and Forest Meteorology,2021,307:108530.

[13]刘竹青,于梅.蛹虫草甜米酒的酿造工艺研究[J].中国酿造,2017,36(9):177-181.LIU Z Q,YU M.Research on brewing technology of Cordyceps militaris sweet rice wine[J].China Brewing,2017,36(9):177-181.

[14]朱正军,万端极,卢扬成,等.传统房县黄酒酿造工艺研究[J].中国酿造,2018,37(2):95-99.ZHU Z J,WAN D J,LU Y C.et al.Optimization of traditional brewing process of Fangxian rice wine[J].China Brewing,2018,37(2):95-99.

[15]李运奎,韩富亮,张予林,等.基于CIELAB色空间的红葡萄酒颜色直观表征[J].农业机械学报,2017,48(6):296-301.LI Y K,HAN F L,ZHANG Y L,et al.Visualization for representation of red wine color based on CIELAB color space[J].Transactions of the Chinese Society for Agricultural Machinery,2017,48(6):296-301.

[16]朱一松,赵光鳌,帅桂兰,等.超滤法生产的纯生黄酒非生物稳定性的研究[J].食品与发酵工业,2005(2):26-29.ZHU Y S,ZHAO G A,SHUAI G L,et al.Study on the non-biological stability of draft rice wine by ultrafiltration[J].Food and Fermentation Industries,2005(2):26-29.

[17]肖侠.啤酒表面张力与泡沫持久性关系的研究[D].兰州:甘肃农业大学,2013.XIAO X.Study on the relationship of surface tension and foam stability of beer[D].Lanzhou:Gansu Agricultural University,2013.

[18]严敏,李崎,顾国贤.一个评价啤酒老化程度的新指标──DPPH清除率[J].食品科技,2006(3):91-93;100.YAN M,LI Q,GU G X.A new index to estimate the extent of beer staling——the DPPH-scavenging ratio[J].Food Science and Technology,2006(3):91-93;100.

[19]于佳俊,王德良,秦谦,等.强制老化过程中啤酒新鲜度、TBA值以及9种代表性老化物质的相关性研究[J].酿酒科技,2014(8):1-5.YU J J,WANG D L,QIN Q,et al.Study on the correlations among beer freshness,TBA values and 9 typical aging compounds during forced aging process[J].Liquor-Making Science &Technology,2014(8):1-5.

[20]沈棚,薛红玮.陈酿时间对黄酒中挥发性风味物质和氨基酸含量的影响研究[J].中国酿造,2023,42(1):142-146.SHEN P,XUE H W.Effect of aging time on volatile flavor substances and amino acids contents in Huangjiu[J].China Brewing,2023,42(1):142-146.

[21]NOGUEIRA A L,MUNITA C S.Quantitative methods of standardization in cluster analysis:Finding groups in data[J].Journal of Radioanalytical and Nuclear Chemistry,2020,325(3):1-6.

[22]UTKIN V L,KOVALEV M S,COOLEN F P A.Imprecise weighted extensions of random forests for classification and regression[J].Applied Soft Computing Journal,2020,92:106324.

[23]WEN C L,HUAI T T,ZHANG Q H,et al.A new rotation forest ensemble algorithm[J].International Journal of Machine Learning and Cybernetics,2022,13(11):3569-3576.

[24]GENUER R,POGGI J M,TULEAU-MALOT C.Variable selection using random forests[J].Pattern Recognition Letters,2010,31(14):2225-2236.

[25]ADHIKARI S,LECCI F,BECKER J T,et al.High-dimensional longitudinal classification with the multinomial fused lasso[J].Statistics in Medicine,2019,38(12):2184-2205.

[26]陈镇,刘润,罗征,等.基于机器学习的珠三角秋季臭氧浓度预测[J].环境科学,2024,45(1):1-7.CHEN Z,LIU R,LUO Z,et al.Prediction of autumn ozone concentration in the Pearl River Delta based on machine learning[J].Environmental Science,2024,45(1):1-7.

[27]张鹏泽,叶丽,姚军强,等.基于机器学习的河流铈异常预测模型[J].环境科学学报,2025,45(5):337-346.ZHANG P Z,YE L,YAO J Q,et al.Construction and analysis of machine learning based cerium anomaly prediction model for river[J].Acta Scientiae Circumstantiae,2025,45(5):337-346.

[28]ZHAO B,ZHU W X,HAO S F,et al.Prediction heavy metals accumulation risk in rice using machine learning and mapping pollution risk[J].Journal of Hazardous Materials,2023,448:130879.

[29]徐建芬,张凤杰.黄酒陈酿过程中香气物质、味觉特性和表面张力变化[J].中国酿造,2018,37(1):41-44.XU J F,ZHANG F J.Changes of aroma substances,taste characteristics and surface tension during the aging process of Chinese rice wine[J].China Brewing,2018,37(1):41-44.

[30]王岸娜,吴立根.贮存时间对黄酒成分的影响[C].2010年国际细胞生物学、生物学、生物工程会议.Piscataway:IEEE,2011.WANG A N,WU L G.The influence of storage time on the composition of yellow wine[C].2010 International Conference on Cellular,Molecular Biology,Biophysics and Bioengineering.Piscataway:IEEE,2011.

[31]朱长满.煎酒对客家黄酒品质及其抗氧化活性的影响[D].广州:仲恺农业工程学院,2019.ZHU C M.Effects of decoction process on the quality and antioxidant activity of hakka rice wine[D].Guangzhou:Zhongkai University of Agriculture and Engineering,2019.

[32]ZHAO C J,SCHIEBER A,GÄNZLE M G.Formation of taste-active amino acids,amino acid derivatives and peptides in food fermentations-A review[J].Food Research International,2016,89(P1):39-47.

[33]SONG G S,JIANG N L,ZHAO L W,et al.Analysis of aroma characteristics of the aged Shaoxing Huangjiu by a combination of multiple instruments and machine learning [ J].LWT,2024,214:117165.

[34]蒋洋,张翠英,李于,等.酒类风味物质对人体乙醇代谢影响的研究进展[J].食品科学,2021,42(15):242-250.JIANG Y,ZHANG C Y,LI Y,et al.Effect of flavor substances in alcoholic beverages on ethanol metabolism in human body:A review[J].Food Science,2021,42(15):242-250.

[35]LI M,ZHAN P,WANG P,et al.Characterization of aroma-active compounds changes of Xiecun Huangjius with different aging years based on odor activity values and multivariate analysis[J].Food Chemistry,2022,405(PA):134809.

[36]WANG J,YU Y G,GAO X L,et al.Succession patterns of aroma components during brewing process of broomcorn millet (Panicum miliaceum L.) Huangjiu[J].Food Research International,2022,154:110982.

[37]郑翠银,龚丽婷,黄志清,等.甜型红曲黄酒中关键挥发性香气成分分析[J].中国食品学报,2014,14(5):209-217.ZHENG C Y,GONG L T,HUANG Z Q,et al.Analysis of the key volatile aroma compounds in sweet Hongqu glutious rice wine[J].Journal of Chinese Institute of Food Science and Technology,2014,14(5):209-217.

Research on freshness prediction model of Fangxian Huangjiu based on machine learning

HE Wenjie1,ZHANG Fengjie2,CUI Lulu3,YE Xiaoxia3,YU Jiajun2,ZHANG Xiaomeng2,YANG Wu3,WANG An3,XUE Jie1,2∗

1(School of Food Science and Pharmacy,Xinjiang Agricultural University,Urumqi 830052,China)2(China National Research Institute of Food &Fermentation industries Co.Ltd.,Beijing 100015,China)3(Fangxian Huangjiu Industry Development Center,Shiyan 442100,China)

ABSTRACT This study investigated the characteristic “freshness” quality of Fangxian Huangjiu (a traditional Chinese rice wine) by developing a freshness prediction model using machine learning algorithms.Through measurements of conventional physicochemical parameters,amino acids,and volatile flavor compounds from 76 samples,alongside expert sensory evaluations,key input variables,including Lvalue, bvalue,electrical conductivity,non-sugar solids,and DPPH free radical scavenging rate,were identified.Among comparative analyses of random forest (RF),support vector machine regression,and Lasso regression algorithms,the RF model demonstrated optimal performance with a coefficient of determination (R2) exceeding 0.89.Feature importance analysis and SHAP interpretation identified furfural, Lvalue, bvalue,thiobarbituric acid (TBA) value,and ethyl lactate as the strongest predictors of freshness,with TBA value,furfural, bvalue,and Lvalue exhibiting nonlinear relationships with freshness outcomes.Validation experiments on 10 randomly selected unknown samples showed deviation rates between predicted and measured values ranging from-6.30% to 5.09%,confirming model reliability.This research establishes an objective and quantifiable methodology for assessing Fangxian Huangjiu quality,effectively overcoming limitations associated with traditional sensory evaluation,such as subjectivity,instability,lack of quantifiability,and high dependency on professional expertise,thus providing critical reference standards for controlling its distinctive “freshness” quality.

Key words Fangxian Huangjiu;freshness;random forest;support vector machine regression;Lasso regression

DOI: 10.13995/j.cnki.11-1802/ts.042930

引用格式: 何文杰,张凤杰,崔路露,等.基于机器学习的房县黄酒新鲜度预测模型研究[J].食品与发酵工业,2026,52(6):136-145.HE Wenjie,ZHANG Fengjie,CUI Lulu,et al.Research on freshness prediction model of Fangxian Huangjiu based on machine learning[J].Food and Fermentation Industries,2026,52(6):136-145.

第一作者: 硕士研究生(薛洁教授级高级工程师为通信作者,E-mail:lxxuejie@126.com)

基金项目: 国家重点研发计划项目(2022YFD2101202)

收稿日期: 2025-04-04,改回日期: 2025-07-23