基于大数据与多物质协调的浓香型白酒品质分级研究

张贵宇1,2,3,4,严俊1,2*,王怡博1,2,向星睿1,2,张磊1,2,张云龙1,2

1(四川轻化工大学 自动化与信息工程学院,四川 宜宾,644000)2(四川轻化工大学,智能感知与控制四川省重点实验室,四川 宜宾,644000)3(四川省固态酿造技术创新中心,四川 泸州,646000)4(中国轻工业酿酒生物技术及智能制造重点实验室,四川 宜宾,644000)

摘 要 基酒中的各种挥发性物质对于白酒品质至关重要,酒中的挥发性物质成分复杂,其中单一物质对基酒品质的影响效果不明显,多种物质协调起来则可能会对酒质产生极大影响。该研究采用气相色谱-质谱联用仪分析白酒中的挥发性物质,鉴定出了89种主要挥发性化合物,对基于多物质协调下的白酒品质等级进行研究分析。采用斯皮尔曼-交互特征、最大互信息-交互特征、信息增益比-交互特征与特征权重性-交互特征结合探究白酒中多物质协调下对于基酒品质的影响,并筛选出影响最大的协调物质组合。同时将所有特征组合进行模型训练,独立筛选关键物质,分别采用支持向量机、随机森林、极端梯度提升树进行白酒等级判别,发现独立筛选的关键物质对于白酒品质等级影响效果一般,而基于多物质协调筛选的特征组合效果良好,其中基于Spearman正负相关性融合分析的随机森林准确率效果最好,达到94%以上,有效区分了不同白酒的品质等级。

关键词 气相色谱-质谱法;白酒;多物质协调;交互特征;白酒品质等级模型

白酒是中国特有的固态蒸馏酒,以富含淀粉质的粮谷类为原料,经原粮粉碎、蒸煮糊化、以酒曲为糖化发酵剂,采用固态发酵方式,经蒸馏、贮存和勾调而成的含酒精饮料,具有独特的风味、香型和酿造工艺[1-2]。其品种繁多,主要的酒类有浓香型、酱香型、清香型等,各酒类之间工艺不同,口感、风味亦有差别,其中包含的化合物也存在差异,目前白酒中已经检测出数千种物质,但仍然有部分微量成分未检测出来。因此无法从所有化合物方面对白酒进行分析,通常对影响白酒品质的关键化合物进行研究[3-5]

为了区分白酒的品质,关键化合物是判别白酒等级差异的重要特征[6-9]。白酒中具有数千种挥发性化合物,需要依靠现代仪器对其进行分析,主要有气相色谱-嗅觉、核磁共振、GC-MS、电子舌、电子鼻等[10-12]。其中,GC-MS可以对白酒中的各种复杂物质进行定量与定性分析。除了电子仪器外,感官品评技术也用于白酒风味的研究之中,利用白酒中的芳香性化合物所形成的风味感知对基酒进行分级,同时电子舌也是根据感官品评原理研究而成[13-16]。目前大多数研究都是基于单种物质对于基酒品质的影响,通过GC-MS获取基酒中各种化合物的含量,采用化学计量学分析差异化合物或是通过感官分析基酒的色、香、味、格,最终通过筛选的化合物进行白酒质量等级判别[17-18]。如胡雪[19]采用GC-MS技术对不同产地、等级与香型的白酒风味物质进行分析,结合主成分分析和聚类分析建立白酒评价方法。朱开宪等[20]基于GC-MS技术检测5种香型白酒挥发性风味成分,并结合聚类分析、主成分分析及偏最小二乘判别分析等化学计量学手段分析检测结果,对不同白酒的香型进行识别和分类。白酒是一种复杂的、多化合物共同交互协调影响的食品,某些物质对于白酒的品质、口感影响较为明显,可以直观地看出某一物质的重要性[21-22]。而一些物质,从单一物质的表现中难以看到其对于酒质的影响,但是当与其他某种或多种物质结合后,就会对酒质产生极大影响,这是从单一物质层面分析无法寻找到的结果。目前,极少有从多物质协调方面对白酒品质等级进行的研究。

因此,本研究的目标是通过GC-MS获取白酒中化合物数据进行定量分析,采用斯皮尔曼-交互特征(Spearman’s sank correlation coefficient-interaction feature,Spearman-IF)与最大互信息-交互特征(maximum mutual information-interaction features,MIC-IF)等方法从多物质协调方面对白酒品质等级影响进行分析,同时筛选出影响白酒品质等级的最优物质特征组合。最后,基于多特征协调下筛选出的关键物质采用支持向量机(support vector machine,SVM)、随机森林(random forest,RF)、极端梯度提升树(extreme gradient boosting,XGBoost)进行模型训练,建立了基于多物质协调的Spearman-IF-融合分析-RF的白酒品质等级判别方法,为浓香型白酒品质分析建立一种新思路。

1 材料与方法

1.1 材料与试剂

原酒样本采集于四川省某知名酒厂,为了兼顾所采集样品的完整性和代表性,实验中的每组样品均选自同一批次相同车间中不同的窖池,共32个。32组不同的窖池使得样品能够尽可能多地覆盖到酒企浓香型窖池的酒样,足以代表采集样品的普遍性。每口窖池按时间顺序采集蒸馏过程中14个原酒样品,其中一级酒与三级酒的的馏酒时间较短,二级酒的馏酒时间较长,因此,一级酒与三级酒样品摘取过程较为连续,二级酒摘取间隔时间采取过渡段连续,中间段间隔时间较长的采集方式,具体方式如图1所示。采集后共448个样品,经过样品异常剔除后,保留实际样品438个。

图1 样品采集方式

Fig.1 Sample collection method

无水乙醇(纯度99.5%)、2-乙基丁酸(色谱纯),上海麦克林生化科技有限公司;甲醇(纯度99.5%),上海阿达玛斯试剂有限公司;C7~C40正构烷烃(色谱纯),北京曼哈格生物科技有限公司。

1.2 仪器与设备

7890B气相色谱仪、G7000D质谱仪,美国Agilent公司。

1.3 白酒感官等级鉴定

测定环境:摘取原酒后,在24 h内完成品评,温度:(22±1) ℃,湿度:60% RH。

品评方法:以5名经过国家资格认定的专业品酒师进行品评,用郁金香型酒杯作为容器。品鉴之前品评人员避免吃辛辣、酸甜、油腻食品等刺激性食物,评酒室无异香、无邪杂味,品评人员尝完一杯后稍停顿、每组间隔10 min并漱口。

经过专家品评后,以色香味格作为品评标准,将酒分为3个等级,品评标准如表1所示。一等酒酒质最好,色、香、味、格都比较优秀样品数量为92份,二等酒与三等酒品质依次下降样品数量分别为238、108份。

表1 白酒品质品评标准

Table 1 Baijiu quantity evaluation criteria

序号类别色香味格1头酒色泽较为透明、无悬浮物香味刺激 有浓重的酒精气味入口刺激、辛辣 稍有异杂味风格一般 有异杂味2中段酒澄清透明主体香突出 香气较为柔和绵甜醇厚 酒体丰满 后味、回味悠长风格突出、格调高雅、个性典型3尾酒有失光现象或浑浊 带油光异杂香明显 气闷 糟味重酒味寡淡、无刺激、味苦带酸 异杂味明显异杂感明显 无特点

1.4 GC-MS检测方法

内标溶液及样品准备:本实验采用2-乙基丁酸试剂作为内标,用超纯水配制体积分数60%的乙醇溶液作为内标物溶剂。用超纯水配制60%的乙醇溶液作为内标化合物的溶剂,准确称取2 g 2-乙酸丁酸于100 mL容量瓶中,加入配制好的乙醇溶液定容至100 mL,放置于0~4 ℃低温冰箱中保存备用。使用微量移液枪量取1 mL白酒样品溶液于测样瓶中,加入0.1 mL配制好的溶液,混合均匀后进行GC-MS分析。

GC-MS方法:GC采用自动进样,色谱柱为DB-WAXMS(60 m×0.25 mm,0.25 μm)。进样量1 μL,分流比20∶1,进样口温度250 ℃;载气为高纯He,流速1 mL/min;初始柱温60 ℃保持5 min,然后以10 ℃/min升温至250 ℃,并保持2 min。MS的接口温度280 ℃;EI离子源70 eV;离子源温度230 ℃,四极杆温度150 ℃;全扫描方式:扫描范围30~540 m/z

1.5 定性分析与定量分析

本实验采用GC-MS对原酒样品挥发性化合物进行检测,通过GC获得总离子流色谱图(total ion chromatography,TIC),由TIC获得每种组分的质谱图并与NIST12质谱库对比,结合保留指数(retention index,RI)对化合物进行定性分析。

定量分析采用2-乙基丁酸试剂作为内标化合物,由相对响应因子和内标化合物的含量即可计算待测化合物含量。通过GC-MS结合内标法进行定性分析与定量分析,438个样品共检测出86种物质,使用马氏距离进行数据预处理后保留56种,如电子版增强出版附表1所示(https://doi.org/10.13995/j.cnki.11-1802/ts.041785)。

1.6 分析方法

数据分析使用Python 3.10、Origin 2022软件[23-24]。采用4种特征分析方法,分别是Spearman等级相关系数法、最大互信息法(maximum mutual information,MIC)、信息增益比算法(information gain ratio algorithm,IGR)、特征权重算法(feature weight algorithm,Relief F)。交互特征(interaction features,IF)是将2个或多个特征结合形成1个新的特征,融合了多个特征的信息。在4种特征分析方法的基础上结合IF的方法,可以从多种物质协调方面分析对于白酒品质等级的影响。白酒等级分类由白酒数据类型采用了3种方法,分别是RF、SVM、XGBoost[25]

1.6.1 Spearman等级相关系数

Spearman等级相关系数思路如下:定义Χ={Χ1,Χ2,…Χi},Y={Y1,Y2,…Yn},S={S1,S2,…Sj},其中,Χ代表风味物质,Y代表感官等级,S代表样本。按顺序排列得到Χ={x1,x2,…xi},Y={y1,y2,…yn},xi,yi表示排列顺序后第i种物质以及对应的等级,相关系数重要性计算如公式(1)所示:

(1)

式中:dj,xi,yi的等级差;rs,相关系数,取值范围[-1,1]。

1.6.2 最大信息系数(maximum mutual information,MIC)

MIC是1种衡量2个变量之间非线性关系强度的统计方法,思路如下:互信息I(X,Y)衡量2个变量之间的相互依赖性,计算如公式(2)所示:

(2)

式中:p(x,y),XY的联合概率分布;p(x)、p(y),XY的边缘概率分布。

MIC:MIC是通过对变量XY进行多种网格划分,并计算每个网格的互信息来获得的。计算如公式(3)所示:

(3)

式中:xy,将平面划分为网格时的行、列的数量;B(j),函数,用于限制网格的复杂度,通常设为B(j)=j0.6,其中j是样本的数量;log2min(x,y)是一个归一化因子,用于将互信息归一化为一个介于0和1之间的值。

1.6.3 IGR

IGR是一种特征选择方法,主要用于衡量一个特征对目标变量(通常是类别标签)的贡献。思路如下:信息熵衡量了数据集的不确定性或纯度。给定一个数据集S,其信息熵计算如公式(4)所示:

(4)

式中:pn,类别n在数据集S中出现的概率;j,类别的数量。

条件熵(conditional entropy):对于一个物质X,条件熵H(S|X)衡量了在给定物质X的情况下,数据集S的不确定性。定义如公式(5)所示:

(5)

式中:Values(X),物质X的所有可能取值;Sν,在 X=ν条件下的数据子集。

信息增益(information gain,IG):表示通过使用某个特征X来划分数据集后,目标变量Y的不确定性(熵)减少的程度,计算方式如公式(6)所示:

IG(X)=H(S)-H(S|X)

(6)

分裂信息(split information):分裂信息衡量的是物质X的取值分布情况,定义为公式(7):

(7)

IGR计算如公式(8)所示:

(8)

1.6.4 ReliefF

ReliefF是一种基于实例的特征选择方法,该算法的基本思想是通过衡量特征在近邻实例间的差异来识别那些能够有效区分不同类别的特征。ReliefF计算如公式(9)所示:

(9)

式中:等式右边的W(xi)为权重值,初始设置为0,迭代后逐步更新;用于计算物质xi的平均“损失”,是针对样本的近邻样本的距离计算;表示物质xi在样本Sj的差异度量,这里指差值;j个样本的同类近邻样本;用于计算特征xi的损失,针对的是样本的异类样本的距离计算;yi是第j个样本的感官等级;c代表的是与yi不同的其他感官等级;P(c)是等级c的概率;是与第j个样本不同等级的样本,也称为异类近邻样本。

1.6.5 IF

IF是在特征工程过程中,通过将2个或多个原始特征进行组合,从而生成的新特征。IF可以捕捉原始特征之间的非线性关系,从而帮助提高模型的性能。

IF方法思路如下:定义物质特征为x1,x2xi,通过多项式生成的物质特征矩阵Xpoly为公式(10):

(10)

将4种特征分析方法与IF方法结合使用,研究多物质结合下对白酒品质的影响效果。Spearman-IF结合后公式(11)为:

(11)

MIC-IF结合后公式(12)为:

(12)

IGR-IF结合后公式(13)为:

(13)

ReliefF-IF结合后公式(14)为:

(14)

1.6.6 模型训练方法

RF是白酒领域常用于等级分析的有效多决策树,内部节点决定分割训练数据的最佳方式,并且每棵树的叶子通过输入数据的后验分布进行标记。SVM是一种常见的分类算法,泛化能力较强,可用于小样本以及非线性分类问题。XGBoost是基于梯度提升树改进的算法,支持自定义代价函数,并在其中加入正则项去控制模型的复杂度,提高模型的泛化能力,使得学习出来的模型更简单,防止过拟合。这3种方法都是基于数据的类型,样本的数量进行选择的,数据采用SPXY划分训练集与测试集,比例为8∶2。

超参数的设置对3种训练模型的预测性能有重要影响,本研究采用网格搜索确定通过不同数据源建立模型时的最优参数。网格搜索是目前应用最为广泛的超参数搜索算法,其通过查找搜索范围内的所有点确定最优参数,超参数含义及其搜索范围如表2所示。

表2 参数搜索范围

Table 2 Parameter search range

SVMRFXGBoost参数名称搜索范围参数名称搜索范围参数名称搜索范围c 2-5 210 n_estimators 50 200 n_estimators 50 200 g 2-15 25 max_depth 10 30 learning_rate 0.01 1 min_samples_split 1 10 max_depth 3 7 min_samples_leaf 1 5 min_child_weight 1 5

2 结果与分析

2.1 不同等级中挥发物的变化规律

一共采集了32个窖池的酒糟蒸馏馏出的基酒进行实验,每个窖池按时间顺序采集14个样品。随机从32组样品中选取8组进行挥发物变化规律研究,如图2所示,整个蒸馏过程中,挥发物含量呈下降趋势。而白酒的品质等级与挥发物变化趋势一致,说明了挥发物是影响白酒品质的关键因素。随机从经过感官品评后的3个等级样本中抽取10个样品,共计30个样品,分析不同等级白酒的平均物质含量,发现一等酒、二等酒与三等酒的平均物质含量分别为5.5~6.0、2.5~5.5、2.0~2.5 mg/L,因此在蒸馏过程中物质含量更多的白酒品质更好。

图2 挥发物总含量变化

Fig.2 Trend in total substance content of volatile matter

白酒中挥发物种类较多,主要分为酸类、酯类、醇类、醛类以及小部分物质,原酒的味主要由酸调节,香主要由酯调节。由图3可知,酸类与酯类占据了总挥发物的极大部分,其中酯类最多。A1~A10为一等酒,B1~B10为二等酒,C1~C10为三等酒。明显看出,原酒中的酯类物质含量随着基酒品质的下降而减少,如己酸乙酯、丁酸乙酯等,酸类物质则随着基酒品质的降低而增加,符合一等酒香味浓郁,滋味平淡,二等酒香味较好,滋味浓厚,三等酒香味一般,滋味微苦带酸的情况。因此酯类物质的减少以及酸类物质的增加会降低白酒的品质。

图3 各类挥发物含量

Fig.3 Content of various volatile compounds

对同样的样品具体的各个成分进行检测分析,如图4所示,对于每种物质在不同等级的基酒的平均含量,明显观察到有几种物质含量远远大于其他物质,如正己酸乙酯、十六酸乙酯、亚油酸乙酯、反油酸乙酯、己酸以及L(-)-乳酸乙酯等。并且在不同等级的基酒中变化趋势较大,是明显影响酒质的化合物。这几种物质中,5种酯类物质中有4种随着基酒品质的降低而减少,L(-)-乳酸乙酯则呈现相反的趋势,说明不能以单一物质及其种类判别对白酒品质的影响效果。

图4 各物质平均含量

Fig.4 Average content of each substance

综上所述,白酒是一种成分极其复杂的食用饮料,它的物质组成以及物质含量在不同等级的白酒中存在巨大差异,并且挥发性风味物质与原酒的品质的变化不是简单的单调相关性。有部分物质与变化趋势与其所属的大类不一致,酸与酯作为影响白酒味、香的因素也并非追求某种极致地多或者极致地少就能达到最好的白酒品质。一些挥发性化合物之间存在一定的比例协调关系,在适合的比例协调下会产生更好品质的白酒,因此需要研究在多种物质的协调下对于白酒品质等级的影响。

2.2 基于多物质协调的白酒品质分析

在进行特征协调性分析时,需要研究不同数量的物质结合在一起的效果。从56种物质中分别选择2、3、…、56个进行组合,因此有55种数量的组合,每种数量的组合又包含了各种不同物质的组合方式。将不同组合按照IF进行交互信息后,与4种特征分析方法结合得到影响力分析结果,并且每种数量的物质组合分别选择得分值最大的作为代表。同时,由于Spearman等级相关系数法的特殊性,其相关系数rs的取值范围是[-1,1],正负值分别表示正相关与负相关,在分析时进行区分。因此最后得到5×55个协调性物质组合。

如图5为Spearman-IF在2个物质组合的散点分布图,图6为Spearman-IF在10个物质组合的散点分布图。发现在不同的物质组合时,样本在白酒等级分类时存在差异,10个物质组成的组合分布更加紧密,并且不同白酒等级之间重叠区域更小,此时的区别效果更好,说明使用特征分析方法结合IF对多种物质协调分析白酒品质等级变化具有效果。

a-Spearman-IF(+)分析;b-Spearman-IF(-)分析

图5 两种物质数量的Spearman-IF散点图

Fig.5 Spearman-IF scatter plot of the quantities of 2 substances

注:从56种物质中选择2种,将所有可能的组合结果经过评分后选出来的得分最大的组合(图6同)。

a-Spearman-IF(+)分析;b-Spearman-IF(-)分析

图6 十种物质数量的Spearman-IF散点图

Fig.6 Spearman-IF scatter plot of the quantities of 10 substances

如图7,这几种方法的整体影响力随着协调特征的增加呈现下降趋势,但是整个过程中有一部分拐点。这说明白酒成分中的物质并非越多越好,有一些物质对于白酒品质的作用较小,与其他物质协调以后反而会影响白酒的品质。而图中的拐点说明在对应点的协调特征对酒质产生了变化,凸点表示在一定的物质数量范围内,此时的协调物质组合对于白酒品质的影响状况产生了良好效果并达到了最好的状态。凹点则是在一定的物质数量范围内,对应的协调物质组合对白酒品质的影响状况达到较差的效果。Spearman负相关的协调特征与正相关的表现形式相反,负值越大则说明影响效果越好。

图7 各方法多物质协调得分图

Fig.7 Multi-substance harmonisation scores for each method

由于Spearman-IF的正负相关特殊性,以其为例。由附图1可知,物质组合中物质数量为2时发现乳酸丁酯与乳酸异戊酯形成的协调组合效果最好,得分值达到0.737 5,同样方法增加协调物质2-羟基-4-甲基-戊酸乙酯与乙酸苯乙酯后虽然得分值降低,但仍有0.728,说明这些协调物质组合对于白酒品质的影响效果较好。当协调物质组合中加入对甲酚、丁酸丁酯、庚酸后,得分值上升并达到峰值,说明此时的协调物质对于酒质影响最大。而在单一物质重要性分析时,如图8所示,这些物质排名比较落后,说明了确实有一些物质与其他物质协调会对白酒品质产生较大影响。由Spearman-IF正相关性可以看出其他方法的情况,Spearman-IF负相关性中初始协调特征为1,1-二乙氧基-3-甲基丁烷与亚麻酸乙酯,随后的十八酸乙酯、癸酸乙酯、十五酸乙酯与异戊酸丁酯等都对酒质产生了较好的影响效果,并在10个协调物质组合数量时达到了小峰值,在后期加入异戊醇后达到大峰值。MIC方法初始协调物质组合是1,1-二乙氧基-3-甲基丁烷与反油酸乙酯,在加入丁酸乙酯、十五酸乙酯与丁酸丁酯等后产生了良好效果,并达到峰值。IGR-IF与RelieF-IF两个方法效果较差,不能直接找出良性的协调物质组合。

图8 单一物质重要性排序图

Fig.8 Ranking of importance of single substances

综上,发现各种方法的协调物质组合会随着某些物质的增加而产生变化,如对甲酚、丁酸丁酯、庚酸等,对白酒品质影响变大的则为良性协调物质组合,反之则为不良协调物质组合。注意,良性协调组合并不意味着其中的物质对白酒品质有良好影响,仅代表着对白酒品质等级变化具有显著影响。同时,仅从影响力得分判断白酒等级说服力不足,仍需要进一步验证,找到关键的协调物质组合。

2.3 基于多协调物质的白酒等级分析

当得到重要性分析结果后,对得到的协调物质组合进行进一步分析。从2个方面研究,一是通过对重要性得分较好的协调物质组合进行模型训练,观察筛选出的协调物质组合是否良好。另一个方面是将所有协调物质组合分别输入到3种分类模型中进行训练,通过训练结果对特征组合进行评估,筛选出优秀的风味物质,对比分析,建立多特征协调下对于白酒品质等级的判别方法,找到最优的协调性物质组合。

关于白酒品质等级分析方面,根据2.3节从多物质协调方面对白酒等级进行分析。由于Spearman的正负相关性特殊性,因此从2个方面进行研究,一是Spearman的正相关性与负相关性分开进行协调物质组合,二是两者融合进行分析。首先是非融合分析,寻找对白酒等级影响力较好的物质组成关键协调物质组合,基于图7各方法大峰值或小峰值对应的协调物质组合寻找到以下物质作为关键协调物质组合物质,如附表2所示,最后将17种关键协调物质组合物质带入3种分类模型中训练。

从Spearman的正、负相关性融合进行分析,即以相同数量的Spearman正相关协调组合与负相关协调组合融合形成一个新的协调物质组合,如表3所示,一共22种关键物质组成的协调特征组合,分别带入3种模型中训练。结果如图9所示,在形成新组合过程中有部分特征可能重复需要清除,因此横坐标并不代表协调物质组合的具体数量。

表3 基于多物质协调筛选的关键物质组合(融合)

Table 3 Key substance combinations based on coordinated multi-substance screening (fusion)

序号关键物质序号关键物质12-乙基丁酸121 1-二乙氧基-3-甲基丁烷22-羟基-4-甲基-戊酸乙酯133-甲基-2-丁醇3丁酸丁酯14亚麻酸乙酯4乳酸异戊酯15十七酸乙酯5乙酸苯乙酯16癸酸乙酯6壬醛17棕榈酸7对甲酚18异戊酸丁酯8庚酸19十五酸乙酯9苯甲醛20十八酸乙酯10辛酸21乳酸丁酯11 2 2-二乙氧基乙基 -苯22壬酸乙酯

图9 融合性多物质协调模型训练图

Fig.9 Training diagram of the integrative multisubstance coordination model

图10为4种方法得到的5×55个协调性物质组合代入3种模型中训练后的结果,以测试集准确率作为标准。发现模型训练效果初始较差后逐步上升,在某些特征组合训练时达到最大值,这里以90%的测试集准确率作为是否为优秀特征组合的标准。测试集准确率大于90%则将对应的物质组合保留下来,通过对多个组合取交集得到的共同特征筛选出关键的物质组合,经验证,发现16种共同特征确定为关键特征,如附表3所示,将这16种关键特征作为输入代入模型进行训练分析。

a-SVM模型;b-RF模型;c-XGBoost模型

图10 5×55物质组合在模型中的训练结果

Fig.10 Training results of 5×55 substance combinations in models

最后将独立筛选特征物质的方法与2种基于多物质协调寻找关键物质的方法进行对比分析,如表4所示。发现筛选关键物质是具有良好效果的,但是基于多物质协调筛选关键组合效果显然更优秀。独立筛选在使用ReliefF方法的特征组合训练时准确率很高,但在经过筛选关键物质后效果反而降低,说明采用独立筛选关键物质的方法并不一定能得到最好的结果。而基于多物质协调性分析组成的协调组合,在3种模型方法上都达到了良好的结果。相较于原始特征与独立筛选的特征,基于多物质协调性分析组成的协调组合对于白酒品质等级判别效果更好,综合分析,融合分析的多物质协调组合效果最佳,其中RF准确率达到94.32%,证明了基于多物质协调的白酒品质分析是具有效果的。

表4 模型比较分析

Table 4 Comparative analysis of models

模型方法筛选方法准确率/%RF不筛选 56 89.77独立筛选 16 86.36非融合协调筛选 17 90.90融合协调筛选 22 94.32SVM不筛选 56 90.90独立筛选 16 89.77非融合协调筛选 17 89.77融合协调筛选 22 92.04XGBoost不筛选 56 88.63独立筛选 16 86.36非融合协调筛选 17 89.77融合协调筛选 22 89.77

3 结论与讨论

综上所述,本研究使用GC-MS获取了原酒的挥发性物质数据,采用Spearman为主,MIC、IGR与ReliefF为辅的特征重要性分析方法结合IF形成多物质协调物质组合,从多种物质之间的协调组合方面研究对于白酒品质等级的影响,发现确实存在某些物质如对甲酚、丁酸丁酯、庚酸等从单一物质层面对于白酒品质影响力较差,但是与其他一些物质协调结合后就会产生较大影响。

此外,为了更好判别白酒品质等级,首先使用聚类分析区分了一等酒、二等酒与三等酒,证明白酒等级分类的可行性。然后分别从多物质协调分析寻找协调特征组合与基于模型训练独立筛选寻找关键物质两个方面进行分析,多物质协调分析又分为Spearman正负相关性融合与非融合,独立筛选找到了16种特征,非融合协调筛选出了17个特征,融合协调筛选选出了22个特征,发现这3种方法寻找的部分物质会有重合。最后分别将不同方法选择的关键物质结合3种模型进行训练,综合分析,基于多物质协调的融合筛选方法对于白酒品质等级判别效果最好,其中,基于多物质融合协调使用RF分类效果达到94%以上。

因此本研究在比较分析了单一物质与多物质协调对于白酒品质等级的影响后,选择基于多物质协调分析作为筛选影响白酒品质等级关键特征的方法,建立了基于多物质协调的Spearman-IF-融合分析-RF的白酒品质等级判别方法。

参考文献

[1] 石俊,王旭亮,于佳俊,等.中国酿造酒及蒸馏酒起源分析研究[J].酿酒科技,2022(12):121-128.SHI J,WANG X L,YU J J,et al.Origin of Chinese fermented wines and distilled spirits[J].Liquor-Making Science &Technology,2022(12):121-128.

[2] 刘芮荻,张宿义,殷鹏飞,等.白酒蒸馏理论与技术的研究进展[J].酿酒科技,2022(9):85-90.LIU R D,ZHANG S Y,YIN P F,et al.Research progress in distillation theory and technology of Baijiu[J].Liquor-Making Science &Technology,2022(9):85-90.

[3] 谢军,罗恵波,曾勇,等.中国白酒产业蒸馏装置的演变历程及研究现状[J].中国酿造,2022,41(2):9-14.XIE J,LUO H B,ZENG Y,et al.Evolution and research status of distillation device in Chinese Baijiu industry[J].China Brewing,2022,41(2):9-14.

[4] 杨紫萱,曾珊,孙敏,等.白酒挥发性风味物质检测技术研究进展[J].中国酿造,2024,43(6):1-8.YANG Z X,ZENG S,SUN M,et al.Research progress on detection technology of volatile flavor substances in Baijiu[J].China Brewing,2024,43(6):1-8.

[5] WEI Y,ZOU W,SHEN C H,et al.Basic flavor types and component characteristics of Chinese traditional liquors:A review[J].Journal of Food Science,2020,85(12):4096-4107.

[6] HONG J X,ZHAO D R,SUN B G.Research progress on the profile of trace components in Baijiu[J].Food Reviews International,2023,39(3):1666-1693.

[7] QIAO L N,WANG J,WANG R F,et al.A review on flavor of Baijiu and other world-renowned distilled liquors[J].Food Chemistry:X,2023,20:100870.

[8] HONG J X,TIAN W J,ZHAO D R.Research progress of trace components in sesame-aroma type of Baijiu[J].Food Research International,2020,137:109695.

[9] 张琦,沈才洪,孙啸涛,等.浓香型白酒蒸馏过程中挥发性风味物质的变化规律[J].现代食品科技,2018,34(6):244-254.ZHANG Q,SHEN C H,SUN X T,et al.Variation regularity of volatile substances in Luzhou flavor liquor during distillation process[J].Modern Food Science and Technology,2018,34(6):244-254.

[10] HUANG Q,LIU Y,TIAN L,et al.Effects of storage time on flavor characteristics of bran-free fermented Baijiu by using electronic sensory,descriptive sensory analysis,GC×GC-MS,and ICP-MS[J].Food Chemistry:X,2024,23:101667.

[11] 陈明举,周迪,王鸿,等.基于GC-MS的浓香型白酒等级评判模型研究[J].中国酿造,2021,40(10):102-107.CHEN M J,ZHOU D,WANG H,et al.Quality evaluation model of strong-flavor Baijiu based on GC-MS[J].China Brewing,2021,40(10):102-107.

[12] 林先丽,张晓娟,李晨,等.气相色谱-质谱和电子舌对不同质量等级酱香型白酒的判别分析[J].食品科学,2023,44(24):329-338.LIN X L,ZHANG X J,LI C,et al.Discriminant analysis of Jiang-Flavor Baijiu of different grades by gas chromatography-mass spectrometry and electronic tongue[J].Food Science,2023,44(24):329-338.

[13] CHEN M J,CUI A L,DUAN Z X,et al.Evaluation quality of Chinese Baijiu using GC-MS based on SPCA and neural network[J].International Journal of Pattern Recognition and Artificial Intelligence,2023,37(8):2359016.

[14] LIU Q R,ZHANG X J,ZHENG L,et al.Machine learning based age-authentication assisted by chemo-kinetics:Case study of strong-flavor Chinese Baijiu[J].Food Research International,2023,167:112594.

[15] DU J Y,LI Y M,XU J C,et al.Characterization of key odorants in Langyatai Baijiu with Jian flavour by sensory-directed analysis[J].Food Chemistry,2021,352:129363.

[16] WANG Z,WANG Y,ZHU T T,et al.Characterization of the key odorants and their content variation in Niulanshan Baijiu with different storage years using flavor sensory omics analysis[J].Food Chemistry,2022,376:131851.

[17] 王金龙,尹延顺,田栋伟,等.不同质量等级酱香白酒中风味物质及差异性分析[J].中国酿造,2024,43(1):41-49.WANG J L,YIN Y S,TIAN D W,et al.Analysis of flavor substances and differences of sauce-flavor Baijiu with different quality grades[J].China Brewing,2024,43(1):41-49.

[18] QIN D,DUAN J W,LI H H,et al.Characterization and comparison of the aroma-active compounds on different grades of sesame-flavor Baijiu by headspace solid-phase microextraction and gas chromatography-olfactometry-mass spectrometry[J].Food Science and Human Wellness,2023,12(1):79-88.

[19] 胡雪.基于质谱结合化学计量学对白酒产地、香型和等级判别分析[D].自贡:四川轻化工大学,2021.HU X.Based on ms combined with stoichiometrydiscriminant analysis on origin,flavor type and quality grade of liquor[D].Zigong:Sichuan University of Science &Engineering,2021.

[20] 朱开宪,胡雪,邓静,等.基于GC-MS技术对不同香型白酒的判别分析[J].中国酿造,2023,42(1):213-218.ZHU K X,HU X,DENG J,et al.Discriminant analysis of different flavor-type Baijiu based on GC-MS[J].China Brewing,2023,42(1):213-218.

[21] WANG J S,CHEN H,WU Y S,et al.Uncover the flavor code of strong-aroma Baijiu:Research progress on the revelation of aroma compounds in strong-aroma Baijiu by means of modern separation technology and molecular sensory evaluation[J].Journal of Food Composition and Analysis,2022,109:104499.

[22] GONG J X,MA Y,LI L L,et al.Comparative characterization and contribution of key aroma compounds in the typical base liquor of Jiang-flavor Baijiu from different distributions in the Chinese Chishui River basin[J].Food Chemistry:X,2023,20:100932.

[23] THANGE U,SHUKLA V K,PUNHANI R,et al.Analyzing COVID-19 dataset through data mining tool “orange”[C].2021 2nd International Conference on Computation,Automation and Knowledge Management (ICCAKM).IEEE,2021:198-203.

[24] MURPHY K,SCHÖLKOPF B,DEMAR J,et al.Orange:Data mining toolbox in Python[J].Journal of Machine Learning Research,2013,14(1):2349-2353.

[25] CORTES C,VAPNIK V.Support-vector networks[J].Machine Learning,1995,20(3):273-297.

Research on quality grading of Luzhou flavor Baijiu based on big data and multi substance coordination

ZHANG Guiyu1,2,3,4,YAN Jun1,2*,WANG Yibo1,2,XIANG Xingrui1,2,ZHANG Lei1,2,ZHANG Yunlong1,2

1(School of Automation &Information Engineering,Sichuan University of Science &Engineering,Yibin 644000,China)2(Intelligent Perception and Control Key Laboratory of Sichuan Province,Sichuan University of Science &Engineering,Yibin 644000,China)3(Solid-state Brewing Technology Innovation Center of Sichuan,Luzhou 646000,China)4(Liquor Making Biotechnology and Intelligent Manufacturing of Key Laboratory of China National Light Industry,Yibin 644000,China)

ABSTRACT Various volatile substances in the base Baijiu are crucial to the quality of Chinese Baijiu.The volatile substances in Baijiu are complex in composition,in which a single substance has an insignificant effect on the quality of the base Baijiu,while a variety of substances coordinated together may have a great impact on the quality of the Baijiu.In this study,gas chromatography-mass spectrometry was used to analyze the volatile substances in Baijiu,and 89 major volatile compounds were identified to investigate and analyze the quality grade of Baijiu based on multi-substance coordination.Spearman-interaction features,maximum mutual information method-interaction feature,information gain ratio algorithm-interaction feature,and feature weight algorithm-interaction feature were combined to investigate the effect of multi-substance coordination on the quality of base Baijiu in Baijiu,and to screen out the most influential combination of coordinated substances.At the same time,all the feature combinations were trained in the model,the key substances were screened independently,and support vector machine,random forest,and extreme gradient boosting were used to discriminate the grade of Baijiu.It was found that the key substances screened independently had a general effect on the quality grade of Baijiu.In contrast,the feature combinations based on the coordinated screening of multi-substances had good effects,among which the random forest based on the fusion analysis of Spearman’s positive and negative correlation had the best effect in terms of accuracy.The accuracy of random forest based on Spearman’s positive and negative correlation fusion analysis was the best,reaching more than 94%,which effectively distinguished the quality grades of different Baijius.

Key words gas chromatography-mass spectrometry;Baijiu;multi-substance coordination;interaction features;Baijiu quality grade modelling

DOI:10.13995/j.cnki.11-1802/ts.041785

引用格式:张贵宇,严俊,王怡博,等.基于大数据与多物质协调的浓香型白酒品质分级研究[J].食品与发酵工业,2025,51(23):123-132.ZHANG Guiyu,YAN Jun,WANG Yibo,et al.Research on quality grading of Luzhou flavor Baijiu based on big data and multi substance coordination[J].Food and Fermentation Industries,2025,51(23):123-132.

第一作者:博士,副教授(严俊硕士研究生为通信作者,E-mail:1350763674@qq.com)

基金项目:四川轻化工大学科研创新团队计划资助项目(SUSE652B005);中国轻工业酿酒生物技术及智能制造重点实验室开放基金项目(2023-01);五粮液产学研合作项目(CXY2022ZR007);企业信息化与物联网测控技术四川省高校重点实验室开放基金(2023WYY02)

收稿日期:2024-12-05,改回日期:2025-04-02