化学计量学结合中红外光谱的浓香型白酒分类研究

周瑞1,陈晓明1*,张莉丽1,张良2,许德富2,张宿义2,代小雪2, 毛洪川2,谢菲3,代汉聪2,宋艳2,郭佳2,陈雯月2

1(西南科技大学 生命科学与工程学院,四川 绵阳,621000)2(泸州老窖股份有限公司,四川 泸州,646000) 3(四川省绵阳市丰谷酒业有限责任公司,四川 绵阳,621000)

摘 要 为探究无损、快速和准确判别不同类型浓香型白酒的方法,该研究选取不同酒度和不同品牌浓香型白酒作为研究对象。利用傅里叶变换中红外光谱仪采集120份酒样的原始光谱,结合平滑滤波与标准正态变换分别对原始光谱进行预处理,采用主成分分析比较光谱预处理效果。光谱数据按Kennard-Stone方法以7∶3的比例划分为训练集和测试集,经数据归一化后使用蚱蜢算法优化支持向量机和误差反向传播人工神经网络进行建模分析。试验结果表明,光谱预处理结合主成分分析不能区分不同酒度和品牌的浓香型白酒,但平滑滤波处理后不同酒度酒样的聚类区分较好,标准正态变换处理后不同品牌酒样的聚类区分更好,二者都能有效减少中红外光谱的噪音,提高识别的精度。基于蚱蜢算法优化支持向量机和误差反向传播人工神经网络模型进行判别时,训练集和测试集的酒样分类准确率均为100%。综上所述,利用中红外光谱结合化学计量学可快速准确地判别不同酒度以及不同品牌浓香型白酒,可为白酒的香型区分、产地溯源、市场监管和售后管理等提供数字化方案。

关键词 化学计量学;中红外光谱;浓香型白酒;分类;支持向量机;神经网络

浓香型白酒作为我国特有的传统固态蒸馏酒,在漫长的发展过程中形成了独具匠心的酿造工艺及酒体风格,在世界范围内受到了广大白酒消费者的一致好评[1]。白酒酒度是酒体是否达标的判定条件之一,在GB/T 10345—2007《白酒分析方法》中,对于酒度的测定主要有酒精计法和密度计法,整个检测过程需要人工采样以及肉眼目测后再查表换算,较为烦琐。在检测一线如何对大批量酒样进行快速地判别对酒度的真实性鉴定具有重大意义[2]。白酒品牌是消费者对产品标识的第一概念,也是白酒企业的生存之本,但一些不良商家常常以次充好,这对相关企业造成巨大困扰。因此,为了保证消费者与企业的共同利益,实现对不同品牌白酒的无损检测是十分必要的。

红外光谱分析技术因其具有无损、高效、可实时在线分析等特点,已被广泛应用于白酒内在品质指标的定量分析以及白酒品牌的鉴识之中[3-4]。近、中红外光谱皆有映现有机物分子振动信息的功能,但大多数典型官能团的振动峰都位于中红外区,其波数范围为4 000~400 cm-1,具有吸收强度大、信息易提取以及分子选择性好等优点[5]。近年来,中红外光谱技术结合化学计量学手段在判别分析中取得了一系列研究进展,XIAO等[6]基于中红外光谱结合偏最小二乘判别分析(partial least squares discrimination analysis,PLS-DA)对2种牛奶进行识别,正确率达95.2%。PEI等[7]也利用中红外光谱结合PLS-DA和随机森林对196份野生云南蘑菇的产地进行追溯,鉴别正确率为100%。基于中红外光谱结合化学计量学可对光谱信息进行有效提取并建立模型,且辨别效果较好,但在当前研究中却鲜有将中红外光谱结合化学计量学对白酒的品牌、香型、酒度和产地等进行识别。

本研究基于中红外光谱结合化学计量学手段对不同酒度和品牌的浓香型白酒进行判别分析,采用平滑滤波(Savitzky-Golay, S-G)和标准正态变换(standard normal variate, SNV)方法对光谱进行预处理,选择主成分分析比较光谱预处理效果后,再结合蚱蜢算法优化支持向量机(grasshopper optimization algorithm-support vector machine, GOA-SVM)和误差反向传播神经网络(back-propagation artificial neural network, BP-ANN)为浓香型白酒品牌鉴别以及酒度鉴定提供理论依据。

1 材料与方法

1.1 试验材料

试验选择由泸州老窖公司提供的不同酒度浓香型酒样以及市场购买的不同品牌浓香型酒样,样品信息如表1所示。

表1 浓香型白酒样品
Table 1 The detail of the strong-flavor Baijiu samples

品牌酒度/(% vol)样品数量年份泸州老窖(LZLJ)38302020451020205230202073302020五粮液(WLY)52102021丰谷(FG)52102020

1.2 仪器与设备

IR Spirit傅里叶变换衰减全反射中红外光谱仪,日本岛津公司。

1.3 试验方法

1.3.1 中红外光谱采集

本次试验在(20±2)℃下进行,提前0.5 h打开仪器进行预热后,设置中红外仪器参数:测定模式:透过率;扫描次数32;分辨率8 cm-1;波数范围4 000~400 cm-1。将酒样置于ATR附件上,以空气作为参比,扣除大气背景影响。为了减少因试验操作而导致的误差,要保证环境的干燥,每测试完1个酒样,要擦拭干净。酒样经平行测定3次后,取3次光谱的平均值作为酒样的最终光谱数据,每条原始光谱记录了1 263个透过率值。

1.3.2 光谱预处理

采集的原始光谱数据包含由其他因素所产生的各种干扰信号,在创建定性定量模型之前,进行光谱预处理能够消除无关信息的干扰并提取物质的有效信息,对后续建立模型的精度具有重大影响。S-G是通过多次测量光谱信息数据求平均值来减低随机误差和提高信噪比的方法,SNV方法被用于消除因样品粒径大小分布不均匀所导致的光谱差异[8]。本次试验将平滑的窗口大小设置为21,分别基于S-G与SNV方法对光谱进行预处理,并根据不同样品选择其最适光谱预处理方法后再进一步进行判别分析。

1.3.3 样本集的划分

采用Kennard-Stone方法根据不同样品间的欧氏距离将建模酒样按7∶3划分为训练集和测试集,在构建BP-ANN的模型过程中,测试集还将被划分为验证集,占总样本数的15%。

1.3.4 主成分分析

主成分分析作为化学计量学中分析中红外光谱数据的常见方法之一,其核心思想是利用方差最大原则,对光谱数据多个自变量进行线性拟合,将高维的数据映射到低维的空间中,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,但同时保留较多的原数据点的特性[9]。经主成分分析后得到各成分的累积贡献率,在此基础上,绘制基于前3个主成分的各类型酒样聚类图。

1.3.5 GOA-SVM

GOA是一种新型的元启发式算法,由SAREMI等[10]于2017年提出,该算法具有很强的全局搜寻能力和局部探寻能力,拥有算法简单、利于实现和配制参数少等优点[11]。支持向量机能很好的预防欠学习与过学习的发生,在解决实际问题中属于较好的化学计量学方法之一,台湾大学林智仁等开发了支持向量机的训练与预测工具箱——LIBSVM 3.24,此处基于该工具箱进行判别分析。

在本次研究中,分别将LZLJ 38%vol、45%vol、52%vol、73%vol的酒样标签设置为“1”“2”“3”“4”,以便于后续判别分析模型的建立,创建模型的流程如图1所示。

图1 构建GOA-SVM判别分析模型流程图
Fig.1 Flow chart of establishing GOA-SVM discriminant analysis model

采用GOA算法进行支持向量机参数寻优后,构建GOA-SVM模型,设置其最大迭代次数为100,种群大小为20,c的优化范围为10-5~103g的优化范围为10-5~103,交叉验证折数为5,选择径向基核函数。使用MATLAB R2018b中Mapminmax函数对光谱数据进行归一化,将数据范围映射至[0,1]。

1.3.6 误差反向传播人工神经网络

构建BP-ANN模型时,传递函数使用purelin,训练次数设置为1 000次,学习速率设置为0.01,动量因子设置为0.01,最小性能梯度设置为1e-6,最高失败次数设置为6,使用MATLAB R2018b中Mapminmax函数对光谱数据进行归一化处理,将数据范围映射至[-1,1]。

如图2所示,在本研究中BP-ANN的结构包含1 263个输入,3个输出,10个隐含层。不同品牌酒样的透过率值所形成的1 263×50的数据矩阵作为BP-ANN的输入层神经元,将“1”,“2”和“3”分别设置为“LZLJ 52%vol”“FG 52%vol”和“WLY 52%vol”的标签后作为BP-ANN的输出层神经元。

图2 BP-ANN模型结构示意图
Fig.2 Schematic diagram of the structure of the BP-ANN model

1.4 数据处理

使用MATLAB R2018b软件自编的S-G和SNV方法对光谱数据进行预处理后,再构建GOA-SVM与BP-ANN模型进行判别分析,Origin 2021进行主成分分析并绘制聚类图。

2 结果与分析

2.1 原始光谱分析

由于各酒样中水分以及微量有机成分的不同,造成中红外光谱存在一定的差异,这为白酒的分类鉴别提供了良好的数学基础。为进一步解析不同类型酒样的原始光谱特征,分别对各类酒样的光谱数据进行平均,得到6条不同类型浓香型白酒的平均光谱,如图3所示。2 981、1 654、1 046 cm-1等附近有特征峰,不同酒样特征峰的透过率值大小存在明显差异,可对部分酒样进行区分,但在诸如2 000~1 200 cm-1等波数范围之间,还是很难通过光谱图对不同酒样进行分类。与此同时,原始光谱中存在较为明显的谱峰堆叠等现象,需对光谱做进一步处理。

图3 平均后光谱
Fig.3 Spectrum after averaging

2.2 光谱预处理

由图4可知,经S-G处理后的光谱在4 000~3 600 cm-1和2 400~1 200 cm-1等波数范围间较原始光谱得到了良好的区分,且经S-G处理后的全光谱差异性较SNV更为明显,二者的高频噪声和谱峰堆叠等现象都得到改善。直接用肉眼观察光谱预处理的效果虽具有一定的合理性,但却带有人为主观的因素,可能导致错误地评判光谱预处理效果,于是需要结合化学计量学对预处理的好坏做进一步分析比对[12]

a-S-G处理后光谱;b-SNV处理后光谱
图4 光谱预处理效果
Fig.4 Spectral preprocessing effect

2.3 基于光谱预处理的主成分分析

如图5所示,绘制不同酒度以及不同品牌酒样基于前3个主成分的三维聚类得分图,可以看出不同类型浓香型白酒的聚类效果都较好。不同光谱预处理下PC1、PC2和PC3的累积贡献率分别达到了98.3%、97.9%、99.7%和96.1%,这说明前3个主成分能很好地反映整体数据集的有效信息。

由图5-a可知,经S-G处理后,仅有LZLJ 45%vol与LZLJ 52%vol可实现100%区分,其余2类酒样有部分重叠。由图5-b可知,经SNV处理后,LZLJ 45%vol与LZLJ 73%vol可实现100%区分,其余2类酒样的95%置信椭圆几乎完全重叠,区分效果很差。因此,针对不同酒度酒样的光谱数据,S-G预处理效果更好。由图5-c和图5-d可知,SNV较S-G处理更好,WLY 52%vol得到区分。鉴于主成分分析不能完全区分不同酒度以及不同品牌浓香型白酒,故在选择最适光谱预处理方法的基础上,需进一步选择其他化学计量学手段来建立识别不同酒度和不同品牌浓香型白酒的新方法。

a-不同酒度S-G处理后;b-不同酒度SNV处理后;c-不同品牌S-G处理后;d-不同品牌SNV处理后
图5 基于光谱预处理的主成分分析
Fig.5 Principal component analysis based on spectral preprocessing

2.4 基于GOA-SVM的不同酒度浓香型白酒分类

使用GOA智能优化算法,基于训练集数据矩阵进行支持向量机参数寻优。如图6所示,GOA优化算法的收敛速度很快,在c=1 000,g=1e-05时,5折检验下训练集的辨别正确率为100%。

图6 寻优过程曲线
Fig.6 Optimization process curve

因此,基于径向基核函数,构建c=1 000,g=1e-05的SVM模型后,对4种酒度浓香型白酒的30组测试集数据进行分类。图7表明,以S-G处理后的全光谱数据作为输入特征构建的GOA-SVM模型,对4种不同酒度浓香型白酒的识别效果极好,测试集分类的正确率可达100%。

图7 基于GOA-SVM的不同酒度浓香型白酒分类结果
Fig.7 Classification results of strong-flavor Baijiu with different alcoholic strength based on GOA-SVM

2.5 基于BP-ANN的不同品牌浓香型白酒分类

BP-ANN通过拟合不同品牌酒样与透过率值间的数据来建立判别分析模型,其拟合回归系数R值表示输入特征与输出类型之间的相关性[13]。在BP-ANN模型的建立过程中,所有酒样的70%作为训练集,15%作为验证集,15%作为测试集。图8所示的回归分析展示了输出类型与实际类型的拟合程度, BP-ANN模型的训练集、验证集、测试集和总体数据集的R值分别为0.999 78、0.999 43、0.994 82和0.999,这表明训练好的模型具有极佳的预测能力。

图8 BP神经网络模型回归曲线
Fig.8 Regression curve of BP neural network model

由图9可知,训练后的BP-ANN模型对测试集酒样的分类效果很好,预测值与实际期望值高度吻合,3类品牌白酒的分类正确率达100%。

图9 基于BP-ANN的不同品牌浓香型白酒分类结果
Fig.9 Classification results of different brands of strong-flavor Baijiu based on BP-ANN

3 结论与讨论

在中红外光谱分析研究中,光谱预处理方式和建模方法的选择是提高模型预测精确度的关键,实际处理光谱数据时,还可运用智能算法提取最适光谱特征来不断优化与改善预测模型[14]。本文基于中红外光谱结合化学计量学对不同类型浓香型白酒进行判别分析,采用S-G平滑与SNV对光谱进行预处理后,再基于主成分分析比较光谱预处理效果。试验结果表明,S-G处理后的光谱数据经主成分分析对不同酒度酒样区分较好,SNV处理则对不同品牌酒样区分更好。

在构建模型前,按Kennard-Stone算法将优化后的光谱数据划分为训练集和测试集后,建立GOA-SVM和BP-ANN分类器。在实际使用过程中,支持向量机通常会联合智能优化算法,对自身在参数、核函数选择以及使用条件上进行寻优,以提升分类能力,降低误差[15]。试验结果表明,基于S-G处理后的全光谱数据结合GOA寻优算法建立的SVM分类器对不同酒度浓香型白酒的判别正确率为100%。

BP-ANN是一种简单的前向分层神经网络,其通过逆向传播来更正网络中的权值和阈值,具有极强的自主学习能力。基于BP-ANN的3层网络原理设计的非线性分类器原理简单,实现方便,通过测定酒样所得光谱数据对浓香型白酒进行分类属于典型的非线性问题,BP-ANN对其有很好的预测分类能力。但BP-ANN中也存在收敛速度过慢,易陷于局部极小和隐含层节点数不确定等瑕玷,为克服BP-ANN中的缺陷,在实际应用中也可使用一些优化算法对BP-ANN中的学习速率,动量因子和隐含层节点数进行优化,以加快收敛速度,具体优化算法视样本而定。在本研究中,试验结果表明基于SNV处理后光谱结合BP-ANN分类器可以很好地区分3种不同品牌浓香型白酒,辨别正确率为100%。

本试验虽只选取了部分不同酒度、品牌浓香型白酒进行建模分析,但相关试验结果仍表明中红外光谱技术结合化学计量学对不同酒度、品牌浓香型白酒的分类鉴别是可行的。在“中国制造2025”、工业“4.0”等大背景下,涉及白酒的质量控制、产地溯源、市场监管和售后管理等都将走向信息化和智能化,然而当前许多企业仍习惯采用传统的检测方法,导致相关便携式设备的开发尚未得到足够重视。因此,在今后研究中可基于更大的样本量,着重开发精确度较高的便携式中红外光谱检测仪并结合化学计量学手段为白酒的产地溯源、酒度鉴定和品牌区分等提供数字化方案。

参考文献

[1] 毛洪川. 整粒高粱酿造浓香型白酒的工艺开发及应用研究[D].绵阳:西南科技大学, 2017.

MAO H C.Development and application of a new technology of Luzhou flavour liquor using intact sorghum as raw material[D].Mianyang:Southwest University of Science and Technology, 2017.

[2] 胡耀强, 郭敏, 叶秀深, 等.近红外光谱法间接测定白酒酒精度[J].光谱学与光谱分析, 2022, 42(2):410-414.

HU Y Q, GUO M, YE X S, et al.Indirect determination of liquor alcohol content based on near-infrared spectrophotometry[J].Spectroscopy and Spectral Analysis, 2022, 42(2):410-414.

[3] 刘建学, 杨国迪, 韩四海, 等.白酒基酒中典型醇的近红外预测模型构建[J].食品科学, 2018, 39(2):281-286.

LIU J X, YANG G D, HAN S H, et al.Prediction model for typical alcohols in base liquor based on near infrared spectroscopy[J].Food Science, 2018, 39(2):281-286.

[4] YANG B, YAO L J, PAN T.Near-infrared spectroscopy combined with partial least squares discriminant analysis applied to identification of liquor brands[J].Engineering, 2017, 9(2):181-189.

[5] 周军, 杨洋, 姚瑶, 等.中红外光谱技术在浓香型白酒原酒关键指标分析中的应用[J].光谱学与光谱分析, 2022, 42(3):764-768.

ZHOU J, YANG Y, YAO Y, et al.Application of mid-infrared spectroscopy in the analysis of key indexes of strong flavour Chinese spirits base liquor[J].Spectroscopy and Spectral Analysis, 2022, 42(3):764-768.

[6] XIAO S J, WANG Q H, LI C F, et al.Rapid identification of A1 and A2 milk based on the combination of mid-infrared spectroscopy and chemometrics[J].Food Control, 2022, 134:108659.

[7] PEI Y F, ZUO Z T, ZHANG Q Z, et al.Data fusion of Fourier transform mid-infrared (MIR) and near-infrared (NIR) spectroscopies to identify geographical origin of wild Paris polyphylla var.yunnanensis[J].Molecules (Basel, Switzerland), 2019, 24(14):2559.

[8] 第五鹏瑶. 光谱预处理方法及其集成研究[D].天津:天津工业大学,2019.

DIWU P Y.Spectral preprocessing method and its integration research[D].Tianjin:Tianjin Polytechnic University, 2019.

[9] 田琼, 马新华, 袁俊杰, 等.基于主成分分析和人工神经网络的近红外光谱大豆产地识别[J].食品工业科技, 2021, 42(9):270-274.

TIAN Q, MA X H, YUAN J J, et al.Soybean origin identification based by near-infrared spectrum based on principal component analysis and artificial neural network model[J].Science and Technology of Food Industry, 2021, 42(9):270-274.

[10] SAREMI S, MIRJALILI S, LEWIS A.Grasshopper optimisation algorithm:Theory and application[J].Advances in Engineering Software, 2017, 105:30-47.

[11] 吕赵明, 张颖江.基于改进GOA-SVM算法的异常流量识别[J].湖南科技大学学报(自然科学版), 2019, 34(4):90-96.

LV Z M, ZHANG Y J.Abnormal traffic identification based on improved GOA-SVM algorithm[J].Journal of Hunan University of Science & Technology (Natural Science Edition), 2019, 34(4):90-96.

[12] BLAZHKO U, SHAPAVAL V, KOVALEV V, et al.Comparison of augmentation and pre-processing for deep learning and chemometric classification of infrared spectra[J].Chemometrics and Intelligent Laboratory Systems, 2021, 215:104367.

[13] ABDULLAH S, PRADHAN R C, PRADHAN D, et al.Modeling and optimization of pectinase-assisted low-temperature extraction of cashew apple juice using artificial neural network coupled with genetic algorithm[J].Food Chemistry, 2021, 339:127862.

[14] MA Q X, TENG Y, LI C, et al.Simultaneous quantitative determination of low-concentration ternary pesticide mixtures in wheat flour based on terahertz spectroscopy and BPNN[J].Food Chemistry, 2022, 377:132030.

[15] GU P, FENG Y Z, ZHU L, et al.Unified classification of bacterial colonies on different agar media based on hyperspectral imaging and machine learning[J].Molecules (Basel, Switzerland), 2020, 25(8):1797.

Classification of strong-flavor Baijiu based on chemometrics and mid-infrared spectroscopy

ZHOU Rui1, CHEN Xiaoming1*, ZHANG Lili1, ZHANG Liang2, XU Defu2, ZHANG Suyi2, DAI Xiaoxue2, MAO Hongchuan2, XIE Fei3, DAI Hancong2, SONG Yan2, GUO Jia2, CHEN Wenyue2

1(School of Life Science and Engineering, Southwest University of Science and Technology, Mianyang 621000, China) 2(Luzhou Laojiao Co.Ltd., Luzhou 646000, China)3(Sichuan Mianyang Fenggu Wine Industry Co.Ltd., Mianyang 621000, China)

ABSTRACT In order to explore the non-destructive, rapid and accurate method of distinguishing different types of strong-flavor Baijiu, different alcoholic strength and different brands of strong-flavor Baijiu were selected as the research object in this study. Using the Fourier transform mid-infrared spectrometer to collect the original spectra of 120 Baijiu samples, combining the smoothing filtering and the standard normal variate method to preprocess the original spectra respectively, and the principal component analysis was used to compare the spectral preprocessing effects. The spectral data were divided into training set and test set according to the Kennard-Stone method with a ratio of 7∶3. After the data normalized, the grasshopper algorithm was used to optimize the support vector machine and the error back-propagation artificial neural network for modeling and analysis. The test results showed that spectral preprocessing combined with principal component analysis cannot distinguish strong-flavor Baijiu with different alcoholic strength and brands, but the clustering distinction of Baijiu samples with different alcoholic strength after smoothing filtering treatment was better, and the clustering distinction of different brands of Baijiu samples after standard normal variate processing was better, both of them can effectively reduce the noise of mid-infrared spectrum and improve the recognition accuracy. When the discriminant analysis was performed based on the grasshopper algorithm was used to optimize the support vector machine and the error back-propagation artificial neural network models, the classification accuracy of Baijiu samples in both the training set and the test set was 100%. In summary, the method of mid-infrared spectroscopy combined with chemometrics can identify strong-flavor Baijiu with different alcoholic strength and brands quickly and accurately, and can provide digital solutions for Baijiu aroma differentiation, origin traceability, market supervision and after-sales management.

Key words chemometrics; mid-infrared spectroscopy; strong-flavor Baijiu; classification; support vector machines; neural networks

DOI:10.13995/j.cnki.11-1802/ts.031674

引用格式:周瑞,陈晓明,张莉丽,等.化学计量学结合中红外光谱的浓香型白酒分类研究[J].食品与发酵工业,2023,49(5):88-93.ZHOU Rui, CHEN Xiaoming, ZHANG Lili, et al.Classification of strong-flavor Baijiu based on chemometrics and mid-infrared spectroscopy[J].Food and Fermentation Industries,2023,49(5):88-93.

第一作者:硕士研究生(陈晓明教授为通信作者,E-mail:cxmxkd@163.com)

基金项目:四川省重大科技专项(2019ZDZX0003)

收稿日期:2022-03-23,改回日期:2022-06-20