基于紫外-近红外融合光谱对“互助”青稞酒判别分析研究

中国白酒是世界六大蒸馏酒之一,也是中国最传统、最受欢迎的酒精饮料之一,其生产已有5 000多年的历史[1]。白酒种类繁多、成分复杂,加之缺乏合适的快速分析鉴别方法,致使各种勾兑、掺假白酒现象频频发生,因此迫切需要快速的白酒鉴别技术。但是常用的传统分析技术如色谱-质谱联用、电化学等方法需要样品前处理,耗费大量溶剂、耗时耗力,不利市场检测推广。随着分析检测技术的不断发展,白酒的检测方法不再局限于传统的分析方法,而光谱技术如紫外(ultraviolet spectrum,UV)-可见光谱[2]、近红外光谱(near infrared spectrum,NIR)[4]、中红外光谱[5]等,因其检测方法具有非破坏性、耗时短、且效率高的优点,能够满足生产实践中大批量检测的需求。其中,紫外可见光谱仪器属于常用光谱设备,仪器便携廉价、测试简单快速,基于这一设备的白酒品牌判别方法开发较易于推广使用,因而具有较高的现场测试的应用价值,可以满足现场执法的需求[6]。近年来,紫外光谱在白酒品牌快速鉴别中已有应用。紫外光谱法结合化学计量学方法曾用于龙舌兰酒的鉴别[7]、红酒中单宁的定量分析[8]以及日本泡盛酒的质量控制[9]等方面。近红外光谱分析由于其操作简单、快速及分析过程无损无污染的特点,在复杂样品分析中显示出了巨大的发展潜力[10],目前已在农业[11]、食品[12]、医药[13]等许多领域得到了成功应用。

白酒属于典型的复杂样品,单一光谱不可避免受无关信息干扰,建立的判别分析模型应用不广泛,如果探寻一种光谱融合的建模方法,通过融合光谱中的有效信息,多层面、多级的处理,会极大提高模型的判别能力。近年来,光谱数据融合技术用于样品定性定量分析研究效果十分可观,唐逸芸等[14]通过提取茶油的NIR和拉曼光谱特征光谱波段,并应用低级、中级策略融合多光谱信息建立定性分析模型,结果表明光谱融合可提升茶油掺伪定性鉴别的准确率;何苗[15]建立基于UV、NIR、三维荧光以及四维荧光光谱数据不同的组合方式的五粮液系列酒定性识别模型,结果表明通过UV+NIR+四维荧光光谱数据的中级融合策略建模可以获得最佳的模型性能;因此通过光谱融合技术构建的模型精度更高、预测分析能力更强。实际上,白酒在紫外光区210 nm和273 nm附近有强吸收峰,其中210 nm附近的吸收峰主要是非键轨道至反键轨道之间的n-σ*跃迁所致,如含N、O、S等杂原子的饱和烃衍生物,273 nm附近的吸收峰则主要是不饱和有机分子的外层电子的π-π*跃迁所致,如芳香类以及糖醛分子等;NIR信息主要反映有机物分子中C—H、N—H、O—H、S—H等含氢基团的倍频与合频吸收,这些含氢基团吸收频率特征性强,受分子内外环境的影响小[16],NIR可作为检测白酒中醇、酸、酯等关键指标的一种理想方法。因而UV和NIR的联合可形成信息互补,有利于白酒中相关组分信息的提取和解释,可实现白酒质量分析。但目前UV-NIR融合光谱应用的报道少见。

青稞酒以生长在约4 000 m高海拔地区的青稞为原料酿造而成,在酿酒环境、原料、用水、工艺、风格等方面与其他白酒有明显不同[17]。“互助”牌青稞酒,是“中华人民共和国原产地保护地理标志产品”,“互助”牌商标是“中国驰名商标”。2003年4月,由中国白酒泰斗秦含章先生提出“互助”牌青稞酒单独成立香型的建议,经中国酿酒协会组织专家综合评定,“互助”青稞酒以“青稞清香型”列为中国清香型白酒的分支香型,认定为“中国白酒清香型(青稞原料)代表”,酒体具有清雅纯正、醇厚丰满、香味协调、回味怡畅的独特风格特点[18]。为进一步提高品牌的国内和国际竞争力,发展地方经济支柱产业,对“互助”青稞酒进行判别分析的研究是行业需要解决的科学问题,也是产业发展需要解决的技术问题。本研究以“互助”青稞酒为研究对象,采集“互助”青稞酒、其他品牌青稞酒和非青稞白酒的UV和NIR数据。比较4种预处理方法、5种变量筛选方法对紫外、近红外及紫外-近红外低级、中级数据融合光谱构建偏最小二乘判别分析(partial least squares-discriminant analysis,PLS-DA)预测模型能力,得到最佳的判别分析模型,为保护地理标志产品“互助”青稞酒、促进白酒质量安全监管方面提供理论和技术支撑。

1 材料与方法

1.1 材料与试剂

白酒样品:共113个样品,其中“互助”牌青稞酒共43种,青海青稞酒股份有限公司专营店;其他品牌青稞酒53种、非青稞原料白酒17种,西宁市各大商场;甲醇,色谱纯,赛默飞世尔科技(中国)有限公司;无水乙醇,分析纯,中国医药集团有限公司。

1.2 仪器与设备

Lambda系列紫外/可见分光光度计,美国PerkinElmer公司;Antaris Ⅱ 近红外光谱仪,Thermo Fisher Scientific公司。

1.3 实验方法

本研究方法如图1,先分别测定白酒样品的UV和NIR光谱数据,考察不同的预处理方法对判别结果的影响,后考察单一光谱、低级融合光谱、中级融合光谱的判别能力,最后得到最佳处理方法。其中,低级融合光谱是将原始、经过预处理UV、NIR光谱矩阵首尾相接组成一个新的数据矩阵,下文中以LF表示;中级数据融合光谱将原始、预处理UV、NIR光谱通过变量筛选方法提取特征变量,将多个特征变量数据矩阵串联得到一个新的数据矩阵,有效利用不同来源的互补信息,下文中以MF表示。

1.3.1 光谱数据采集

取适量样品于1 cm石英比色皿中,以无水乙醇为参比,用紫外光谱仪在200～400 nm波长范围内以1 nm间隔扫描光谱,每个样品扫描3次,取平均光谱即得样品UV光谱,每个样品光谱含201个波长变量;采用近红外光谱仪透射模式在835～2 630 nm波长扫描样品光谱,扫描次数为32次,分辨率为0.38 nm,每个样品重复测量3次,取平均光谱即得样品NIR光谱,每个样品含2 206个波长变量。利用采集的UV、NIR光谱,分别考察单一光谱、低级数据融合光谱及中级数据融合光谱建立PLS-DA模型对样本的判别效果。

1.3.2 样本集划分

为了建立稳定有效的分析模型,选择具有代表性的样本是建模的基本要求。Kennard-stone(K-S)[19]采样方法是一种常用且有效的样本集划分方法,根据不同样品间的马氏距离进行建模样品划分。最终,将上述113个样品应用K-S方法以7∶3的比例划分训练集和测试集,其中训练集含79个样本,测试集含34个样本。

1.3.3 光谱预处理

采用一阶导1D、2D、SNV、S-G等方法对光谱进行预处理,并比较不同方法预处理后所得光谱数据的建模效果。上述预处理方法中,导数算法可以消除样品背景干扰、区分重叠峰、提高灵敏度;SNV可以消除固体颗粒大小、表面散射以及光程变化对光谱的影响;S-G能够平滑噪声数据并消除具有大障碍的数据点[20-21]。

1.3.4 特征变量筛选

对于光谱数据,研究者提出了许多特征选择方法。本研究主要采用文献中应用相对比较广泛的5种方法。

CARS是许多文献中通常用于选择特征变量的有效方法,CARS按照“适者生存”的原则来选择变量[22]。CARS根据每个变量的重要性级别,以迭代和竞争的方式从N个蒙特卡洛采样运行中顺序选择N个波长子集[23]。在每次采样过程中,每组波长变量将通过自己的权重相互竞争,权重大的组将被保留,其余的将被删除。

SPA在向量空间中采用简单的投影运算来获取共线性较小的变量子集[24],在SPA中,变量的选择以组合优化问题的形式进行,其约束是根据一系列投影操作形成的。SPA选择变量的原则是,新选择的变量是所有剩余变量中在前一个选择的变量的正交子空间上投影值最大的一个,以最小化冗余。

PCA在化学计量学中具有举足轻重的地位,由HOTELLING于1933年提出[25],PCA将原变量按照方差最大原则进行转换,用少数几个主成分表达原变量的数据特征而不丢失信息。另外PCA在分解时能够得到载荷矩阵,其载荷即为该变量表达信息的权重值,权重值越大,代表该变量在光谱信息中越重要[26]。因此主成分载荷可用于变量筛选。

VIP分析通过计算每个波长的VIP系数,并对各波长按其VIP系数值降序排序后,再按一定规则进行逐步波长筛选。所有波长的VIP值平方的平均值等于1,因此有学者提出以“VIP值是否大于1”来作为波长重要性的评价标准,筛选出特征波长[27]。

VCPA算法通过对变量的随机组合,考虑各变量之间可能的相互作用[28]。在波长变量选择过程中,利用指数递减函数(exponential decreasing function,EDF)来选择有用的变量,并去除一些对样本判别贡献较小的变量,可以快速缩小变量空间。二进制矩阵采样(binary matrix sampling,BMS)是一种变量随机采样方法,通过分析随机组合中变量之间的相互作用,从变量空间中选择变量。此外,利用模型集群分析(model population analysis,MPA)策略来寻找基于交叉验证均方差(root mean square error of cross validation,RMSECV)值的最佳变量子集[28],从BMS获得的大量子模型中,MPA用于迭代优化变量空间,通过选择“最佳”模型中出现的高频变量(最低RMSECV)来选择最优变量组合,经过N次运行后,选择一个最优变量子集。

1.3.5 模型建立与评价

受试者工作特征(receiver operating characteristic,ROC)曲线下面积(area under the curve,AUC)反映了模型判别预测能力高低,当AUC值越接近1时,判别模型预测效果越好。灵敏度、特异度、准确度指标也是判断模型预测能力的指标,均为0～1,模型4个指标值越高时,代表模型预测效果越好。这4个指标值,AUC值更具模型判别能力代表性,因此模型判别能力判断的关键指标是AUC值。

2 结果与分析

2.1 光谱预处理方法的选择

图2和图3分别为113种白酒的UV、NIR经S-G预处理光谱,由图2可知,在UV光谱区域,200～220 nm、260～280 nm出现明显的吸收峰,分别为羧基和糠醛吸收峰,UV光谱通过预处理后在一定程度上消除毛刺峰现象。由图3可知,白酒NIR光谱高度重叠,难以区分目标组分的光谱信息,因此必须借助化学计量学手段进行判别分析。白酒中含有大量的水和醇,以及微量的风味物质酯、酸、醛,在2 350、2 306、2 270 nm左右是—CH3、—CH2、—CH的合频吸收,其中水的合频吸收峰在2 270 nm左右;2 069 nm左右是—OH的合频吸收区域;1 936 nm左右是RCOOH、RCOOR的特征吸收区域;1 460 nm左右是ROH、H2O、—CH3、—CH2、CH的一倍频吸收区域。

为考察UV、NIR和LF在4种预处理方法下对PLS-DA模型的预测效果影响,将原始光谱与预处理光谱PLS-DA模型的测试集AUC值进行对比分析。由对比较结果(表1)可得,基于LF的PLS-DA判别模型对“互助”青稞酒样本的判别取得了良好的预测结果,其原始光谱和4种预处理光谱判别模型AUC值均在0.9以上,其中,LF结合2D预测效果最佳。另外UV、NIR光谱分别结合1D和S-G预处理方法时达到良好的预测能力。

因此,1D、S-G、2D可分别作为UV、NIR和LF建立PLS-DA模型的最佳预处理方法。SNV对分析结果并无改善作用,主要是因为测定样品吸收光谱时,几乎不存在固体颗粒的影响,测量光谱也没有变化。

2.2 特征变量筛选

变量数过多则在建模时容易造成维数灾难,而增加预测模型复杂度,变量数过少则容易丢失判别分类的关键信息,因此选择合适的特征变量筛选方法至关重要。本研究采用CARS、SPA、PCA、VIP和VCPA 5种特征筛选方法对PLS-DA预测模型进一步优化,从而得到最适合目标对象建立判别模型的特征变量筛选方法。

如上所述,对UV、NIR和UV-NIR光谱分别用1D、S-G、2D三种方法预处理后,考察不同特征变量筛选方法。表2为UV、NIR和MF的原始和预处理光谱经不同特征变量筛选方法选择得到的特征变量数,其中VCPA方法在UV、NIR和MF光谱选择的特征变量数最少,而CARS方法在UV、NIR和MF光谱中选择的变量数最多,说明VCPA能选择更少的重要变量,比CARS在精简模型复杂性方面更具优势。图4标出了对UV、NIR光谱分别用CARS、SPA、PCA、VCPA、VIP进行处理后筛选出的特征波长变量,发现UV光谱中选择的变量集中在200～220 nm、260～280 nm 2个强吸收波长范围内,其中273 nm吸收峰是糠醛的吸收峰,此吸收峰是白酒组成成分中不饱和分子的外层电子在π-π*轨道的吸收峰,200～220 nm吸收峰是羧基吸收峰。在NIR光谱区域,筛选的特征波长集中在800～1 200 nm、1 400～1 500 nm以及1 860～1 894 nm范围内。实际上NIR区域1 950 nm附近和2 300 nm附近分别是水和乙醇的特征吸收区域,这2个组分是白酒的主要成分,但在特征筛选过程中并没有选中上述区域,而是避开了上述强吸收区域,从而消除了强吸收的干扰。另一方面,上述结果表明白酒分类起关键作用的并非其主要成分水和乙醇,而醛、酸、酯等微量有机物的组成及其含量是保持白酒质量稳定及区别于其他白酒的关键因素。

表3是基于最佳预处理光谱结合各变量筛选方法的PLS-DA判别模型AUC值,由表3可知,单一光谱和LF全光谱建模,PLS-DA模型的AUC值低于经过变量筛选后模型的AUC值,说明全光谱数据建模,由于模型受到很多无关信息变量的干扰,而使模型的预测能力变低。利用LF数据建立的模型AUC值比MF数据的AUC值低,说明通过变量筛选的中级光谱融合技术在PLS-DA判别模型中预测能力比低级融合光谱更好。

UV-1D光谱经过CARS和SPA变量筛选后AUC值都为0.961 5,当评价模型预测能力指标值相同时,依据精简模型的原则,所选特征变量数少的方法作为最佳变量筛选方法,由表2可知,SPA特征变量数为30,少于CARS特征变量数38,因此SPA作为UV-1D最佳变量筛选方法。NIR-S-G光谱通过VCPA方法选择特征变量建立的模型AUC值最高,因此VCPA作为NIR-S-G光谱最佳变量筛选方法。经2D方法预处理光谱通过SPA方法选择特征变量建立的模型AUC值最高,因此SPA作为MF-2D最佳变量筛选方法。另外,除CARS方法外,其余变量筛选方法得到的MF-2D光谱建立PLS-DA模型的预测能力均高于UV-1D与NIR-S-G光谱,说明MF优于单一光谱建立判别模型的预测能力。

2.3 基于最佳模型优化组合方法的PLS-DA模型性能比较

对UV、NIR和MF分别用最佳方法处理后建模,结果见图5。建模后,三类光谱数据的准确度都为1,AUC值也相差不明显;NIR-S-G-VCPA模型得到的特异性为1,MF-2D-SPA模型的结果稍差,为0.827 6。通过分类图考察模型分类能力,图6和图7分别是UV-1D-SPA和NIR-S-G-VCPA优化方法的PLS-DA模型分类图,发现三类样本混杂,没有明显的分类界面。其中UV-1D-SPA模型分类效果稍好于NIR-S-G-VCPA模型分类效果。图8是MF-2D-SPA模型分类图,该模型分类效果良好,“互助”牌青稞酒样本与非青稞酒样本在分类界面两侧,达到很好的分类效果,另外,非互助牌青稞酒样本在分类界面上,聚类趋势一致,只有2个“互助”牌青稞酒与之混杂,原因可能是这2个“互助”牌青稞酒光谱信息与其他品牌青稞酒光谱信息相似导致。总体来讲,MF-2D-SPA的PLS-DA模型分类预测能力优于单光谱模型,表明中级融合光谱能更有效地识别不同的样本类别。

表4是MF-2D-SPA建立PLS-DA模型训练集和测试集分类指标值,由MF-2D-SPA优化模型方法建立的PLS-DA模型指标分析可得,该优化模型方法的校正集和测试集的性能均达到PLS-DA模型良好分类的效果。

3 结论与讨论

随着光谱技术的不断发展,白酒质量安全检测中使用光谱技术已成为一种趋势,目前紫外光谱、近红外光谱技术广泛应用于白酒生产领域。本文以“互助”牌青稞酒为研究对象,分析比较了紫外光谱、近红外光谱和紫外-近红外低级、中级数据融合光谱的PLS-DA分类模型效果,发现紫外-近红外中级数据融合光谱的PLS-DA判别模型AUC值比单一光谱、低级数据融合光谱AUC值高,说明中级数据融合光谱结合化学计量学方法能够更好的实现快速、无损判别“互助”牌青稞酒的目的。

[1] BAI A J, LIU S W, CHEN A, et al.Residue changes and processing factors of eighteen field-applied pesticides during the production of Chinese Baijiu from rice[J].Food Chemistry, 2021, 359:129983.

[2] ZHENG Q, WANG Z H, XIONG A Y, et al.Elucidating oxidation-based flavour formation mechanism in the aging process of Chinese distilled spirits by electrochemistry and UPLC-Q-Orbitrap-MS/MS[J].Food Chemistry, 2021, 355(Suppl C):129596.

[3] 武新燕. 紫外-可见光谱结合化学计量学对食用调和油定量研究[D].天津:天津工业大学, 2021.WU X Y.Quantitative study of edible blended oils by ultraviolet-visible spectroscopy combined with chemometrics[D].Tianjin:Tianjin University of Technology, 2021.

[4] 胡子康, 刘庭恺, 饶艳敏, 等.近红外光谱结合化学计量学的掺伪杜仲判别[J].化学试剂, 2023, 45(10):1-7.HU Z K, LIU T K, RAO Y M, et al.Near infrared spectroscopy combined with chemometric for identification of adulterated eucommiae cortex[J].Chemical Reagents, 2023, 45(10):1-7.

[5] 冯海智, 李龙, 王冬, 等.中红外及近红外光谱在小杂粮品质检测中的应用进展[J].光谱学与光谱分析, 2023, 43(1):16-24.FENG H Z, LI L, WANG D, et al.Progress of the application of MIR and NIR spectroscopies in quality testing of minor coarse cereals[J].Spectroscopy and Spectral Analysis, 2023, 43(1):16-24.

[6] 张正勇, 宋超, 沙敏, 等.紫外可见光谱结合化学计量学方法用以古井贡酒年份快速鉴别[J].酿酒科技, 2016(11):20-23.ZHANG Z Y, SONG C, SHA M, et al.Rapid identification of the age of Gujing Gongjiu liquor by ultraviolet visible spectroscopy coupled with chemometric methods[J].Liquor-Making Science &Technology, 2016(11):20-23.

[7] BARBOSA-GARC width=5,height=11,dpi=110

A O, RAMOS-ORT width=5,height=11,dpi=110

Z G, MALDONADO J L, et al.UV-vis absorption spectroscopy and multivariate analysis as a method to discriminate tequila[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy, 2007, 66(1):129-134.

[8] ALEIXANDRE-TUDO J L, NIEUWOUDT H, ALEIXANDRE J L, et al.Robust ultraviolet-visible (UV-vis) partial least-squares (PLS) models for tannin quantification in red wine[J].Journal of Agricultural and Food Chemistry, 2015, 63(4):1088-1098.

[9] LI X Y, TSUTA M, TANAKA F, et al.Assessment of Japanese awamori spirits using UV-VIS spectroscopy[J].Food Analytical Methods, 2020, 13(3):726-734.

[10] OZAKI Y.Infrared spectroscopy-mid-infrared, near-infrared, and far-infrared/terahertz spectroscopy[J].Analytical Sciences, 2021, 37(9):1193-1212.

[11] ZHANG Y M, GUO W C.Moisture content detection of maize seed based on visible/near-infrared and near-infrared hyperspectral imaging technology[J].International Journal of Food Science &Technology, 2020, 55(2):631-640.

[12] CORTÉS V, CUBERO S, BLASCO J, et al.In-line application of visible and near-infrared diffuse reflectance spectroscopy to identify apple varieties[J].Food and Bioprocess Technology, 2019, 12(6):1021-1030.

[13] CUI X Y, YU X M, CAI W S, et al.Water as a probe for serum-based diagnosis by temperature-dependent near-infrared spectroscopy[J].Talanta, 2019, 204:359-366.

[14] 唐逸芸, 吕慧英, 王微娜, 等.基于光谱融合的茶油真伪快速鉴别研究[J].食品安全质量检测学报, 2023, 14(20):33-45.TANG Y Y, LYU H Y, WANG W N, et al.Rapid identification of camellia oil authenticity based on spectral fusion[J].Journal of Food Safety &Quality, 2023, 14(20):33-45.

[15] 何苗. 基于多光谱结合化学计量学的白酒分类鉴别研究[D].重庆:重庆大学, 2022.HE M.Research on classification identification of baijiu based on multi-spectral combination with chemometrics[D].Chongqing:Chongqing University, 2022.

[16] BLANCO M, VILLARROYA I.NIR spectroscopy:A rapid-response analytical tool[J].TrAC Trends in Analytical Chemistry, 2002, 21(4):240-250.

[17] QIAN Y L, AN Y Q, CHEN S, et al.Characterization of Qingke liquor aroma from Tibet[J].Journal of Agricultural and Food Chemistry, 2019, 67(50):13870-13881.

[18] 许锦文, 李善文.互助青稞酒的香型及其风味特征[J].酿酒科技, 2012(7):82-84;86.XU J W, LI S W.Investigation on the flavor type and the flavoring characteristics of Huzhu highland barley wine[J].Liquor-Making Science &Technology, 2012(7):82-84;86.

[19] CAI J J.PGETooIbox:A Matlab toolbox for population genetics and evolution[J].Journal of Heredity, 2008, 99(4):438-440.

[20] 曹念念, 刘强, 彭菁, 等.基于近红外光谱技术的黄桃脆片可溶性固形物和硬度定量检测方法[J].食品与机械, 2021, 37(3):51-57.CAO N N, LIU Q, PENG J, et al.Study on quantitative detection of soluble solids and firmness of yellow peach chips by near-infrared spectroscopy[J].Food &Machinery, 2021, 37(3):51-57.

[21] HEIL K, SCHMIDHALTER U.An evaluation of different NIR-spectral pre-treatments to derive the soil parameters C and N of a humus-clay-rich soil[J].Sensors, 2021, 21(4):1423.

[22] TANG G, HUANG Y, TIAN K D, et al.A new spectral variable selection pattern using competitive adaptive reweighted sampling combined with successive projections algorithm[J].The Analyst, 2014, 139(19):4894-4902.

[23]

M C U, SALDANHA T C B, GALV width=8,height=11,dpi=110

O R K H, et al.The successive projections algorithm for variable selection in spectroscopic multicomponent analysis[J].Chemometrics and Intelligent Laboratory Systems, 2001, 57(2):65-73.

[24] YUN Y H, WANG W T, DENG B C, et al.Using variable combination population analysis for variable selection in multivariate calibration[J].Analytica Chimica Acta, 2015, 862:14-23.

[25] WOLD S, JOHANSSON E, COCCHI M.PLS:Partial Least Squares Projections to Latent Structures[M]//3D QSAR in Drug Design:Theory, Methods and Applications.Kluwer ESCOM Science Publisher, 1993:523-550.

[26] YANG D, HE D D, LU A X, et al.Combination of spectral and textural information of hyperspectral imaging for the prediction of the moisture content and storage time of cooked beef[J].Infrared Physics &Technology, 2017, 83:206-216.

[27] AFANADOR N L, TRAN T N, BUYDENS L M C.Use of the bootstrap and permutation methods for a more robust variable importance in the projection metric for partial least squares regression[J].Analytica Chimica Acta, 2013, 768:49-56.

[28] 李文环. 近红外光谱分析技术在常用塑料快速鉴别上的应用[D].杭州:中国计量大学, 2018.LI W H.Application of near infrared spectroscopy analysis in rapid identification of common plastics[D].Hangzhou:China University of Metrology, 2018.