基于近红外光谱技术的白酒原酒中关键成分的定量分析

买书魁1,2,吴镇君3,陈红光2,张福艳4,李子文1,李宗朋1,王琼雅1,2,尹建军1,王健1*

1(中国食品发酵工业研究院,北京,100015) 2(东北农业大学工程学院,黑龙江 哈尔滨,150030)3(红牛维他命饮料有限公司,北京,100015) 4(河北衡水老白干酒业股份有限公司,河北 衡水,053000)

采用间隔偏最小二乘法(interval partial least squares,iPLS)、组合间隔偏最小二乘法(synergy interval partial least squares,SiPLS)、遗传偏最小二乘法(genetic algorithms partial least squares,GA-PLS)、竞争性自适应重加权法(competitive adaptive reweighted sampling,CARS)优选波长,并结合偏最小二乘法(partial least squares,PLS)建立白酒原酒中乙酸乙酯和乳酸乙酯定量分析模型。结果表明,上述4种方法都对模型有一定的优化效果,其中遗传算法结合组合间隔偏最小二乘算法(genetic algorithms-synergy interval partial least squares,GA-SiPLS)优选波长的优化效果最为明显,乙酸乙酯和乳酸乙酯的决定系数(R2)分别达到了0.989 7和0.991 0,预测均方根误差(root mean square error of prediction,RMSEP)分别为0.085 4、0.143 4,相对分析误差(relation percent deviation,RPD)分别为8.5和8.6,提高了模型的稳定性和精准性。说明近红外光谱分析技术对于白酒原酒中乙酸乙酯和乳酸乙酯含量的检测具有科学的指导意义。

关键词 白酒;近红外光谱分析技术;定量分析;波长筛选

DOI:10.13995/j.cnki.11-1802/ts.016039

第一作者:硕士研究生(王健教授级工程师为通讯作者,E-mail:onlykissjohn@hotmail.com)。

基金项目:国家自然科学基金项目(31671937)

收稿日期:2017-10-17,改回日期:2018-01-22

引用格式买书魁,吴镇君,陈红光,等.基于近红外光谱技术的白酒原酒中关键成分的定量分析[J].食品与发酵工业,2018,44(11):280-285.

MAI Shu-kui,WU Zhen-jun,CHEN Hong-guang,et al.Quantitative analysis of key components of base liquor based on near infrared spectroscopy[J].Food and Fermentation Industries,2018,44(11):280-285.

白酒是以粮谷为原料,以大曲、小曲或麸曲等为糖化发酵剂,经蒸煮、发酵、蒸馏、陈酿、勾兑等酿造工艺而制成[1]。从白酒的组成成分上来看,其主要成分是乙醇和水,但白酒中含量仅占1%~2%的酯、酸、醛等微量有机物的组成及其含量却是保持各自香型白酒质量稳定及区别于其他香型的关键因素。在这些微量有机物中,乙酸乙酯和乳酸乙酯是影响清香型、老白干香型和米香型等香型白酒风味特征的2个重要指标。因此在白酒酿造过程中,乙酸乙酯和乳酸乙酯含量的测定对白酒质量控制尤为重要。

近红外光谱分析技术作为一种快速无损检测技术,具有分析速度快,检测效率高,操作简便,无需前处理且无污染,可同时对样品的多个指标进行检测等优点[2],近年来在白酒传统酿造过程中白酒品质检测及组分定量分析等方面得到应用。吴同等[3]学者利用区间偏最小二乘方法,实现了白酒中总酯和杂醇油含量的快速检测。彭帮柱等[4]学者利用人工神经网络、偏最小二乘回归等方法,实现了白酒中总酸、总酯含量的快速检测。但是,关于近红外光谱技术在作为影响白酒风味特征重要指标的乙酸乙酯和乳酸乙酯的定量分析的方面应用研究相对较少,且未进行深度的模型优化。

本文对白酒原酒中乙酸乙酯和乳酸乙酯含量进行近红外快速检测,利用间隔偏最小二乘法(interval PLS,iPLS)、组合间隔偏最小二乘法(synergy interval PLS,SiPLS)、遗传算法(genetic algorithms,GA)和竞争性自适应重加权算法(competitive adaptive reweighted sampling,CARS)对全光谱波长进行筛选优化,深入研究不同光谱波长筛选方法对白酒原酒中乙酸乙酯和乳酸乙酯指标建模的影响,并通过对比确定最优波段选择方法,从而提高模型准确度、稳定性以及预测精度,为白酒中乙酸乙酯和乳酸乙酯快速检测模型的建立提供一定参考。

1 材料与方法

1.1 材料

本试验所用白酒原酒样品共379个,由某白酒企业提供,采用透反射方式扫描采集白酒原酒样品的近红外光谱。白酒原酒中乙酸乙酯和乳酸乙酯含量根据国标GB/T 10345—2007《白酒分析方法》中的气相色谱法进行测定。

1.2 仪器与设备

ABB MB3600傅里叶变换型近红外光谱仪,ABB(中国)有限公司;光谱光源为卤钨灯,检测器为温控InGaAs。光谱范围为3 795~10 005 cm-1,分辨率优于0.7 cm-1,采集白酒原酒样品的在近红外光谱整个区域的光谱信息。

1.3 实验方法

1.3.1 校正集与验证集的划分

本研究随机保留79个白酒原酒样品作为独立测试集样品,用于预测检验最终模型性能。以3∶1的比例对剩余300个样品进行样本集和验证集划分。为了保证模型验证的可靠性,所划分的样本集和验证集中样品分布应该相似。本实验采用SPXY算法来进行校正集和验证集划分。(sample set partitioning based on joint x-y distances, SPXY)算法[5]是样本集划分的K-S算法的扩展,可同时考虑光谱空间和浓度空间的分布。最终选择校正集样本225个,验证集样品75个。校正集和验证集统计信息如表1所示。

表1 校正集与验证集统计结果
Table 1 Statistical results of calibration set and validation
set

样本数/个指标平均值/(g·L-1)最大值/(g·L-1)最小值/(g·L-1)标准差校正集225乙酸乙酯2.043.121.400.76225乳酸乙酯3.036.131.101.40验证集75乙酸乙酯2.063.121.450.7375乳酸乙酯2.705.471.351.24

1.3.2 光谱预处理

为了去除仪器响应、光的散射以及杂散光等因素对光谱的影响,需要选择适当的预处理方法来过滤近红外光谱中的噪声信息,提取有效信息[6]。常用的预处理方法有平滑、导数、多元散射校正(multiplicative scatter correction, MSC)和标准正态变量变换(standard normal variete transformation, SNV)等。本文选择二阶导数结合9点Savitzky-Golay平滑作为原始光谱预处理方法,以消除原始光谱的基线漂移、强化原始光谱谱带特征、克服原始光谱谱带重叠、提高信噪比。

1.3.3 光谱变量选择

为剔除光谱数据中的无效信息,提高数学模型分析的准确度和有效性,本实验分别采用竞争性自适应重加权算法(CARS)[10],以及间隔偏最小二乘法(iPLS)[7]、组合间隔偏最小二乘法(SiPLS)[8]对全光谱806个变量进行预筛选,并根据预筛选情况结合遗传算法(GA)[9]对建模变量进一步筛选,同时采用偏最小二乘算法(partial least squares,PLS)建模。选取决定系数(R2)、校正标准偏差(root mean squared error of calibration,RMSEC)、预测标准偏差(root mean squared error of prediction,RMSEP)、相对分析误差(ratio of performance to standard deviate,RPD)以及最佳主因子数来评价模型稳定性与预测能力。决定系数(R2)越接近1,校正集标准偏差(RMSEC)和预测标准偏差(RMSEP)相接近,且近于0,同时RPD>3时,则表明模型效果越好。

1.3.4 数据处理与分析

iPLS、SiPLS、GA、CARS等算法在MATLAB中运行,二阶导数结合9点Savitzky-Golay平滑、偏最小二乘法则运用UnscramberX10.3光谱分析软件(挪威CAMO公司)完成。

2 结果与讨论

2.1 光谱波段筛选

2.1.1 竞争性自适应重加权波长筛选法(CARS)

本实验中运用CARS方法依次对乙酸乙酯和乳酸乙酯的光谱进行多次筛选,结果如图1所示(蒙特卡罗采样次数分别设定为350和150)。

a-乙酸乙酯;b-乳酸乙酯
图1 CARS筛选关键变量结果
Fig.1 Key variable selection by CARS method

图1-a和图1-b中第1条曲线呈指数函数下降,表示随着运行次数的增加,选择变量个数由快到慢的递减,提高了函数筛选变量的效率;第2条曲线为交叉验证残差(root mean square error of cross validation,RMSECV)的变化趋势图,从图1可以看出,残差图的变化趋势为先下降后上升,当采样次数为188次和104次时,RMSECV值最小,这表明光谱中的无关信息被剔除,进一步采样将剔除与脂肪和可溶性固形物指标相关的关键变量,导致RMSECV的值增大;第3条曲线表示回归系数的变化趋势,其中的“*”表示残差的最低点,与前2条曲线相对应[11]

2.1.2 间隔偏最小二乘波长筛选法(iPLS)

本实验将白酒原酒光谱806个波点等分为n(取值10~30,间隔为5)个子区间。通过比较分析发现,当n取10时,分别对应乙酸乙酯和乳酸乙酯含量所建立的iPLS模型的交叉验证均方差(RMSECV)值最小,分别为0.338 0和0.456 8。如图2所示,虚线对应数值代表全谱的RMSECV值,则位于虚线下方区间段为iPLS所挑选出来的区间,图2-a为乙酸乙酯波段筛选结果示意图,挑选出来波段数为1、2、4。图2-b为乳酸乙酯波段筛选示意图,挑选出来的波段数为1、2、3、4。经过iPLS处理后所筛选出的变量数分别为243和324个,有效波长区间的压缩比例分别为30.1%和40.2%。

a-乙酸乙酯;b-乳酸乙酯
图2 各区间模型与全谱模型的RMSECV值比较
Fig.2 Comparison of interval model’s and full spectrum’s RMSECV

2.1.3 组合间隔偏最小二乘波长筛选法(SiPLS)

本实验将白酒原酒光谱806个波点均匀划分为n(取值10~30,间隔为5)个子区间后,组合其中m(m取2、3、4)个区间进行波段筛选进行建模。经过数据处理分析可知,乙酸乙酯和乳酸乙酯指标分别当n为30,m为4以及n为20,m为3时,筛选得到RMSECV值最小,分别为0.116 2和0.185 0。表2为波段的筛选结果,所筛选出波段分别为[2,3,4,6]和[2,3,4],乙酸乙酯和乳酸乙酯所对应筛选出变量分别为108和123个,占全谱波段变量为13.4%和15.3%。

表2 SiPLS优选结果
Table 2 Optimal spectra regions by SiPLS method

样本性质主成分数所选区间RMSECV乙酸乙酯8[2,3,4,6]0.116 27[3,4,5,6]0.125 08[2,3,5,6]0.130 56[3,4,5,7]0.130 96[2,4,5,6]0.13106[2,4,5,7]0.131 57[3,4,6,7]0.131 88[2,3,5,7]0.134 07[3,4,10,11]0.140 16[2,4,6,7]0.141 0乳酸乙酯6[2,3,4]0.185 07[2,4,7]0.213 97[2,4,20]0.218 36[2,4,16]0.220 27[2,4,19]0.220 45[2,4,18]0.221 26[2,4,13]0.221 46[2,4,8]0.222 06[2,4,14]0.222 27[2,4,9]0.222 6

2.1.4 遗传偏最小二乘波长筛选法(GAPLS)

本实验采用遗传算法(GA)自然选择挖掘出经过iPLS和SiPLS挑选后的光谱波段中的最优特征基因子集,并采用PLS进行优化建模。

设置GA-PLS运行参数为:群体数为30,变异概率为0.01,杂交概率为0.5,最大因子数为10,遗传迭代次数100次,根据RMSECV值确定出最佳的建模变量。运行结束后,根据变量在迭代过程中的出现频率,按照从高到低的方式逐一选择特征波长参与建模,当RMSECV值最小时,所选变量为最优建模变量。经GA-iPLS和GA-SiPLS对乙酸乙酯的筛选结果如图3-a和图3-b所示,对乳酸乙酯指标筛选结果如图3-c和图3-d所示。图中显示所有变量被入选的频次图,分别选择了182、89和62和98个波长点,占全光谱的22.6%和11.0%、7.7%和12.2%。

a-乙酸乙酯GA-iPLS;b-乙酸乙酯GA-SiPLS;c-乳酸乙酯GA-iPLS;d-乳酸乙酯GA-SiPLS
图3 迭代100次后被选用变量的频次图
Fig.3 Cumulative frequency of variable selection after 100 times runs

2.2 模型建立与评价

在以上波长筛选方法的基础之上,分别建立白酒原酒中乙酸乙酯和乳酸乙酯的全光谱-PLS、CARS、iPLS、SiPLS、GA-iPLS、GA-SiPLS定量模型,并通过比较所建立模型中的决定系数(R2)、校正标准偏差(RMSEC)、预测标准偏差(RMSEP)、最佳主成分数以及相对分析误差(RPD)等相关参数来评价所建立的模型效果。各模型计算结果如表3所示。

表3 不同PLS模型性能
Table 3 Performance of different PLS models

样本性质定量模型主成分数波长组合/(cm-1)变量数R2RMSECRMSEPRPD乙酸乙酯全谱-PLS103795~100058060.973 40.197 30.194 53.8CARS64 088,4 104,4 112……5 083320.975 80.152 60.154 94.7iPLS83 795~5 037,5 670~6 2792430.986 90.147 40.144 35.1SiPLS84 003~4 621,4 837~5 0371080.988 70.128 50.125 65.8GA-iPLS73 795,3 811,3 818……6 2721820.989 80.102 00.101 47.2GA-SiPLS74 112,4 119,4 127……4 921890.989 70.081 40.085 48.5乳酸乙酯全谱-PLS103 795~1 00058060.973 70.232 30.234 85.3CARS54 250,4 351,4 358……5 284110.984 70.219 10.215 45.8iPLS73 795~6 2793240.985 60.198 40.199 36.2SiPLS54 112~5 0531230.988 70.184 20.190 96.5GA-iPLS64 112,4 119,4 127……5 924620.987 80.176 80.177 47.0GA-SiPLS64 212,4 219,4 227……5 037980.991 00.147 50.143 48.6

从表3中的数据可知,相比较全光谱模型而言,经过多种波长筛选方法筛选后所建立模型,建模变量数明显减少,模型的决定系数(R2)均增大,校正标准偏差(RMSEC)和预测标准偏差(RMSEP)均有所减小,有效地提高了模型的运算速度,因此可知本文所采取的波长筛选方法对乙酸乙酯和乳酸乙酯的有效建模光谱区域的筛选行之有效。

通过以上几种建模变量筛选方法比较,虽然CARS方法筛选出的建模变量极大减少,但所建立模型中R2值较小,RMSEP较大,乙酸乙酯和乳酸乙酯相应模型的RPD分别为4.7和5.8,可能由于此方法剔除了光谱中关键波长或背景信息等相关波长信息,导致模型的预测精度下降,该方法并不能完全准确的筛选出光谱中有效信息。iPLS与SiPLS模型的R2均有所增加,建模变量数目得到明显减少,并降低了主成分数,RPD均大于5,说明2种波长筛选的方法均对波长的筛选有一定的适用性。但分别因iPLS方法存在等距划分区间的局限性,可能限制波长的筛选精度[12],而SiPLS方法因为其事先设置的组合区间数,可能引入未包含相关有效光谱信息的区域等相关波长筛选的不足[13],经过iPLS和SiPLS所筛选出的光谱段仍需要进一步的波长筛选来提高模型预测能力和稳健性。

为进一步通过波长筛选来提高模型的预测能力和稳健性,在iPLS和SiPLS筛选出的波段基础之上,采用遗传算法对其进行更高精度的波长筛选,用以建立模型,所建立的乙酸乙酯及乳酸乙酯模型R2及RPD值均在iPLS及SiPL模型基础之上有不同程度的增大,RMSEP值均明显减小,说明GA-iPLS、GA-SiPLS方法进一步提高光谱变量筛选的精度,同时避免了iPLS和SiPLS存在的等距划分区间的局限性等相关波长筛选的不足,同时在进一步减少建模波长变量个数的同时保留了光谱中关键波长信息,简化了模型复杂程度,提高了光谱信息筛选的有效性。其中GA-SiPLS方法所对应的模型最优,R2分别为0.989 7和0.991 0,RMSEP分别为0.085 4和0.143 4,RPD分别为8.5和8.6。

图4为分别通过乙酸乙酯和乳酸乙酯指标各种波长筛选方法所挑选出波长点示意图。经GA-SiPLS方法筛选后的特征波段范围和C—H、CO、C—O—C、O—H等官能团结构的伸缩振动和倍频吸收的位置相对应。如4 000 cm-1附近区域为C—O—C伸缩振动的组合频,4 545 cm-1附近为C—H的伸缩和CO的组合频。综合分析认为,本实验中GA-SiPLS方法最优,在剔除无关变量的同时保留信噪比较高的变量,能够对白酒原酒中乙酸乙酯和乳酸乙酯进行定量预测。

a-乙酸乙酯;b-乳酸乙酯
图4 筛选的波长变量分布图
Fig.4 The distribution diagram of variables selected

2.3 模型检验

将79个独立预测样本带入GA-SiPLS模型当中,对模型的精准性和稳定性进行验证。如图5所示,白酒原酒中乙酸乙酯和乳酸乙酯指标的实测值与预测值呈对角线分布,又经成对t检验,各项指标预测值和实测值并无较大差异。经验证,R2分别达到0.979和0、985,RMSEP分别为0.093 1、0.154 3,RPD分别为7.84和8.03,说明GA-SiPLS模型的预测效果较为准确。

a-乙酸乙酯;b-乳酸乙酯
图5 GA-SiPLS模型实测值与预测值的分布
Fig.5 Distribution of predicted and predicted values in GA-SiPLS model

3 结论

经过对不同的建模变量的筛选,得到了与建模指标相关的光谱区域,同时去除了大量的无效信息,达到了以优选变量来提高模型预测精度的目的。同时,经过变量筛选之后,建模变量明显减少,简化了建模的复杂度,实现了筛选相关建模变量的目的,大幅度提高了模型预测能力和稳定性,并且证明建模变量筛选对模型优化的重要性。

以GA-SiPLS法进行波长筛选后建立的模型优于其他波长筛选后所建模型。经过验证,所筛选出的光谱波长区域处近红外吸收峰与乙酸乙酯和乳酸乙酯中所含主要官能团相对应,说明该方法能筛选出与白酒原酒中乙酸乙酯和乳酸乙酯相关的重要波长变量。结果表明本研究所建立的白酒原酒中乙酸乙酯和乳酸乙酯指标的定量分析模型,准确度及稳定性良好,说明近红外光谱分析技术结合恰当的波段筛选能够对白酒原酒的质量指标进行快速分析。

参考文献

[1] 谭超,吴同,李惟一,等. 近红外光谱组合区间偏最小二乘法定量白酒中的乙酸乙酯[J]. 计算机与应用化学,2014,31(4):510-512.

[2] 陈妍,胡慧,汪凤祖,等. 近红外光谱法快速分析白酒中的关键指标[J]. 酿酒科技,2010(11):90-92+94.

[3] 吴同,谭超. 近红外光谱同时测定白酒中总酯和杂醇油[J]. 化学研究与应用,2016,28(10):1 460-1 463.

[4] 彭帮柱,龙明华,岳田利,等. 傅立叶变换近红外光谱法检测白酒总酸和总酯[J]. 农业工程学报,2006(12):216-219.

[5] 展晓日,朱向荣,史新元,等. SPXY样本划分法及蒙特卡罗交叉验证结合近红外光谱用于橘叶中橙皮苷的含量测定[J]. 光谱学与光谱分析,2009,29(4):964-968.

[6] 李宗朋,王健,张晓磊,等. 基于近红外光谱技术的沙棘籽油鉴伪方法研究[J]. 中国油脂,2014,39(2):57-62.

[7] NRGAARD L, SAUDLAND A, WAGNER J, et al. Interval partial least squares regression (iPLS): a comparative chemometric study with an ex-ample from near-infrared spectroscopy[J]. Appl Spectrosc, 2000,54(3):413-419.

[8] LI Y, GUO M, SHI X, et al. Online near-infrared analysis coupled with MWPLS and SiPLS models for the multi-ingredient and multi-phase extraction of licorice (Gancao)[J]. Chinese Medicine,2015,10(1):1-10.

[9] 李子文,熊雅婷,张海红,等. 近红外光谱技术结合遗传算法用于苹果醋总酸定量分析[J]. 食品与发酵工业,2016,42(1):195-199.

[10] 刘燕德,施宇,蔡丽君,等. 基于CARS算法的脐橙可溶性固形物近红外在线检测[J]. 农业机械学报,2013(9):138-144.

[11] 熊雅婷,李宗朋,王健,等. 近红外光谱波段优化在白酒酒醅成分分析中的应用[J]. 光谱学与光谱分析,2016,36(1):84-90.

[12] 杨静文. 面向分子振动光谱建模的特征波长选择新方法与应用基础研究[D]. 杭州:浙江大学,2016.

[13] 陈兰珍. 蜂蜜品质近红外光谱评价技术研究[D]. 北京:中国农业科学院,2010.

Quantitative analysis of key components of base liquor based onnear infrared spectroscopy

MAI Shu-kui1,2,WU Zhen-jun3,CHEN Hong-guang2,ZHANG Fu-yan4,LI Zi-wen1,LI Zong-peng1,WANG Qiong-ya1,2,YIN Jian-jun1,WANG Jian1*

(China National Research Institute of Food & Fermentation Industries, Beijing 100015,China)2(Northeast Agricultural University, Harbin 150030, China) 3(Red Bull Vitamin Beverage Company Limited,Beijing 100015,China)4(Hebei Hengshui Laobaigan Liquor Co.,Ltd., Hengshui 053000,China)

ABSTRACT In this paper, the contents of ethyl acetate and ethyl lactate in base liquor were quantitatively analyzed by near infrared spectroscopy. The characteristic wave bands were selected using interval partial least squares (iPLS), synergy interval partial least squares (SiPLS), genetic algorithm partial least squares (GA-PLS), competitive adaptive reweighted sampling (CARS), and partial least squares (PLS) to establish a model for quantitative analysis of ethyl acetate and ethyl lactate. The results showed that the above four methods had certain optimization effect on the model. The optimization effect of genetic algorithm partial least squares (GA-PLS) and synergy interval partial least squares (SiPLS) were the most obvious. The R2 of ethyl acetate and ethyl lactate reached 0.989 7 and 0.991 0, and the Root Mean Squared Error of Prediction (RMSEP) respectively were 0.085 4 and 0.143 4, and the Ratio of performance to standard deviate (RPD) respectively were 8.5 and 8.6, which indicated that the stability and accuracy of the model were improved. The results showed that the near-infrared spectroscopy has a scientific significance for the detection of ethyl acetate and ethyl lactate in the base liquor.

Key words liquor; near infrared spectroscopy; quantitative analysis; wavelength screening