被誉为世界六大蒸馏酒之一的中国白酒[1],根据生产工艺的差异可分为4种基本香型,包括浓香型、酱香型、清香型及米香型,其中浓香型白酒的产量及市场份额占据整个白酒行业的70%以上[2]。宜宾五粮液、泸州老窖作为浓香型白酒的典型代表,以其芳香浓郁、绵柔甘洌、香味协调、入口甜、落口绵、尾净余长等风格特点深受消费者喜爱。入窖发酵是整个白酒生产工艺中的关键工序,窖池中大量生香产酯微生物之间复杂的相互作用关系,使得最终形成以己酸乙酯为风味主体的浓香型大曲酒。赵东等[3]利用气质联用技术研究了五粮液不同空间层次的出窖糟醅与窖泥之间的关系,结果表明窖边糟的香气成分明显高于中心糟,且与窖泥优势成分具有高度的相似性。此外,据相关报道,窖泥来源的微生物占据糟醅总微生物的14%以上,并且多数属于厌氧菌[4]。说明没有好的窖泥,就不能生产上乘的浓香型优质大曲酒。然而窖泥长期面临酸化、老化等诸多问题[5],给人工养护窖泥带来重大挑战。窖泥老化的一个重要原因就是累积发酵带来的酸度偏大,严重影响己酸菌、丁酸菌等有益微生物的生长代谢活动,从而使得窖泥稳定的微生物体系被打破,造成窖泥质量的下降。而适当的酸度不仅可以促进酒精发酵,还可以促进风味及前体物质的合成。因此窖泥总酸的快速检测是评估窖泥质量的一项重要指标,对防止窖泥酸化具有重要意义。目前的窖泥总酸测定普遍采用酸碱中和法或者pH电位法,此方法耗时耗力,破坏性强,属于单点检测,不能直观展示指标含量的二维分布状况,并且检测结果往往滞后于实际生产,不能对相关工作起到根本性的指导作用。
高光谱成像技术是一种新兴的、非破坏性的、先进的光学技术。它将机械视觉与光谱技术相结合,探测目标对象的二维空间和一维光谱信息,从而获取高分辨率的图像和光谱数据。这种技术能够实施大规模快速检测,同时也能够最大程度上保留物体对象的完整性,已经广泛应用于天文学[6]、法医检验[7-8]、犯罪现场勘察[9-10]、文物保护[11-12]、医学[13-14]、植物和水源保护[15-16],遥感测绘[17]等方面。ZHU等[18]应用高光谱技术,快速辨别醋醅在发酵过程中表征指标的分布情况,有利于及时发现问题,快速调整生产工艺,保证产品品质。说明将高光谱图像技术应用于固态发酵过程中表征指标的快速检测是可行的。目前,国内外还没有将高光谱图像技术应用于浓香型白酒领域快速检测的相关报道。因此,本文研究一种基于高光谱成像技术的窖泥总酸的检测方法,实现对酸度的在线无损监测,帮助白酒企业快速发现问题,及时调整工艺,防止窖泥酸化和老化现象的发生。
1.1.1 样品来源
窖泥样品采自四川省宜宾市某知名酒厂(位于四川省中南部,北纬26°03′~34°19′,东经97°21′~108°31′),窖泥样品分别来自5个不同的窖龄(6、12、15、23、30),每个窖龄对应4口窖池,同一窖龄中产酒质量较好的窖池作为每口窖池的选择依据。采样时工人用铁铲刨开遗漏的酒糟,以黄水为分界线,收集来自同一窖池四周的窖泥,将其混匀用取样袋封好即成1个样本,同一窖池的采样部位包括窖帽、窖中和窖底泥3层,共3个样。以此方式获得不同窖龄的窖泥总计60份。采样完毕后,放置于冰盒运回实验室并迅速开展试验。
1.1.2 试剂与仪器
NaOH,酚酞(分析纯),成都市科龙化工试剂厂;邻苯二甲酸氢钾(分析纯),天津市科密欧化学试剂开发中心。
CP214电子天平、pH计,奥豪斯仪器上海有限公司;78HW-1恒温磁力搅拌器,金坛市医疗仪器厂;101定性滤纸,抚顺市民政滤纸厂。
FX系列高光谱相机,精密电控载物台,计算机软硬件,芬兰SPECIM公司;160W的Y型光纤卤素灯,美国DolanJenner Industries公司;高光谱采集系统。
1.2.1 试验方法
本文的方法分为试验方法和数据分析方法两部分,试验方法包括参数的标定、高光谱数据的采集、提取感兴趣区域(region of interest,ROI)以及黑白校正处理、窖泥总酸的检测,数据处理包括预处理、特征变量筛选、建模以及可视化等,具体的试验设计流程如图1所示。
图1 试验设计流程图
Fig.1 A flow chart of experimental design
注:ROI,感兴趣区域;SNV,标准正态变量;SPA,连续投影算法;PLSR,偏最小二乘回归;LS-SVM,最小二乘支持向量机;R2,决定系数;RMSE,均方根误差
1.2.1.1 参数设置
为使样品运行速率与相机的采集频率和曝光时间相匹配,保证图像信息的完整性,因此针对窖泥样品,本研究的具体参数标定如表1所示。
表1 高光谱相机参数设置
Table 1 Parameter setting of hyperspectral camera
参数可见光(400~1000nm)近红外(900~1700nm)标定板种类灰色板米黄色板标定板标定打光峰值10242112快门开启开启曝光频率/Hz5050曝光时间/ms8.004.02光谱组装11空间组装11激发模式内部内部平台移动速度/(mm·s)10.7916.42物体起始位置物体开始位置:94.48物体结束位置:141.43物体开始位置:94.48物体结束位置:141.43白板起始位置白板起始位置:22.07白板结束位置:32.04白板起始位置:22.07白板结束位置:32.04暗电流校正快门快门白板校正手动手动红色波段波段191(650.96nm)波段31(1039.53nm)绿色波段波段117(551.57nm)波段76(1196.37nm)蓝色波段波段55(469.28nm)波段131(1389.61nm)
1.2.1.2 高光谱数据采集
用勺子舀取一定量窖泥样品于石英器皿中,填充至与边缘齐平的位置。将装好窖泥样品并铺平的石英器皿放置于载物台中心位置,样品跟随载物台从预设的起始位置移动到终止位置,这时样品数据采集完毕,电控载物台又迅速回归到初始位置,等待下一个样的采集。为最大程度保证数据采集的准确性,事先准备10个规格一致的石英器皿,1个样品平行采集10次,待10次采集完毕后取出,用纸巾擦拭器皿中残留的窖泥,以此保证石英器皿的清洁,用同样的方式采集下一个样品的高光谱数据。以此类推,最终分别获得600份近红外区域下(900~1 700 nm)大小为143 pixel×640 pixel×224 pixel以及可见光区域下(400~1 000 nm)大小为216 pixel×1 024 pixel×448 pixel的窖泥高光谱图像数据块。
采用Kennard-Stone(K-S)算法,将60份样品按照5∶1的比例随机划分为训练集和测试集。由于每个样品平行采集10次,因此将50份样品对应的500个数据作为训练集,用于模型的训练,其余10个样品对应的100个数据作为测试集,用于检验模型的预测性能,根据性能好坏筛选最优模型。
1.2.1.3 黑白校正
利用ENVI5.2手动提取ROI(100×100)的平均光谱信息,获得一条全波段下的平均光谱曲线。进行系统黑白校正,得到相对稳定的光谱反射率曲线。具体的校正计算如公式(1)所示:
(1)
式中:R,光谱反射率;I,校正前的光谱数据;D,暗电流数据;W,标定板数据。
1.2.1.4 窖泥总酸的测定
窖泥总酸的测定部位与ROI一致,可以提高后期建模的精度以及预测性能。因此选择ROI(100×100)内的样品进行总酸度的测定。测定方法参考GB/T 12456—2008中pH电位法。具体步骤为称取10 g(精确至0.001 g)不同窖龄的窖泥样品,放入装有100 mL蒸馏水的250 mL烧杯中。将溶液间歇搅拌并在室温下浸出30 min。接着,过滤后收集25 mL滤液于150 mL烧杯中,加入25 mL蒸馏水。用0.1 mol/L NaOH标准溶液进行滴定,当pH计读数显示为8.2,停止滴定,并记录标液消耗的体积(V1),同时做空白实验,记录体积(V2)。试样中的总酸含量(X)计算如公式(2)所示:
(2)
式中:X,总酸含量,g/kg;c,NaOH标准溶液的浓度,mol/L;V1,为样品溶液消耗NaOH的体积,mL;V2,空白溶液消耗NaOH的体积,mL;K,酸的换算系数;F,样品的稀释倍数;m,样品的质量,g;1 000,单位换算系数。计算结果保留到小数点后两位。精密度为同一样品两次测定结果之差,不能超过算术平均值的2%。
1.2.2 数据分析方法
1.2.2.1 预处理
数据采集过程中产生的噪声、基线漂移等不相关因素的光谱信号会降低数据采集的准确度。因此需要对ROI内的平均光谱反射率曲线进行预处理来消除这方面的影响。由于标准正态变量变换(standard normal variable correction,SNV)能高效地去除高频噪音,防止基线变化,优化光谱信号[19-20]。因此本研究选用的预处理方法是SNV,即通过样品间的平均值和方差来校正光谱信息,从而消除基线变化的影响。
1.2.2.2 特征变量筛选
不同分子结构式所含的基团对不同波长光的吸收具有选择性,而获得的数据信息可能是来自于多种化学物质光谱信号重叠的结果,为了提高模型的鲁棒性和泛化性能,保证模型的准确度,因此需要通过一些变量筛选方法筛选与表征指标密切相关的特征波段,消除不相关波段的影响。本文采用连续投影算法(successive projection algorithm,SPA)进行窖泥指标特征变量的筛选,同时做全光谱对照。
1.2.2.3 模型的建立
通过机器学习算法将提取出来的光谱信息结合前期的基础数据建立一种自变量与因变量之间的函数关系,以便后期对未知样品进行快速预测分析。常用的数学建模方法有偏最小二乘回归(partial least squares regression,PLSR)、最小二乘支持向量机(least squares-support vector machine,LS-SVM)、反向传播人工神经网络(back propagation-artificial neural network,BP-ANN)。本文选取前两种方法用于窖泥总酸模型的构建。
1.2.2.4 模型的评价方法
模型常用的评价方法是比较训练集和测试集的决定系数(R2)以及均方根误差(root mean square error,RMSE)的大小,当决定系数越接近于1,均方根误差越接近于0,说明所建训练集样本模型的精度越高,预测性能越好[21]。本文通过对比分析模型在训练集和测试集数据上的表现性能,筛选出窖泥总酸预测的最优模型。
1.2.2.5 可视化分布图
将ROI内每个像素点的平均光谱数据带入以上获得的最佳模型,得到每个像素点的总酸预测值,将其拉伸到0~255灰度值以获得与总酸含量值相对应的灰度值,再通过云图进行伪彩色处理,最终获得窖泥总酸指标的可视化分布图,直观显示出总酸含量的二维分布情况,从而实现对窖泥总酸分布均一性的快速判定。
窖泥中的总酸物质主要包括己酸、乳酸、丁酸等,酸类物质的含量变化是窖泥中产酸菌共同作用的结果,酸性环境的改变又反作用于窖泥中生香产酯微生物的生长代谢活动,对窖泥复杂的微生态体系起到重要的调节作用。本文参照GB/T 12456—2008中pH电位法测得的不同窖龄窖泥总酸度的统计量,如表2所示。
由表2可知,每个窖龄4口窖池不同层次的12份窖泥按照5∶1随机划分给训练集和测试集,由此得到50份样品用于训练,10份用于预测。此外,窖泥总酸含量维持在1.05~2.01 g/kg,随着窖龄的增长,老窖泥的总酸含量略高于新窖泥,但变化较小。窖泥总酸实测值为后续模型的训练以及性能评估提供基础数据。
表2 不同窖龄窖泥总酸含量统计表
Table 2 Statistical table of total acid in pit mud of different ages
窖龄/年训练集测试集样本量范围/(g·kg-1)均值±SD/(g·kg-1)样本量范围/(g·kg-1)均值±SD/(g·kg-1)6101.05~1.631.39±0.1221.29~1.381.32±0.0912100.73~1.941.47±0.5621.37~1.601.52±0.6615100.85~1.871.59±0.3421.03~1.991.61±0.4323101.29~2.041.63±0.9221.54~1.781.70±0.8330101.35~1.971.65±0.3921.57~2.011.73±1.20
利用ENVI5.2提取ROI内像素点的平均光谱信息,通过黑白校正将其转换成平均光谱反射率,从而分别得到600条近红外以及可见光区域下的全波段光谱反射率曲线,FX17型号相机采集的光谱波段范围为近红外光谱波段(900~1 700 nm),一共有224个波长。FX10型号所采用的光谱波段范围为可见光波段(400~1 000 nm),一共有448个波长。如图2所示。
A-近红外下的原始图像;B-近红外下的原始光谱;C-近红外下的预处理光谱;D-可见光下的原始图像;E-可见光下的原始光谱;F-可见光下的预处理光谱
图2 原始光谱的提取和预处理
Fig.2 Extraction and pretreatment of primary spectrum
为方便观察,本文以2个窖池的窖泥为例,阐述不同窖龄窖泥在近红外和可见光波段下光谱反射率曲线的差异,选取了6条分别包含近红外全波段(224个波长)以及可见光全波段(448个波长)的光谱反射率曲线,如图3所示。
图3中一个是6年新窖池的上中下层窖泥,一个是23年老窖的上中下层窖泥,23年的窖泥光谱反射率普遍高于6年的光谱反射率,不同层级的窖泥光谱反射率曲线也明显不同,说明高光谱技术对不同年份不同层级的窖泥进行快速识别是可行的。
A-近红外波段;B-可见光波段
图3 近红外和可见光波段下的窖泥光谱反射率曲线
Fig.3 Spectral reflectivity curves of pit mud in near-infrared and visible wavebands
运用SPA算法分别从近红外以及可见光波段下筛选出与总酸紧密相关的特征波段,经过SPA算法处理后,分别从近红外全光谱中得到166个特征波段,可见光全光谱下得到345个特征波段。尽管筛选后的特征波段数仍较多,但可以避免重要信息的遗漏,在保证模型精度的条件下,减少数据处理过程中的计算量,提高工作效率。总酸特征吸收光谱的产生主要来源于羧酸所带分子键以及含氢基团(C—H、O—H等)合频和倍频的伸缩、弯曲振动[22],在所有能产生特征吸收的分子键中,X—H键的活性较高,产生的吸收较强。
通过机器学习算法,结合训练集样本的窖泥总酸实测值,建立近红外光谱下(900~1 700 nm)的全波段以及特征波段的定量预测模型(PLSR、LS-SVM),共计4种模型如表3所示。
表3 近红外光谱下的模型性能统计表
Table 3 Statistical table of model performance in near-infrared spectroscopy
波段预处理光谱范围预测模型训练集测试集R2calRMSEC/(g·kg-1)R2preRMSEP/(g·kg-1)ΔE全光谱PLSR0.94640.94780.94110.91980.0280近红外SNVLS-SVM0.99370.32460.99560.25160.0730SPAPLSR0.95140.90250.94270.90740.0049LS-SVM0.99220.36120.99380.29820.0630
注:训练集决定系数;RMSEC,训练集均方根误差;测试集决定系数;RMSEP,测试集均方根误差;ΔE,RMSEC与RMSEP的绝对值之差(下同)
由表3可知,无论是从模型的鲁棒性还是预测性能来看,SVM模型都优于PLSR,因此被认为是一种相对较好的训练模型。其次,在SVM模型的基础上比较全光谱和特征光谱的建模效果,从表中可以看出,尽管全光谱略优于特征光谱,但两者的模型精度和对未知样品的预测能力都相对较高,在保证模型精度的前提下,采用特征变量建模,可以减少计算量,提高工作效率。因此在近红外波段下的SNV-SPA-SVM被视为窖泥总酸的优选模型。
接下来遵循同样的方法,建立可见光光谱下(400~1 000 nm)的全波段以及特征波段的定量预测模型(PLSR、LS-SVM),共计4种模型如表4所示。
表4 近红外光谱下的模型性能统计表
Table 4 Statistical table of model performance in visible spectroscopy
波段预处理光谱范围预测模型训练集测试集R2calRMSEC/(g·kg-1)R2preRMSEP/(g·kg-1)ΔE全光谱PLSR0.97180.63750.97080.63630.0012可见光SNVLS-SVM0.99960.07280.99970.06170.0111SPAPLSR0.97500.59990.97060.63740.0375LS-SVM0.99850.00490.99910.00380.0011
由表4可知,SVM模型的稳健性和泛化性能还是要优于PLSR。其次,基于SVM模型比较分析全光谱和特征光谱的建模效果,基于全波段的SVM模型,在训练集和测试集上的样本预测值与实测值之间的相关程度均很高,但相比特征光谱模型,均方根误差也比较大,因此判定可能出现过拟合现象。相对而言,特征光谱建立的SVM模型具有较好的稳定性和预测能力。因此可见光波段下的SNV-SPA-SVM被视为相对较好的模型。
近红外和可见光隶属于2个不同的区域范围,根据特征光谱产生机理,化学组分对不同波段的光谱吸收能力存在明显的差异,因此接下来对比分析窖泥总酸指标在两个波段下的模型性能,优选出适用于窖泥总酸快速检测的最佳模型。对比表3和表4的结果,可以得出,可见光波段下的SNV-SPA-SVM模型泛化性能更强,更适合于对新鲜样本的预测,且预测值与实测值之间的误差较小。该模型在训练集和测试集上的拟合效果如图4所示。
A-训练集;B-测试集
图4 模型在训练集和测试集上的拟合效果图
Fig.4 Fitting effect of the model on calibration and prediction set
由图4可知,此模型对未知样品的训练效果较好,在训练集上的为0.998 5,RMSEC为0.004 9 g/kg,测试集上的为0.999 1,RMSEP为0.003 8 g/kg,这也侧面证明了羧酸类物质的特征吸收主要集中于可见光波段(400~1 000 nm)。
将ROI中每个像素点的光谱数据带入到最优模型中,计算出窖泥总酸含量的预测值,然后进行伪彩色处理,得到可视化分布图,仍以两个窖龄的窖泥为例,如图5所示。
A-6年的窖帽泥;B-6年的窖中泥;C-6年的窖底泥;D-23年的窖帽泥;E-23年的窖中泥;F-23年的窖底泥
图5 不同窖龄窖泥的总酸分布图
Fig.5 The distribution map of total acid in pit mud of different years
由图5可知,同一窖池上中下层窖泥的总酸含量存在明显不同,中层含酸量略高于上层和池底,而上层又高于窖池底部。此外,23年的窖泥总酸含量普遍略高于6年,且分布较为均匀,可能是由于窖池内特殊的生长环境使微生物群落不断演替,经过长期的自然筛选,最终得以驯化,大部分有利于发酵的酵母以及产酸菌幸存下来,使得整个窖池空间内的微生物群落结构更加稳定,从而代谢物分布更加均匀。
本文通过搭建高光谱采集平台,探讨了窖泥样品在近红外以及可见光下的光谱特征,并对总酸含量分布进行了可视化,说明高光谱技术对窖泥总酸分布的快速评估是可行的,本研究为窖泥质量在线检测平台的搭建奠定了理论基础,为白酒机械化、智能化的升级提供了技术支撑。但也有不足之处,希望在后期研究中加以改进。一方面,由于精力有限,训练的样本量较少,希望后期加大样本量,提高对数据预测的准确率。另一方面,涉及到光谱解析,通过算法筛选出的特征波段对应的光谱信息不一定全部来自于该表征指标,可能是多种化学组分的重叠,如何剔除其他组分引起的干扰信号,达到优化特征光谱的目的是接下来的一个重要研究方向。
[1] ZHAO Yuping, ZHENG Xiangping,SONG Pu, et al. Characterization of volatiles in the six most well-known distilled spirits[J]. Journal of the American Society of Brewing Chemists, 2013, 71(3):161-169.
[2] 胡晓龙. 浓香型白酒窖泥中梭菌群落多样性与窖泥质量关联性研究[D].无锡:江南大学,2015.
[3] 赵东,郑佳,彭志云,等. 五粮浓香型发酵糟醅与窖泥的相关性研究[J]. 食品与发酵工业, 2019,45(6): 1-7.
[4] WANG Xueshan, DU Hai, XU Yan. Source tracking of prokaryotic communities in fermented grain of Chinese strong-flavor liquor[J]. International Journal of Food Microbiology, 2017, 244: 27-35.
[5] 章发盛,张学英. 预防酿酒窖泥老化的研究[J]. 酿酒, 2010, 37(6):45-46.
[6] HEGE E K,O'CONNELL D,JOHNDON W, et al. Hyperspectral imaging for astronomy and space surveillance in imaging Spectrometry IX[J]. International Society for Optics and Photonics,2004,5 159:380-391.
[7] EDELMAN G J,GASTON E,LEEOWEN G V T. Hyperspectral imaging for non-contact analysis of forensic traces[J]. Forensic Science International, 2012, 223(1-3): 28-39.
[8] MALKOFF D B, OLIVER W R. Hyperspectral imaging applied to forensic medicine[J]. Proceedings of Spie-the International Society for Optical Engineering, 2000, 3 920: 108-116.
[9] KUULA J, PÖLÖNENI H,PUUPPONEN H H, et al. Using VIS/NIR and IR spectral cameras for detecting and separating crime scene details[J]. Proceedings of Spie-the International Society for Optical Engineering, 2012, 8 359: 13.
[10] SCHULER R L,KISH P E,PLESE C A.Preliminary observations on the ability of hyperspectral imaging to provide detection and visualization of bloodstain patterns on black fabrics[J]. Journal of Forensic Sciences, 2015, 57(6): 1 562-1 569.
[11] FISCHER C,KAKOULLI I. Multispectral and hyperspectral imaging technologies in conservation: Current research and potential applications[J]. Studies in Conservation, 2006, 51(Sup 1): 3-16.
[12] LIANG Haida. Advances in multispectral and hyperspectral imaging for archaeology and art conservation[J]. Applied Physics A, 2012, 106(2): 309-323.
[13] AFROMOWITZ M A, CALLIS J B,HEIMBACH D M, et al. Multispectral imaging of burn wounds: A new clinical instrument for evaluating burn depth[J].IEEE transactions on bio-medical engineering, 1988, 35(10): 842-850.
[14] CARRASCO O,GOMEZ R B,CHAINANI A, et al. Hyperspectral imaging applied to medical diagnoses and food safety[J]. Proceedings of Spie-the International Society for Optical Engineering, 2003, 5 097: 215-221.
[15] ADAM E,MUTANGA O,RUGEGE D. Multispectral and hyperspectral remote sensing for identification and mapping of wetland vegetation: A review[J]. Wetlands Ecology & Management, 2010, 18(3): 281-296.
[16] GOVENDER M,CHETTY K,BULCOCK H. A review of hyperspectral remote sensing and its application in vegetation and water resource studies[J]. Water SA, 2009, 33(2):141-145.
[17] REN J,ZABALZA J,MARSHALL S, et al. Effective feature extraction and data reduction in remote sensing using hyperspectral imaging[J]. IEEE Signal Processing Magazine, 2014, 31(4): 149-154.
[18] ZHU Yaodi,ZOU Xiaobo,SHEN Tingting, et al. Determination of total acid content and moisture content during solid-state fermentation processes using hyperspectral imaging[J]. Journal of Food Engineering, 2016, 174: 75-84.
[19] MUNERA S,BESADA C,ALEIXOS N, et al. Non-destructive assessment of the internal quality of intact persimmon using colour and VIS/NIR hyperspectral imaging[J]. LWT - Food Science and Technology, 2017, 77: 241-248.
[20] LING Yan,XIONG Chuanwu,HAO Qu, et al. Non-destructive determination and visualisation of insoluble and soluble dietary fibre contents in fresh-cut celeries during storage periods using hyperspectral imaging technique[J]. Food Chemistry, 2017, 228: 249-256.
[21] FERREIRA D S,GALO O F,PALLONE J A L, et al. Comparison and application of near-infrared (NIR) and mid-infrared (MIR) spectroscopy for determination of quality parameters in soybean samples[J]. Food Control, 2014, 35(1): 227-232.
[22] HE Hongju, WU Di, SUN Dawen. Rapid and non-destructive determination of drip loss and pH distribution in farmed Atlantic salmon (Salmo salar) fillets using visible and near-infrared (Vis-NIR) hyperspectral imaging[J]. Food Chemistry, 2014, 156:394-401.