白酒糟醅作为大曲和窖泥中微生物代谢的基质,其成分含量对于白酒产量和品质有着重要的影响。因此在糟醅入窖和出窖时均需对其主要成分含量(酸度、还原糖、水分、pH值)进行检测,为下一批次糟醅的配料和入窖条件提供参考依据。其中酸度是糟醅质量评价的重要检测指标之一,检测糟醅中酸度含量可以充分了解发酵池中微生物的代谢和生长情况。当前,糟醅理化指标的检测方法主要包括高效液相色谱(HPLC)、气相色谱(GC)、质谱(MS)以及这些技术的组合[1-2]。然而上述检测方法具有操作过程繁琐和检测周期长的特点,无法实现糟醅理化指标的快速检测,具有滞后性。尽管已有采用近红外光谱(near infrared spectroscopy,NIR)检测糟醅中水分、酸度、淀粉等的研究[3],但NIR技术只能进行单点检测[4-5],不能获取被检测成分的分布情况。因此,急需一种快速无损的方法检测糟醅中的酸度。
高光谱技术是一种将成像技术和光谱技术相结合的多维信息获取技术,具有数据量大、光谱分辨率高、波段多等特点,近年来已广泛应用于食品、农产品等领域的成分检测。陈彩虹等[6]使用高光谱技术建立核桃壳、核桃仁、分心木的最小二乘支持向量机(least squares-support vector machine,LS-SVM)判别模型,其准确率分别达到了100%、100%、99%。吴龙国等[7]使用高光谱技术建立的多元回归(multiple linear regression,MLR)模型检测土壤含水率,其决定系数和均方根误差分别为0.979和0.763%。韩仲志等[8]使用高光谱技术对花生中黄曲霉素B1的含量进行建模和分析,建立的支持向量机回归(support vector regression,SVR)模型训练集误差只有0.89%。陈李品等[9]使用高光谱技术结合化学计量学检测牡蛎干制加工过程中的水分含量,建立的BP神经网络模型得到较好的预测结果,其预测集决定系数达到0.981 7,预测集均方根误差(root mean square error prediction,RMSEP)达到3.006 3%。上述研究表明高光谱技术适合于食品和农产品的质量检测和安全性研究,但结合高光谱成像技术对糟醅酸度值的检测却鲜有报道。
本研究为实现糟醅发酵过程中酸度值的快速、高精度检测。本文基于不同的预处理算法建立偏最小二乘回归(partial least-squares regression,PLSR)模型,确定最优的预处理方法。同时为了提高模型的运算速度,采用竞争自适应加权抽样(competitive adaptive reweight sampling,CARS)算法提取特征波段对模型进行了必要的简化。基于全波长和特征波长分别建立PLSR和LS-SVM模型进行酸度值的预测,并得出最优的模型。
糟醅样本,四川宜宾某酒厂,该批样本出窖时间为3月15日,窖内发酵30 d左右。由于酸度含量在不同窖池及其不同位置均存在较大的差异性,故随机选取了14个不同窖池,以及同一窖池的不同位置进行取样。采用旋转式取样器采集不同窖池的上、中、下层糟醅样品(分别距窖池平窖处的高度0.6、1.1、2 m)。每一层随机采集3个样本点,并标注采集的窖池号和采集样本层号放入无菌密封袋中,共采集126个样本。
糟醅酸度值根据GB/T 12456—2008中的pH电位来测定,其方法是根据酸碱中和原理,用碱液滴定试管中的酸,以酚酞为指示剂滴定终点。式样的酸度值计算如公式(1)所示:
(1)
式中:X,酸度值,g/kg;c,NaOH浓度,mol/L;V,NaOH滴定体积,mL;K,酸的换算系数;F,试液的稀释倍数;m,式样的质量数值,g。
高光谱采集系统由FX17e型高光谱(Specim,芬兰)、一组功率为150 W的卤素灯光源、装有专用软件(Lumo-scanner,芬兰)的计算机、载物台以及辅助支架等组成。相机参数:光谱采集范围900~1 700 nm,光谱波段为224个,波段间隔为3.5 nm。参数设置:曝光时间为4.02 ms,数据采集频率为50 Hz,平台移动速度为16.57 mm/s。
为获得稳定光谱数据,预热采集系统10 min,并调整系统参数。将糟醅均匀填充至与培养皿边缘齐平,放置在采集系统的载物台上开始光谱数据采集,得到126组糟醅原始光谱数据。
为消除镜头中暗电流、光强度变化等对采集数据的影响,在采集数据前进行黑白校正以提高信噪比。先采集标准白色聚四氟乙烯(反射率为99%)校正板作为白板,再采集镜头关闭图像(反射率为0%)作为黑板,光谱反射率计算如公式(2)所示:
(2)
式中:I,校正后光谱反射率;I0,原始高光谱图像;B,全黑的标定图像;W,全白的标定图像。
校正后选取糟醅样本的感兴趣区域(region of interest,ROI),将ROI中的光谱进行平均处理后作为糟醅样本的原始光谱数据,得到126组光谱数。
1.4.1 光谱数据预处理
由于暗电流、环境光等因素的影响,采集的原始光谱中掺杂了与样本无关的信息。采用合适的光谱预处理算法可以有效减弱各种因素对酸度原始光谱数据的影响,提高预测模型的稳定性和预测能力。本文采用3种预处理算法:多元散射校正(multiplicative scatter correction,MSC) [10]、卷积平滑(savitzky-golay,SG) [11]、标准正态变换(standard normal distribution,SNV) [12]分别对原始光谱数据进行预处理。
1.4.2 特征波长筛选
获取的高光谱数据量大,各个波段的相关性大,其中包含很多冗余信息和干扰信息,影响建模的效率。因此采用合适的方法筛选与表征指标相关的特征波长,提高建模效率。相比于迭代保留信息变量 (iteratively retain information variables,IRIV) 算法和连续投影算法(successive projections algorithm,SPA),CARS算法[13]具有更好的效果,该算法可以去除无关变量并降低变量的共线性,因此将CARS作为优化算法提取特征波长。
1.4.3 数学模型的建立与评价
LS-SVM[14]是在支持向量机的基础上进行了优化,以减少计算量提升建模的效率,可以解决小样本、局部最小点、非线性等问题。PLSR[15-16]是一种多对多的线性回归建模方法,可以有效简化数据结构,解决多个变量间高度线性相关的问题。
模型优劣性的评估采用校正集决定系数预测集决定系数校正集均方根误差(root mean square error calibration,RMSEC),RMSEP。其中决定系数和越接近于1越好,RMSEC和RMSEP越接近0越好。
1.4.4 酸度值可视化
糟醅酸度值的可视化彩色分布图直观地显示出酸度值的二维分布情况,可以更好观察不同层糟醅酸度值的含量及其分布情况[17],掌握糟醅酸度分布及其差异性的均一性。
采用光谱-理化共生距离(sample set partitioning based on joint x-y distance,SPXY)分类算法将采用pH电位法测定的糟醅酸度值按约5∶1的比例将样本划分为训练集和预测集,见表1。
高光谱具有丰富的信息,实验中高光谱的采集范围为900~1 700 nm,共有224个波段。图1显示了糟醅样本的原始光谱,可以看出随着波长的增加,反射率呈下降趋势。不同层糟醅样本的酸度值不同,因此光谱的吸收存在差异,这主要由于有机酸中羧基团在此处产生较强的吸收。反射率曲线的吸收峰大约在1 200、1 430 nm,这表明有机酸中的羧基团的吸收带主要存在于1 200、1 430 nm附近[18]。
表1 糟醅酸度值训练集和预测集的真实分布
Table 1 True distribution of acidity training set and prediction set of grains
数据集样本数最大值/(g·kg-1)最小值/(g·kg-1)均值/(g·kg-1)方差总样本数12615.794 39.897 712.076 52.503 8训练集 10515.794 39.897 712.086 62.424 5测试集 2115.782 19.905 012.030 52.989 6
图1 原始光谱图
Fig.1 Original spectrogram
分别使用SNV、MSC以及SG算法对原始光谱数据进行预处理,并基于3种预处理光谱与原始光谱建立PLSR预测模型,建模效果如表2所示。经过MSC预处理所建立的PLSR模型的效果最佳,预测集决定系数为0.931 1,RMSEP为0.075 4 g/kg,优于其他预处理方法。这是因为MSC算法用于解决由于固体颗粒的分布不均、颗粒的大小以及光程的变化产生的散射影响,而糟醅是由高粱、糠壳等颗粒状的粮食组成,因此有良好的预处理效果。后续建模分析均基于MSC算法预处理后的样本光谱进行分析,经MSC预处理后的样本光谱图如图2所示。
表2 不同预处理下的PLSR建模效果
Table 2 PLSR modeling effect under different pretreatments
算法主成分因子数R2cRMSEC/(g·kg-1)R2pRMSEP/(g·kg-1)PLSR190.813 90.113 30.803 80.127 5SNV-PLSR150.912 40.077 80.901 90.091 2MSC-PLSR140.947 80.060 10.931 10.075 4SG-PLSR270.939 80.074 40.921 00.081 2
图2 MSC预处理效果
Fig.2 Pretreatment effect of MSC
光谱数据信息量大且数据冗余,全波段建模效率较低。在保证建模精度的基础上简化模型;降低计算复杂度;提升建模效率。采用CARS作为优化方法提取特征波段,设定蒙特卡罗采样次数N=50,随机选取80%的样本作为校准集,其与不同算法的建模效果见表3。
表3 不同波段数建模效果
Table 3 modeling effect of different band numbers
算法组合波段数主成分因子数R2cRMSEC/(g·kg-1)R2pRMSEP/(g·kg-1)MSC-LS-SVM224/0.996 70.015 00.996 30.017 580/0.986 40.033 80.985 40.035 7MSC-CARS-LS-SVM73/0.976 20.043 80.975 40.046 960/0.978 50.043 60.977 10.045 738/0.963 60.050 20.961 80.058 0MSC-PLSR224140.947 80.060 10.931 10.075 427170.928 90.069 60.915 90.084 2MSC-CARS-PLSR25190.923 60.072 60.910 30.086 430180.928 70.070 20.927 00.078 132160.934 00.067 50.933 70.074 6
注:“/”表示没有主成分因子
从表中可知LS-SVM建模精度明显优于PLSR建模精度,且特征波段数与模型预测精度成正比。但采用特征波长建模不仅能够加快运算速度提高模型效率,且精度也没有受到太大影响,因此考虑到建模效率与模型精度的平衡,选择波段数为38时建立的LS-SVM预测模型为最优预测模型,其预测集决定系数为0.968 1,RMSEP为0.058 0 g/kg,波段减少了83.04%。得到的38个波段分布如图3所示,CARS提取特征波段过程如图4所示。
图3 CARS提取特征波段分布
Fig.3 Distribution of characteristic bands extracted by CARS
a-采样变量数;b-交叉验证均方根;c-回归系数路径
图4 CARS特征波段筛选过程
Fig.4 Selection process of CARS characteristic bands
图3中蓝色光谱曲线为126个糟醅样本的平均光谱反射率曲线,红色标记点对应选择的波段位置。糟醅酸度值含量的特征波长主要分布在光谱曲线的波峰波谷附近。从图4-a可以看出,随着采样次数的增加,保留波长的数量会快速地减少,而后减少得较慢,最后不发生变化,这表明CARS对波长变量的选择是一个从粗略选择到精细选择的过程。从图4-b中可以看出,当采样次数为1~16次时,RMSECV的值逐渐变小;当采样次数为16次时,RMSECV的值最小为0.163 4;当采样次数>16次后,RMSEC的值逐渐增加。上述过程表明,当采样次数<16次时,CARS算法滤除与糟醅酸度无关的光谱信息。图4-c中“*”所示位置是当采样次数为16次时RMSECV的值最小,在该采样次数保留下的变量即为所提取的特征波长,共38个。
将21个未参与建模的样本导入MSC-CARS-LS-SVM预测模型中进行模型验证,其预测集建模效果见图5。真实值与预测值无明显差异,说明模型的预测结果较为准确。
图5 样本预测集建模效果
Fig.5 Modeling effect of sample prediction set
提取糟醅样本高光谱图像每个像元的光谱反射率,依据预测模型计算酸度值的形成灰度图像,最后对灰度图像进行伪彩色处理,得到酸度值的可视化彩色分布图。选择同一发酵池中下层、中层、上层相同取样点的糟醅样本高光谱图像,提取每个像素的光谱反射率导入到LS-SVM模型中,计算每个像素点的酸度值形成灰度图像,然后进行伪彩色处理得到酸度值的可视化云图,如图6所示。
a-下层糟醅;b-中层糟醅;c-上层糟醅
图6 糟醅酸度值可视化云图
Fig.6 Visible cloud diagram of acidity value of fermented grains
由图6可知,下层糟醅酸度值主要在12.256 3~13.435 6 g/kg,中层糟醅酸度值主要在11.077 0~12.256 3 g/kg,上层糟醅酸度只要在9.897 7~11.077 0 g/kg。由此可见不同层糟醅的酸度含量是不同的,其中下层酸度含量最大,上层含量最小,这是因为不同层次糟醅的配料(大曲、原料等)的配比不同造成上、中、下层糟醅的酸度值差异较大[19]。同时在酸度值高的地方不利于微生物的生长与繁殖,不利于糟醅的发酵。因此可以调整不同层糟醅的配料配比减少不同层糟醅的差异性从而减少其酸度值的含量,使微生物的生长环境得到改善,有利发酵的进行[20]。
高光谱技术采集的光谱数据是一个数据立方体,不仅包含二维几何空间信息,还包括一维光谱信息。二维空间信息有利于ROI的可视化酸度分析,本文以像素为单位显示糟醅酸度含量的检测结果,获取整个可视区域的酸度含量分布图,从而直观地判断糟醅的发酵质量。与NIR[21]、傅里叶变换红外光谱[22]和近红外透射光谱[23]不同,高光谱可以检测样本中所有像素的物质含量,从而减少异质性对样品总体平均物质含量估算的影响。一维频谱信息比上述3种单点检测技术覆盖的频带更多,可以获得更准确、更丰富的信息。在这项研究中,高光谱提供了224个波段的光谱信息,建立了精确的LV-SVM检测模型
在使用NIR技术检测白酒糟醅酸度值方面,熊雅婷等[24]采用NIR数据的特征波段建立的偏最小二乘法(partial least square,PLS)模型预测糟醅酸度值,基于特征波段的SG-CARS-PLS方法所建模型效果最佳,预测集决定系数为0.943 3,RMSEP为0.273 1。与上述研究相比,本研究建立的MSC-CARS-LS-SVM检测模型预测集决定系数为0.961 8,RMSEP为0.058 0 g/kg。本研究采用高光谱技术进一步提高糟醅酸度值的检测精度,准确的检测可为发酵条件的调控以及入窖配料的配比提供参数指导而更快的检测速度能满足在线检测的速度要求。
本文利用高光谱成像系统采集的糟醅光谱信息,选择合适的预处理方法结合CARS筛选特征波长,建立PLSR和LS-SVM预测模型快速定量地预测酸度值。结果表明,选择MSC预处理算法结合CARS选取的38个特征波长所建立的LS-SVM预测模型效果最佳,其预测集决定系数为0.961 8,RMSEP为0.058 0 g/kg。因此,高光谱技术用于糟醅酸度值快速检测是可行的,为糟醅发酵状态判断和配料调整提供参考依据。
[1] 魏志阳, 李秋志, 邢爽, 等.HPLC法同时测定清香类酒醅中主要酸和酯类物质[J].中国酿造, 2018, 37(8):167-171.
WEI Z Y, LI Q Z, XING S, et al.Simultaneous determination of main acids and esters in fermented grains of light-flavor Baijiu by HPLC[J].China Brewing, 2018, 37(8):167-171.
[2] 刘晓, 刘广瑞, 隋璐, 等.应用HS-SPME结合GC-MS分析半固态发酵浓香型酒醅中挥发性成分[J].酿酒科技, 2020(4):102-106;110.
LIU X, LIU G R, SUI L, et al.HS-SPME-GC-MS analysis of volatile components in nongxiang fermented grains by semi-solid fermentation[J].Liquor-Making Science & Technology, 2020(4):102-106;110.
[3] 余松柏, 赵小波, 田敏, 等.近红外光谱技术在快速检测白酒酒醅中的应用[J].酿酒科技, 2021(2):59-64.
YU S B, ZHAO X B, TIAN M, et al.Application of near infrared spectrometry in rapid detection of fermented grains of Baijiu[J].Liquor-Making Science & Technology, 2021(2):59-64.
[4] 石吉勇, 胡雪桃, 朱瑶迪, 等.高光谱图像技术定量检测香醋醋醅水分分布均匀性[J].中国食品学报, 2018, 18(2):250-255.
SHI J Y, HU X T, ZHU Y D, et al.Quantitative detection of homogeneity of moisture content distribution in vinegar culture by hyperspectral imaging technique[J].Journal of Chinese Institute of Food Science and Technology, 2018, 18(2):250-255.
[5] 于宏威, 王强, 石爱民, 等.高光谱成像技术结合化学计量学可视化花生中蛋白质含量分布[J].光谱学与光谱分析, 2017, 37(3):853-858.
YU H W, WANG Q, SHI A M, et al.Visualization of protein in peanut using hyperspectral image with chemometrics[J].Spectroscopy and Spectral Analysis, 2017, 37(3):853-858.
[6] 陈彩虹, 张淑娟, 孙海霞, 等.高光谱成像技术在核桃壳仁检测中的应用[J].山西农业大学学报(自然科学版), 2018, 38(11):27-32.
CHEN C H, ZHANG S J, SUN H X, et al.Application of hyperspectral imaging technology in identification of walnut shell and kernels[J].Journal of Shanxi Agricultural University(Natural Science Edition), 2018, 38(11):27-32.
[7] 吴龙国, 王松磊, 何建国.基于高光谱技术的土壤水分无损检测[J].光谱学与光谱分析, 2018, 38(8):2 563-2 570.
WU L G, WANG S L, HE J G.Study on soil moisture mechanism and establishment of model based on hyperspectral imaging technique[J].Spectroscopy and Spectral Analysis, 2018, 38(8):2 563-2 570.
[8] 韩仲志, 刘杰.高光谱亚像元分解预测花生中的黄曲霉毒素B1[J].中国食品学报, 2020, 20(3):244-250.
HAN Z Z, LIU J.Detecting aflatoxin B1 in peanuts by hyperspectral subpixel decomposition[J].Journal of Chinese Institute of Food Science and Technology, 2020, 20(3):244-250.
[9] 陈李品, 于繁千惠, 陶然, 等.基于高光谱成像技术预测牡蛎干制加工过程中的水分含量[J].中国食品学报, 2020, 20(7): 261-268.
CHEN L P, YU F Q H, TAO R, et al.Prediction of moisture content in oyster drying process based on hyperspectral imaging[J].Journal of Chinese Institute of Food Science and Technology, 2020, 20(7):261-268.
[10] XIA C J, REN M, WANG B, et al.Acquisition and analysis of hyperspectral data for surface contamination level of insulating materials[J].Measurement, 2021, 173:108560.
[11] ZHANG L, SUN H, RAO Z H, et al.Non-destructive identification of slightly sprouted wheat kernels using hyperspectral data on both sides of wheat kernels[J].Biosystems Engineering, 2020, 200:188-199.
[12] OUYANG Q, WANG L, PARK B, et al.Simultaneous quantification of chemical constituents in matcha with visible-near infrared hyperspectral imaging technology[J].Food Chemistry, 2021, 350(6):129141.
[13] 许建东, 张淑娟, 郑小南, 等.高光谱技术结合变量选择方法的甘薯冻害检测研究[J].食品与发酵工业, 2021, 47(8):197-203.
XU J D, ZHANG S J, ZHENG X N, et al.Study on the detection of sweet potato freezing damage based on hyperspectral technology and variable selection method[J].Food and Fermentation Industries, 2021, 47(8):197-203.
[14] HU J, XU Z, LI M P, et al.Discriminant analysis and quantitative study of antibiotics in infant milk powder based on hyperspectral detection[J].Vibrational Spectroscopy, 2021, 114:103244.
[15] DE G, LIN X H, SUN D W.Rapid and noninvasive sensory analyses of food products by hyperspectral imaging:Recent application developments[J].Trends in Food Science & Technology, 2021, 111:151-165.
[16] ACHATA E M, ESQUERRE C, GOWEN A A, et al.Feasibility of near infrared and Raman hyperspectral imaging combined with multivariate analysis to assess binary mixtures of food powders[J].Powder Technology, 2018, 336:555-566.
[17] 孙红, 刘宁, 吴莉, 等.高光谱成像的马铃薯叶片含水率分布可视化[J].光谱学与光谱分析, 2019, 39(3):910-916.
SUN H, LIU N, WU L, et al.Visualization of water content distribution in potato leaves based on hyperspectral image[J].Spectroscopy and Spectral Analysis, 2019, 39(3):910-916.
[18] MARTNEZ GILA D M, CANO MARCHAL P, GMEZ GARCA J, et al.On-line system based on hyperspectral information to estimate acidity, moisture and peroxides in olive oil samples[J].Computers and Electronics in Agriculture, 2015, 116(C):1-7.
[19] 张大凤, 李可, 刘森, 等.中国浓香型白酒窖池糟醅中微生物群落演替分析[J].食品科学, 2012, 33(15):183-187.
ZHANG D F, LI K, LIU S, et al.Microbial community succession of Chinese Luzhou-flavor liquor lees[J].Food Science, 2012, 33(15):183-187.
[20] 胡晓龙, 王康丽, 余苗, 等.浓香型酒醅微生物菌群演替规律及其空间异质性[J].食品与发酵工业, 2020, 46(10):66-73.
HU X L, WANG K L, YU M, et al.Microbial community succession pattern and spatial heterogeneity in fermented grains of strong-flavor Baijiu[J].Food and Fermentation Industries, 2020, 46(10):66-73.
[21] 曹建全, 刘雪, 李霞, 等.近红外光谱快速分析景芝白酒酒醅指标的研究[J].酿酒科技, 2015(4):109-111.
CAO J Q, LIU X, LI X, et al.Rapid detection of fermented grains of Jingzhi Baijiu(liquor) by near-infrared spectroscopy[J].Liquor-Making Science & Technology, 2015(4):109-111.
[22] 刘翠英, 张津瑞, 曾涛, 等.傅里叶变换红外光谱的土壤团聚体有机碳和全氮含量估测[J].光谱学与光谱分析, 2020, 40(12):3 818-3 824.
LIU C Y, ZHANG J R, ZENG T, et al.Determination of soil organic carbon and total nitrogen contents in aggregate fractions from Fourier transform infrared spectroscopy[J].Spectroscopy and Spectral Analysis, 2020, 40(12):3 818-3 824.
[23] 郭俊先, 马永杰, 郭志明, 等.流形学习方法及近红外透射光谱的新疆冰糖心红富士水心鉴别[J].光谱学与光谱分析, 2020, 40(8):2 415-2 420.
GUO J X, MA Y J, GUO Z M, et al.Watercore identification of Xinjiang Fuji apple based on manifold learning algorithm and near infrared transmission spectroscopy[J].Spectroscopy and Spectral Analysis, 2020, 40(8):2 415-2 420.
[24] 熊雅婷, 李宗朋, 王健, 等.近红外光谱波段优化在白酒酒醅成分分析中的应用[J].光谱学与光谱分析, 2016, 36(1):84-90.
XIONG Y T, LI Z P, WANG J, et al.The near infrared spectral bands optimal selection in the application of liquor fermented grains composition analysis[J].Spectroscopy and Spectral Analysis, 2016, 36(1):84-90.