基于高光谱成像技术的大曲酸度值预测及其可视化

孙婷1,胡新军1*,田建平1,王开铸1,黄丹2,彭兴辉1

1(四川轻化工大学 机械工程学院,四川 宜宾,644000)2(四川轻化工大学 生物工程学院,四川 宜宾,644000)

摘 要 酸度值是大曲质量评价的重要指标,提出了一种基于高光谱成像技术快速检测大曲发酵过程中酸度值的方法。通过采集大曲高光谱图像并提取感兴趣区域(region of interest,ROI)的平均光谱,采用多元散射校正(multiplicative scatter correction,MSC)、标准正态变量校正(standard normal variable correction,SNV)和S-G卷积平滑后一阶导(savitzky-golay smoothing first derivative,SGFD)3种预处理方法,再通过连续投影算法(successive projection algorithm,SPA)选取最优的特征波长,分别建立偏最小二乘回归(partial least squares regression,PLSR)和最小二乘支持向量机(least squares-support vector machine,LS-SVM)预测模型,结果显示,基于SPA从SNV预处理光谱中筛选的8个最优特征波长建立的LS-SVM模型预测大曲酸度值效果最好,其中预测集决定系数(determination coefficient of 为0.913 2,预测集均方根误差(root mean square error of prediction,RMSEP)为0.008 1。通过将ROI反射率输入最优的SNV+SPA+LS-SVM预测模型中,生成了大曲酸度值可视化云图,实现了不同发酵时期的酸度值及其分布的直观显示。结果表明,利用高光谱成像技术可实现大曲酸度值快速检测和可视化分布。

关键词 高光谱成像;大曲;酸度值;数学建模;可视化

大曲主要以生料小麦为原料,通过自然网罗制曲环境中的微生物接种发酵,微生物在曲坯中此消彼长, 自然积温转化并风干而成的一种多酶多菌的微生态制品[1]。这种多酶多菌的微生态制品提供了白酒发酵所需的糖化力、液化力和形成白酒复杂风味成分的前驱物质[2],是影响白酒风格和酒质的重要物质基础。因此自古就有“曲乃酒之骨”、“有好酒必有好曲”的精辟论断[3]

大曲质量检测手段的不完善是制约传统白酒生产进一步发展的一个重要原因[4]。目前衡量大曲质量的优劣主要是根据大曲的水分、酸度、淀粉、发酵力、酯化力、糖化力等理化指标, 再辅以感官综合评判[5]。其中大曲酸度是一个重要指标,大曲酸度主要来源于生酸微生物进行有机酸代谢以及脂肪、淀粉和蛋白质的降解,可作为判断曲香强弱的一个指标[6]。检测酸度的传统方法一般为pH电位法[7],属于破坏性检测,其操作繁琐且耗时长,不能及时指导培曲生产,因此建立一种快速准确、实时高效的大曲酸度检测方法对于质量监控和分析研究具有重要意义。

近红外光谱技术作为高效快速的现代分析技术已被成功应用于白酒真伪度的鉴别[8],以及大曲的理化指标如水分[9]、糖化力[10]等的测定。但是近红外光谱技术仅能根据光谱信息计算其内部含量,无法获取图像信息,更不能实现内部含量的可视化[11]。高光谱成像技术融合了物质的图像信息和光谱信息的优点,通过图像中的每个像素点记录全光谱,可以实现物质内部组分的可视化分析[12]。因此被广泛应用于农产品的品质检测中[13-17]。但尚未见采用于大曲酸度检测的研究报道。

本研究以发酵过程中的大曲为研究对象,利用高光谱成像技术的优势挖掘光谱数据和酸度值之间的内在相关性,建立一种快速定量检测大曲酸度值的方法,为改善乃至替代传统检测手段提供数据支撑和方法参考。

1 材料与方法

1.1 样品准备

以四川宜宾某酒厂生产的大曲为样本,大曲发酵周期为春季(2018年4月18日~5月15日),共计28 d,在此期间经历2次并房,并房时间分别为4月21日和5月2号,并房时间不采集数据。从大曲成型入库到第2次并房期间,每天上午9时分别在2间曲房均匀分布的8个位置取样,共计13 d,由于第2次并房到发酵结束期间理化指标变化缓慢,所以隔天取样,共计7 d。取样时间总计20 d,得到160个大曲样本。

1.2 仪器与设备

高光谱图像采集系统主要由FX17E型高光谱相机(Specim,芬兰)2组功率为150 W的卤素灯光源、高精度电控载物台、装有专用软件(Lumo-scanner,芬兰)的计算机及辅助支架等组成。高光谱成像系统的光谱采集范围为900~1 700 nm,设定的曝光时间为4.02 ms,扫描速度为16.57 mm/s,工作时在样品垂直方向作横向扫描,由此得到包含224个波长分辨率为320×256的三维数据立方体。

1.3 高光谱图像获取

采集前高光谱成像系统预热10 min,调整好系统参数,均匀打碎大曲样本,筛分后填充至与培养皿边缘齐平,放置在上述系统的载物台上开始扫描样品,得到160组大曲的原始高光谱数据。

为了消除相机的物理结构、背景光强度、以及培养皿形状差异等产生的噪声影响,需要对获得的高光谱图像进行黑白校正,以降低噪音提高信噪比[18]。采集反射率为99%的标准白色聚四氟乙烯校正板作为白平衡,再采集反射率为0%的镜头关闭图像作为黑平衡,校正公式如公式(1)所示:

(1)

式中:I,校正后光谱反射率;I0,校正前Digital Number (DN)值数据;W,标准白板DN值数据;B,暗电流DN值数据。

校正后对高光谱图像进行感兴趣区域(region of interest,ROI)提取,每个样本提取一个80×80像素的圆形区域,求得每个ROI内所有像素点的平均光谱,得到160组光谱数据。

1.4 大曲酸度含量测定

大曲酸度值根据GB/T 12456—2008中的pH电位法来测定,试样的酸度值按公式(2)计算:

(2)

式中:X,酸度值,g/kg;c,NaOH标准溶液浓度,mol/L;VI,试样溶液消耗NaOH的体积,mL;V0,空白溶液消耗NaOH的体积,mL;K,酸的换算系数;F,试样稀释倍数;m,试样质量,g。在相同条件下,2次独立测试结果的绝对值差不得超过算术平均值的5%。

2 数据分析方法

2.1 光谱数据预处理

光谱预处理可以有效减弱环境、高光谱系统自身所带来的负面影响,提高预测模型精度,本文采用多元散射校正(multiplicative scatter correction,MSC)、标准正态变量校正(standard normal variable correction,SNV)和S-G卷积平滑后一阶导(savitzky-golay smoothing first derivative,SGFD)3种预处理方法。其中,MSC用来校正由于样品表面分布不均产生的光谱散射[19];SNV能高效地去除高频噪音,防止基线变化,优化光谱信号[20];S-G平滑滤波在抑制或消除随机噪声的同时,尽可能保留数据中的有用信息,求导能突出显示隐藏在光谱曲线中的不明显曲线峰谷变化,得到突显微弱影响因素的微分光谱曲线。

2.2 特征波长筛选

高光谱获取的样本数据量大,本文采集的900~1 700 nm内有224个波长,其中包含很多冗余和干扰信息,会影响模型的准确度,因此需要采用合适的方法筛选与表征指标高度相关的特征波长,以增加模型的鲁棒性和泛化性。本文采用连续投影算法(successive projection algorithm,SPA)进行特征波长提取,SPA算法是一种使矢量空间共线性最小化的前向变量选择算法,可以将有效的信息从大量的光谱数据中筛选出来,找到光谱变量之间共线性最小的特征波长,优化建模条件[21]

2.3 数学模型建立

选择恰当的数学算法将提取出的光谱信息和前期测定的酸度值数据建立密切关联性是至关重要的。本文采用偏最小二乘回归(partial least squares regression,PLSR)和最小二乘支持向量机(least squares-support vector machine,LS-SVM)建立大曲酸度值的回归模型。通过校正集决定系数(determination coefficient of 校正集均方根误差(root mean square error of calibration,RMSEC)、预测集决定系数(determination coefficient of 预测集均方根误差(root mean square error of prediction,RMSEP)对大曲酸度值预测模型的准确性和预测能力进行评价分析。

2.4 酸度值可视化分布

高光谱图像数据上每一个像素点都有一条包括全波长的光谱反射率曲线[22]。将大曲样本每个像素点的光谱数据代入以上最佳预测模型中,计算相应像素点的酸度值,得到灰度图像,对其进行伪彩色处理,最终获得大曲酸度值的可视化彩色分布图。其中红色代表高含量,蓝色代表低含量,可以根据颜色直观显示出不同发酵时期的大曲酸度值及其分布情况。

3 结果与分析

3.1 大曲酸度值的变化

通过pH电位法测得不同发酵周期的160个大曲样本酸度值,如表1所示,全部样本的酸度值含量为3.35~10.76 g/kg,平均值为5.245 9 g/kg,方差为0.116 6。根据Kennard-Stone(KS)算法将样本划分为120个训练集和40个测试集用于后续的建模。

表1 大曲样品酸度值统计表
Table 1 Statistics of acidity indicators for Daqu samples

数据集样本数酸度范围/(g·kg-1)均值/(g·kg-1)方差全体样本数据1603.3516~10.76045.24590.1166训练集1203.3516~10.49645.07830.0998测试集403.4623~10.76045.74900.1545

3.2 大曲样品的光谱特征

由于光谱曲线的首尾波长噪声较大,为了保证数据的稳定性,去掉首尾10个波长的数据,图1表示大曲样本204个波段的原始平均反射率光谱和经过3种预处理方式后得到的光谱。在波长范围内,原始光谱呈现均匀的阶梯型变化,这是由于随着发酵时间的进行,大曲水分逐渐散失导致反射率逐渐增大。MSC、SNV预处理的光谱特征整体变化趋势基本一致,在1 200、1 470 nm处出现2个吸收峰,但吸收峰位置高低有一些差异,这与样品成分中各种含氢基团物质的运动有关。而SGFD放大了原始光谱曲线的细节部分,凸显出光谱变化的趋势,可见大曲样本对1 150、1 400 nm这2个波长的光非常敏感,这是由于有机酸的主要特征羧基官能团在此处产生较强吸收。

3.3 基于全波长光谱预测大曲酸度值结果

分别基于原始光谱和3种预处理的204个波长,建立PLSR和LS-SVM两种酸度值预测模型,结果如表2所示。

由表2得知,基于原始光谱和3种预处理光谱建立的PLSR和LS-SVM模型预测大曲酸度值效果均良好,决定系数总体达到0.9以上,均方根误差均较小。

a-原始光谱; b-MSC预处理光谱; c-SNV预处理光谱; d-SGFD预处理光谱
图1 不同预处理下的大曲光谱曲线
Fig.1 Daqu spectral curve under different pretreatments

表2 PLSR和LS-SVM模型全光谱建模效果
Table 2 Statistics of modeling effect of PLSR and LS-SVM models in full spectrum

预处理方式预测模型训练集测试集R2cRMSECR2pRMSECNonePLSR0.97480.00250.90200.0145LS-SVM0.92940.00710.85590.0214MSCPLSR0.97540.00260.85740.0200LS-SVM0.94320.00610.87820.0171SNVPLSR0.95650.00470.86450.0188LS-SVM0.92200.00840.90420.0133SGFDPLSR0.95630.00430.89840.0162LS-SVM0.95840.00410.92960.0112

注:None-不采用预处理(下同)

从预测集精度综合比较而言,LS-SVM模型比PLSR模型具有更好的预测精度和鲁棒性,其中,SGFD预处理构建的LS-SVM模型表现效果最好,为0.929 6,RMSEP为0.011 2,因此可以作为基于全波长预测大曲酸度值的较好模型。

3.4 最优特征波长的选择

采用SPA算法分别从原始光谱、MSC、SNV和SGFD预处理后的204个波长中筛选出最优波长,结果如表3所示。其中筛选出的波长数量在8~20之间,光谱减少量在91%~97%。

表3 最优波长筛选结果比较
Table 3 Comparison of optimal wavelengths selected by SPA

预处理方法最优波长数最优波长/nm减少比率/%None201011.77、1123.04、1147.45、1171.9、1189.37、1245.4、1305.08、1343.78、1375.5、1393.14、1407.26、1421.39、1439.07、1463.84、1517.01、1548.98、1577.43、1605.92、1641.58、1666.5791.1MSC13970.19、1084.72、1182.38、1245.4、1315.62、1347.3、1361.39、1375.5、1400.2、1428.46、1470.92、1563.2、1670.1494.2SNV81004.83、1245.4、1315.62、1347.3、1396.67、1410.79、1424.92、1470.9296.4SGFD14977.11、1126.52、1143.96、1157.93、1350.82、1379.02、1386.08、1400.2、1403.73、1417.86、1421.39、1442.6、1463.84、1559.6493.8

3.5 基于特征波长光谱预测大曲酸度值结果

利用以上筛选的20、13、8和14个特征波长分别建立PLSR和LS-SVM酸度值预测模型,结果如表4所示。总体来说,LS-SVM在训练集和测试集的表现均优于PLSR,且LS-SVM模型训练集和测试集的精度差异更小,表明LS-SVM较PLSR具有更好的精度和稳健性。比较使用特征波长建模的LS-SVM模型,可以看出SNV预处理的8个特征波长建立的模型预测精度最高,为0.913 2,RMSEP为0.008 1,表明基于这8个特征光谱构建的LS-SVM模型可以实现大曲发酵过程的酸度值快速检测。

表4 PLSR和LS-SVM模型特征光谱建模效果
Table 4 Statistics of modeling effect of PLSR and LS-SVM models in characteristic wavelengths

预处理方式特征波长数预测模型训练集测试集R2cRMSECR2pRMSECNone20PLSR0.90530.01190.83430.0111LS-SVM0.94020.00750.87110.0086MSC13PLSR0.90130.01210.85630.0106LS-SVM0.93640.00780.88760.0083SNV8PLSR0.89070.01300.91500.0080LS-SVM0.89520.01250.91320.0081SGFD14PLSR0.89040.01370.90410.0064LS-SVM0.92260.00970.90130.0066

3.6 最优模型确定和酸度值可视化

综合考虑表2和表4,在900~1 700 nm波长范围内SNV预处理和SPA算法结合能有效选取特征波长,降低数据冗余,减少计算时间并能保证预测精度,最终确定SNV+SPA+LS-SVM为最优的大曲酸度值预测模型。

大曲发酵过程中,酸度值会随着水分蒸发和微生物的生长代谢等因素发生变化,酒企会根据酸度值大小来推测发酵状态以便及时地开关窗户,调整曲房温度。高光谱成像技术可以直观展示酸度值二维分布状况。均匀选择发酵时间为4月18日、4月23日、4月29日、5月6日、5月10日和5月15日的大曲高光谱图像,分别提取ROI内每个像素相应8个特征波长的光谱数据,将光谱数据代入到最优的SNV+SPA+LS-SVM模型中,计算每个像素点的酸度值形成灰度图像,然后进行伪彩色处理得到可视化云图,这样可以非常直观地感知酸度值变化,如图2所示。

a-4月18日; b-4月23日; c-4月29日; d-5月6日; e-5月10日; f-5月15日
图2 不同时期大曲酸度可视化分布
Fig.2 Visualization of Daqu acidity in different periods

由图3可知,不同发酵时间的大曲酸度值明显不同,随着发酵时间的进行,酸度值不断降低,颜色逐渐由红变蓝。4月18日中有部分红色区域,因为发酵刚开始时,产酸量很少,酸度值较高;随着发酵进行,4月23日测定的酸度值缓慢降低;4月29日中有少量红色区域,产酸细菌大量生长,产酸量增加,酸度值降低较快;经过一段时间的发酵,5月6日酸度值下降得更为明显;5月10日蓝色区域逐渐增多,产酸菌大量繁殖,产酸量增多,酸度值进一步下降;5月15日天蓝色颜色加深,但并不明显,这是由于发酵后期产酸菌活性逐渐降低导致大曲的酸度变化不明显。酸度值变化趋势与这6 d的实际检测值高度吻合,可以直观显示大曲酸度值分布,为判定大曲发酵状态,调节曲房环境提供了依据。

4 结论

本文利用高光谱成像系统采集的大曲光谱信息,选择不同的预处理方式结合筛选的特征波长,建立PLSR和LS-SVM预测模型快速定量评估大曲酸度值。结果显示,基于SPA算法从SNV预处理光谱中筛选的8个最优特征波长建立的LS-SVM模型预测大曲酸度值效果最好,其中为0.913 2,RMSEP为0.008 1。利用最优的SNV+SPA+LS-SVM预测模型可以将不同发酵时期的大曲高光谱图像感兴趣区域像素点转换成酸度值云图,且与实际检测值无显著差异。因此高光谱成像技术运用于大曲酸度值快速检测方面是可行的,为大曲发酵状态判定和曲房环境调控提供了理论基础。下一步将利用高光谱成像技术对其他理化指标进行研究,并不断优化相关数学算法,以期达到更好的建模效果。

参考文献

[1] 唐玲,陶雪容.基于粗集理论的大曲理化指标重要性分析[J].黑龙江科技信息,2011(17):36-37.

[2] 荣瑞金,李祖明,王德良,等.中国酒曲微生物研究进展[J].中国酿造,2009(6):5-8.

[3] 李超,穆琳,王建耀,等.汾型大曲的理化指标和微生物指标分析[J].中国酿造,2009,28(1):140-142.

[4] 徐占成,王加辉.代谢指纹技术在曲药分析中的应用[J].酿酒科技,2002(6):17-19.

[5] 王军凯,王卫东,蒋明,等.近红外光谱技术结合偏最小二乘法检测大曲糖化力[J].酿酒科技,2018(3):116-118.

[6] 曹振华,沈才洪,秦辉,等.泸型大曲中曲香与微生物和生理生化指标间的关系[J].酿酒科技,2016(3):42-44;48.

[7] 陈安静,周军,许德富,等.电位滴定法测定大曲酸度的研究[J].酿酒科技,2011(8):112-113.

[8] 王霓,应全红,白德奎,等.一种鉴别酱香型白酒真伪度技术方法的研究[J].中国酿造,2014,33(2):138-140.

[9] 胡心行,沈小梅,马雷,等.快速测定大曲水份新方法的研究[J].酿酒,2017,44(5):97-102.

[10] 刘国英.近红外光谱技术在大曲糖化力分析检测方面的应用[J].酿酒,2015,42(4):76-79.

[11] 于宏威,王强,石爱民,等.高光谱成像技术结合化学计量学可视化花生中蛋白质含量分布[J].光谱学与光谱分析,2017,37(3):853-858.

[12] 吴翔,张卫正,陆江锋,等.基于高光谱技术的玉米种子可视化鉴别研究[J].光谱学与光谱分析,2016,36(2):511-514.

[13] 詹白勺,章海亮,杨建国.基于高光谱成像技术的三文鱼肉水分含量的可视化研究[J].光谱学与光谱分析,2017,37(4):1 232-1 236.

[14] 何鸿举,王魏,王洋洋,等.基于近红外高光谱技术快速检测冷鲜猪肉酸价[J].食品与发酵工业,2020,46(10):264-270.

[15] 王魏,何鸿举,王玉玲,等.基于最优光谱信息的冷鲜鸡肉TBA值快速检测[J].食品工业科技,2020,41(14):222-227.

[16] 于慧春,王润博,殷勇,等.基于不同波段的枸杞多糖及总糖高光谱成像检测[J].食品科学,2017,38(8):191-197.

[17] 赵茂程,杨君荣,陆丹丹,等.基于高光谱成像的青梅酸度检测方法[J].农业机械学报,2017,48(9):318-323.

[18] 马惠玲,王若琳,蔡骋,等.基于高光谱成像的苹果品种快速鉴别[J].农业机械学报,2017,48(4):305-312.

[19] 何鸿举,王洋洋,王魏,等.基于不同预处理高光谱信息的鸡肉滴水损失率快速预测研究[J/OL].食品工业科技:1-11[2020-07-20].http://kns.cnki.net/kcms/detail/11.1759.TS.202-00224.1400.018.html.

[20] 朱敏,孙婷,白直真,等.基于可见光/近红外高光谱技术的窖泥总酸的分布研究[J].食品与发酵工业,2020,46(8):111-117.

[21] 禹文杰,王彩霞,乔芦,等.基于高光谱成像技术的泾源黄牛肉色度PLSR预测模型构建[J].浙江农业学报,2020,32(3):527-533.

[22] 孙红,刘宁,吴莉,等.高光谱成像的马铃薯叶片含水率分布可视化[J].光谱学与光谱分析,2019,39(3):910-916.

Prediction and visualization of Daqu acidity based on hyperspectral imaging technology

SUN Ting1,HU Xinjun1*,TIAN Jianping1,WANG Kaizhu1,HUANG Dan2,PENG Xinghui1

1(College of Mechanical Engineering,Sichuan University of Science & Engineering,Yibin 644000,China)2(College of Biotechnology Engineering,Sichuan University of Science & Engineering,Yibin 644000 China)

ABSTRACT Acidity value is an important index for quality evaluation of Daqu, a method based on hyperspectral imaging technology for rapid detection of the acidity value during the fermentation of Daqu was proposed. Hyperspectral images of Daqu samples and average spectrum of regions of interest (ROIs) were collected, original spectrum was pretreated by three methods including multivariate scattering correction (MSC), standard normal variable correction (SNV) and Savitzky-Golay first-order derivative (SGFD). Optimal characteristic wavelengths were selected by successive projection algorithm (SPA), then partial least squares regression (PLSR) and least squares support vector machine (LS-SVM) models were established. The results showed that the LS-SVM model built with 8 wavelengths performed better in prediction set, with determination coefficient of prediction is 0.913 2 and root mean square error of prediction (RMSEP) is 0.008 1. By inputting the spectrum of each pixel into the optimal SNV+ SPA + LS-SVM model, the visualization of the distribution map of acidity value in Daqu was obtained, the visualization of the acidity value and its distribution in different fermentation periods was realized.

Key words hyperspectral imaging; Daqu; acidity value; mathematical modeling; visualization

DOI:10.13995/j.cnki.11-1802/ts.024080

引用格式:孙婷,胡新军,田建平,等.基于高光谱成像技术的大曲酸度值预测及其可视化[J].食品与发酵工业,2020,46(17):226-231.SUN Ting,HU Xinjun,TIAN Jianping,et al. Prediction and visualization of Daqu acidity based on hyperspectral imaging technology[J].Food and Fermentation Industries,2020,46(17):226-231.

第一作者:硕士研究生(胡新军讲师为通讯作者,E-mail:xjhu@suse.edu.cn)

基金项目:四川省科技厅重点研发项目(2019YJ0475);四川轻化工大学研究生创新基金项目(y2019003);自贡市重点科技计划项目(2018CXJD06)

收稿日期:2020-03-27,改回日期:2020-04-27