白酒在中国有着悠久的历史和传承,已经成为我国必不可少的酒文化。相对其他酿造工艺,其最本质的区别在于中国白酒采用了传统的固态发酵技术[1-3]。而培曲工艺在整个固态酿造过程中占据非常重要的地位,大曲发酵的状态直接影响出酒品质[4]。大曲物质结构十分复杂,在发酵过程中涉及众多微生物以及物质变化[5]。传统大曲品质评定主要依靠人工经验,局限在感官层面上。随着检测技术的发展,目前大曲品质主要从感官、理化、生化、微生物等方面进行评定[6]。感官评定依靠人工经验,误差不可控;理化、生化与微生物依靠化学检测和生物技术,检测周期长,劳动强度大,检测成本高,并且大曲中很多微量物质变化在化学检测中也很难直接检测。因此,在大曲检测中引入高光谱成像技术[7-8]。高光谱技术是基于机器视觉的无损检测技术,融合二维空间的图像信息和一维空间的光谱信息[9-10]。理论上,可以快速无损的对大曲物质成分进行检测,进而进行品质评价和发酵条件的调控[11-12]。但在实际检测过程中发现,大曲物质成分复杂,很多微量物质的变化对大曲品质的评定和发酵过程都有着重要的影响。但在光谱信息中,含量较大的物质将微量物质信息掩盖,难以直接反映各物质的变化情况。因此,亟需一种针对大曲的混元物质光谱进行分解的技术[13-14]。
近年来高光谱发展迅速,从传统的遥感领域,发展到农作物、食品检测,以及军事领域,但针对光谱解混的研究主要还是遥感领域的地物解混[15]。目前对于高光谱解混技术的研究进展迅速,许多解混方法被引入,主要可分为几何法、稀疏回归法和统计学方法[16-18],这些方法多为有监督类型或半监督类型方法。RAJABI等提出一种将光谱特征矩阵建模为稀疏矩阵乘积的多层非负矩阵(Multi Level Nonnegative Matrix Factorization,MLNMF)分解方法对高光谱数据进行分解,通过相应的数据测试,可以有效的对光谱数据进行分解[19];张向荣等提出一种深度卷积神经网络(Convolutional Neural Networks, CNN)的高光谱解混方法,通过CNN提取特征,并将特征映射获得丰度百分比[20];PALSSON等提出一种神经网络自编码的高光谱分解方法,评估了浅层编码器和深层编码器的几种不同架构配置[21]。深度自编码网络以其无监督、适应性强等特性被应用于光谱解混领域。因此针对大曲高光谱检测中所面临的问题,本研究提出一种基于深度自编码的无监督高光谱大曲解混技术,对大曲物质混元光谱曲线进行分解。本课题所针对的研究对象(大曲高光谱数据)不同于传统的地物解混,目的是为了分解出混元大曲曲线的纯净物质曲线,以便于后期对大曲品质的定性、定量检测分析。
由上可知,本课题采用深度自编码算法对大曲高光谱数据进行解混研究。以浓香型大曲的高光谱曲线为解混对象,先以大曲光谱数据自身为参照,对光谱数据进行编码再解码的模型训练过程,当模型误差满足要求后,记录下模型权重信息,重建一个相似自编码模型,取出中间部分特征值,使其通过第一步建立的模型权重,得到解混曲线;运用欧氏距离和皮尔逊相似度算法,同时对解混出的光谱曲线与采集的真实曲粉光谱曲线进行比较,从而评价解混效果。
芬兰SPECIM FX17相机,光谱波段为900~1 700 nm,共224个波段;LSCA-0 817-51移动控制平台;德国OSRAM的DECOSTA1 ES M6卤素灯光源;Lumo Scanner(LS)采集控制系统。
1.2.1 曲粉水分梯度实验
由于大曲在不同发酵阶段物质成分变化较大且复杂,很难有对解混效果进行比对分析,因此本研究先设计物质量变化相对单一的曲粉水分梯度实验,分别取等量的曲粉加入3、6、9、12、15、18 mL的纯水均匀混合。具体采集情况如表1所示。
表1 数据采集说明
Table 1 Description of data acquisition
实验组数采集说明采集时间1在圆形实验皿中加入50 g曲粉18∶15250 g曲粉与3 mL水均匀混合18∶30350 g曲粉与6 mL水均匀混合18∶45450 g曲粉与9 mL水均匀混合19∶00550 g曲粉与12 mL水均匀混合19∶15650 g曲粉与15 mL水均匀混合19∶30750 g曲粉与18 mL水均匀混合19∶45850 g石英砂粉末20∶00950 g石英砂粉末与20 mL水均匀混合20∶15
1.2.2 纯水数据采集实验
由于上述所采用的高光谱相机采集的是反射谱,纯水等透明液体具有很强的透光性,因此不能直接采集。本研究通过实验分析,如图1中所示,石英砂光谱曲线平稳,不存在较大的特征吸收峰,不会影响其他物质光谱曲线形状;并且石英砂呈白色,作为承载物不存在颜色干扰;化学性质稳定不会与水发生反应。因此综合考虑颜色、化学性质与光谱曲线等多方面因素,选择石英砂作为纯水载体,拍摄近似水分纯光谱曲线信息。具体用量如表1中实验组8、9所示。
图1 石英砂粉末曲线与加水石英砂水分曲线
Fig.1 Powder curve and water content curve of quartz sand
在高光谱相机采集数据时,会受到暗电流、光量子等噪声干扰。为减少噪声对数据结果影响,优化光谱信息,提高解混的准确性,需要对原始高光谱数据进行黑白校正预处理,计算如公式(1)所示,其中R是校正过的反射数据,DNraw是原始数据,DNdark是黑板校正数据,DNwhite是白板校正数据。
(1)
在数据提取时高光谱数据中并非所有数据都是实验所需数据,因此本研究采用图像处理中的阈值分割方法对数据位置进行快速定位与筛选,并通过腐蚀膨胀,去除边缘毛刺与中间的孔洞点,处理效果如图2所示。
a-原图;b-阈值分割;c-有效区域划分;d-ROI划分
图2 图像预处理以及ROI划分
Fig.2 Image preprocessing and ROI partition
由于在深度学习中需要大量的数据样本,对模型进行训练。本研究在上述阈值分割定位过后,通过定位圆心,划分有效数据范围,如图2-c所示。在范围内随机生成像素尺寸半径为2的感兴趣区域(region of interest,ROI),并取ROI区域中的反射率平均值作为样本曲线。3~18 mL水分梯度样本中,每个数据样本中取2 000个ROI,如图2-d所示,采集训练用总数据为12 000个,成品大曲粉与石英砂与水混合的数据样本以及上述实验梯度样本中取解混测试样本分别为200个,总计1 600个。
解混算法依赖于光谱实际的混合情况,目前高光谱的混合模型主要分为两类:线性混合模型[22]和非线性混合模型[23]。其中线性模型具有简洁、高效、物理含义明确的特点,从而成为光谱解混领域的研究热点。为了探究大曲高光谱物质曲线混合模型是非线性还是线性,本研究通过采集纯曲粉、石英砂与水混合、曲粉与水混合3种情况下的高光谱曲线,对比纯曲粉与类似纯水的加水石英砂光谱曲线相加所得曲线,与曲粉和水混合所得曲线进行相关性分析,最终两曲线相关度为0.995 3,叠加曲线比较如图3所示。
图3 曲粉叠加实验效果图
Fig.3 Experimental effect of koji powder superposition
通过上述相关性分析实验,可以验证曲粉物质成分的模型为线性的相加性模型,因此可推测大曲高光谱各物质光谱曲线主要为线性叠加模型,如公式(2)所示:
(2)
式中:x为曲粉中各物质混合曲线,mr为某个纯净物质r=1…R,R表示物质数量,sr为物质的丰度占比,b为干扰噪声。当考虑所有数据时,模型可写作公式(3):
x=SM+b
(3)
式中:S为丰度矩阵,M为物质成分矩阵,通过自动编码器在无监督的情况下,可以将以上线性模型进行盲分解。
近年来随着深度学习的不断发展,深度学习方法在高光谱图像分析领域有广泛应用,并且在光谱解混领域也展现出优越的性能[24]。其中深度自编码网络以无监督的特性在解混中确定端元和丰度系数方面都展现出良好的性能。因此,本研究采用深度自编码网络对大曲高光谱数据进行解混研究。
自编码器本质是一种前向神经网络,可分为两部分:编码器部分GE,将输入x编码压缩为隐藏的低维表示h=GE(x);另一部分为解码部分GD,将压缩的低维表示h解码为输入x的近似值x′=GD(h)。最终通过目标函数Fx′,x最小化x与x′重构之间的误差,反向传递权重参数来训练网络。如公式(4)~公式(6)所示:
h=GEx=Φ(SM+b)
(4)
x′=GD[GE(x)]=Φ′[Φ(SM+b)]
(5)
(6)
图4 自编码网络模型结构示意图
Fig.4 Structure of s autoencoder network model
模型训练完成后,假设需要解混物质表示为A,在自定义层部分的特征表示为a∈R,解码部分权重为w,噪声表示为b,则A物质的解混数据可表示如公式(7)所示:
A=φ(aw+b)
(7)
本研究设计的深度自编码器具体结构如表2所示。
表2 网络结构表
Table 2 Network structure
网络结构网络层类型激活函数神经元输入层-224编码器隐藏层#128隐藏层#64隐藏层#16自定义层约束层SoftmaxR隐藏层#16解码器隐藏层#64隐藏层#128输出层-224
注:表中激活函数栏里,“-”表示无激活函数;“#”表示激活函数可在Relu,Sigmoid,LReLU,Tanh中任选
在编码压缩部分,输入层神经元数与高光谱数据谱带相同,考虑到建模效率以及减少信息丢失的因素,采用多层逐层压缩的方法,4个全连接层将输入由224逐渐压缩到特征成员数R。由于大曲成分含量复杂,本研究主要针对水分对大曲的影响,因此最终压缩层R选取为2,目的在于解出水分和曲粉的光谱曲线,以便于后续对模型进行评价。其中数据维度从224到R过程中激活函数#可以为任意,如Relu,Sigmoid,LReLU,Tanh等,本研究主要解混目标主要是线性混合,因此主要采用Relu激活函数。需要注意的是在压缩维度到R即自定义层部分时,为了实现丰度和为一的约束(abundance sum-to-one constraint,ASC)和非负丰度约束(abundance nonnegativity constraint,ANC),激活函数必须选择Softmax。Softmax将多个神经元输出映射到(1,0)区间内,其原理如公式(8)所示,输出有j个元素,其中第i个元素的表示为Si。
(8)
最后的解压部分结构与编码部分类似,同样是层与层之间全连接,与编码部分对称的逐层解压,可以减小噪声数据干扰。
为更进一步评价解混模型的效果,需要对解混曲线和原始纯物质曲线进行相关性分析。本研究主要采用欧氏距离(eucledian distance,ED)和皮尔逊相关系数(Pearson correlation,PC)两种方法从特征距离和角度对解混曲线和原始曲线进行相关性评价,以达到选出最优解混模型的目的。如公式(9)、公式(10)所示:
(9)
(10)
式中:欧式距离计算的是2个数据集特征之间的距离,距离越大,相似度越小,距离越小两数据越相似;皮尔逊相关系数与余弦相似度类似,但是相比余弦相似度计算具有平移不变性和尺度不变性,对本研究的评价更具有准确性。
通过对模型训练,可以取出曲粉与水混合物中的单独的曲粉曲线和水分曲线。由图5可以看出,解混曲线存在噪声,因此需要在不损失主要信息的情况下对解混曲线进行滤波。通过实验,本研究采用Savitzky-Golay(S-G)滤波器,对解混曲线进行滤波处理。滑动窗口长度为21,拟合阶数为3,滤波效果如图5所示。
图5 解混曲线滤波效果对比图
Fig.5 Comparison of filtering effect of unmixing curve
自编码中采用不同的目标函数,对于解混结果有不同的影响。本研究通过12 000组数据对解混模型进行训练,在模型验证时,用不同水分梯度的曲粉与水的混合样本,进行解混,得到曲线如图6所示。图中曲线随梯度有一定的波动,但是水分含量越大的样本曲线越接近,水分含量越少的样本曲线波动越大。猜测是因为水分含量少时,水与曲粉混合不均匀导致。因此,后续模型评价实验,将取水分梯度曲线的平均值进行模型评价。
图6 解混梯度曲线对比
Fig.6 Comparison of unmixing gradient curves
同时比较均方误差(mean squared error,MSE)、绝对值方均误差(mean absolute error,MAE)、双曲余弦的对数误差(Log-Cosh,L-C)3种目标函数得到最终解混曲线,进行S-G滤波处理后取水分梯度平均值,与原始曲线进行欧式距离与皮尔逊相关系数的比较,得到模型效果评价如表3所示。解混出的曲粉、水各自最优模型评价用加黑字体表示。
表3 模型效果评价
Table 3 Model effect evaluation
解混物质数据处理评价方法目标函数MSEMAEL-CS-GED0.540 40.583 40.342 7曲粉PC0.992 60.996 70.996 7无ED0.556 00.596 20.369 0PC0.991 50.994 00.994 9S-GED1.273 71.366 40.726 3水分PC0.997 20.991 60.995 5无ED1.293 81.381 00.748 0PC0.992 80.985 10.992 2
通过上面的模型评价可以看出,不同目标函数解混模型中,曲粉解混效果最好为S-G滤波后的L-G目标函数的自编码解混模型,欧式距离为0.342 7,皮尔逊相关系数为0.996 7;水分解混效果在两种评价方式中存在差异,以欧式距离评价时,最优模型为L-C目标函数的自编码模型,欧式距离为0.726 3,以皮尔逊系数评价时,最优模型为MSE目标函数的自编码模型,相关系数为0.997 2,但是通过数据可以看出,皮尔逊相关系数评价的数值都较为接近,欧式距离评价系数差距较大,因此最终以欧式距离评价标准为主,因此水分解混效果最好的模型依然是以L-C为目标函数的深度自编码模型。
本研究提出通过深度学习中的自编码网络,以无监督学习的方法,区别于传统遥感的宏观地物解混,实现对大曲高光谱混元物质光谱曲线中水分与曲粉光谱曲线的分离提取。通过编码部分将原始光谱曲线压缩为低维空间的特征表示,再通过解码部分将压缩后的特征数据逐层解压为与原始数据相近的重构数据,将解混曲线进行S-G滤波过后,再对比不同目标函数,以欧氏距离和皮尔逊相关系数两种评价算法对解混效果进行评价。最终通过数据比较,以L-C为目标函数的自编码网络对大曲水分含量的解混效果最好,对解混曲粉与原始曲粉的ED和PC分别为0.342 7和0.996 7;解混出的水分数据与原始水分数据的ED和PC分别为0.726 3和0.995 5。通过上述研究可证明,对大曲物质成分的逐层分离提取可行,该无监督的深度自编码解混方法,为实现大曲高光谱微量物质的检测分析提供理论支撑与方法,具有一定的应用价值。
[1] 程劲松, 李春扬.白酒质量控制技术的研究进展[J].食品安全质量检测学报, 2014, 5(7):2 248-2 262.
CHENG J S, LI C Y.Development of quality control technologies for Chinese liquor[J].Journal of Food Safety & Quality, 2014, 5(7):2 248-2 262.
[2] 隋明, 张崇军, 张凤英, 等.白酒质量控制技术的研究进展[J].食品工程, 2018(4):8-10.
SUI M, ZHANG C J, ZHANG F Y, et al.Research progress of liquor quality control technology[J].Food Engineering, 2018(4):8-10.
[3] 吴翠芳, 刘国英, 何宏魁.探索新时代白酒可持续发展的途径[J].酿酒, 2018, 45(3):10-12.
WU C F, LIU G Y, HE H K.Exploring the way of sustainable development of baijiu in the new age[J].Liquor Making, 2018, 45(3):10-12.
[4] 徐姿静, 徐占成, 唐清兰.中国传统固态大曲酒风味质量特色的研究进展[J].酿酒科技, 2017(1):84-89.
XU Z J, XU Z C, TANG Q L.Research progress in the flavor & quality characteristics of traditional chinese daqu baijiu by solid-state fermentation[J].Liquor-Making Science & Technology, 2017(1):84-89.
[5] 敖宗华, 陕小虎, 沈才洪, 等.国内主要大曲相关标准及研究进展[J].酿酒科技, 2010(2):104-108.
AO Z H, SHAN X H, SHEN C H, et al.Domestic related quality standards of daqu & its research progress[J].Liquor-Making Science & Technology, 2010(2):104-108.
[6] 沈怡方. 白酒生产技术全书[M].北京:中国轻工业出版社.1998.
SHEN Y F.Complete Book of Liquor Production Technology[M].Beijing:China Light Industry Press,1998.
[7] 袁迎辉, 林子瑜.高光谱遥感技术综述[J].中国水运(学术版), 2007(8):155-157.
YUAN Y H, LIN Z Y.Review of hyperspectral remote sensing technology[J].China Water Transport(Academic Version), 2007(8):155-157.
[8] 张达, 郑玉权.高光谱遥感的发展与应用[J].光学与光电技术, 2013, 11(3):67-73.
ZHANG D,ZHENG Y Q.Hyperspectral remote sensing and its development and application review[J].Optics & Optoelectronic Technology, 2013, 11(3):67-73.
[9] 叶建秋, 黄丹平, 田建平, 等.高光谱图像技术检测大曲发酵过程中的水分含量[J].食品与发酵工业, 2020, 46(9):250-254.
YE J Q, HUANG D P, TIAN J P, et al.Detection of water content in Daqu during fermentation using hyperspectral image technology[J].Food and Fermentation Industries, 2020, 46(9):250-254.
[10] 高泽东, 郝群, 刘宇, 等.高光谱成像与应用技术发展[J].计测技术, 2019, 39(4):24-34.
GAO Z D, HAO Q, LIU Y, et al.Hyperspectral imaging and application technology development[J].Metrology & Measurement Technology, 2019, 39(4):24-34.
[11] 张芯豪, 黄丹平, 田建平, 等.基于机器视觉的大曲质量检测系统研究[J].食品与机械, 2018, 34(4):80-84.
ZHANG X H, HUANG D P, TIAN J P.et al.Research on the daqu quality detection system based on machine vision[J].Food & Machinery, 2018, 34(4):80-84.
[12] 庞云璇. 谈高光谱遥感技术的应用、发展与展望[J].中国新通信, 2019, 21(11):73-74.
PANG Y X.Application, development and prospect of hyperspectral remote sensing technology[J].China New Telecommunications, 2019, 21(11):73-74.
[13] 高晓惠. 高光谱数据处理技术研究[D].西安:中国科学院研究生院(西安光学精密机械研究所), 2013.
GAO X H.Research on technology of hyperspectral data processing[D].Xi′an:Chinese Academy of Sciences(Xi′an Institute of Optics & Precision Mechanics), 2013.
[14] 储成泉. 高光谱图像解混技术的研究[D].重庆:重庆邮电大学, 2019.
CHU C Q.Research on hyperspectral image unmixing technology[D].Chongqing:Chongqing University of Posts and Telecommunications, 2019.
[15] BIOUCAS-DIAS J M, PLAZA A, CAMPS-VALLS G, et al.Hyperspectral remote sensing data analysis and future challenges[J].IEEE Geoscience and Remote Sensing Magazine, 2013, 1(2):6-36.
[16] BIOUCAS-DIAS J M, PLAZA A, DOBIGEON N, et al.Hyperspectral unmixing overview:Geometrical, statistical, and sparse regression-based approaches[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2012, 5(2):354-379.
[17] LU X, DONG L, YUAN Y.Subspace clustering constrained sparse NMF for hyperspectral unmixing[J].IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(5):3 007-3 019.
[18] ZHANG S, AGATHOS A, LI J.Robust minimum volume simplex analysis for hyperspectral unmixing[J].IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(11):6 431-6 439.
[19] RAJABI R, GHASSEMIAN H.Spectral unmixing of hyperspectral imagery using multilayer NMF[J].IEEE Geoscience and Remote Sensing Letters, 2015, 12(1):38-42.
[20] ZHANG X, SUN Y, ZHANG J, et al.Hyperspectral unmixing via deep convolutional neural networks[J].IEEE Geoscience and Remote Sensing Letters, 2018, 15(11):1 755-1 759.
[21] PALSSON B, SIGURDSSON J, SVEINSSON J R, et al.Hyperspectral unmixing using a neural network autoencoder[J].IEEE Access, 2018, 1(6):25 646-25 656.
[22] YUAN J, ZHANG Y J, GAO F P.An overview on linear hyperspectral unmixing[J].Journal of Infrared and Millimeter Waves, 2018, 37(5):553-571.
[23] HEYLEN R, PARENTE M, GADER P.A review of nonlinear hyperspectral unmixing methods[J].IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2014, 7(6):1 844-1 868.
[24] WANG M, ZHAO M, CHEN J, et al.Nonlinear unmixing of hyperspectral data via deep autoencoder networks[J].IEEE Geoscience and Remote Sensing Letters, 2019, 16(9):1 467-1 471.