中国白酒是一种传统的本土蒸馏酒,由谷物发酵制成,其技术可以追溯到5 000年前,有着独特的固态酿造工艺。其主要特点是,以富含淀粉的谷物为原料,接种天然微生物,酿造为酒精饮料后,通过固态蒸馏生产,然后储存和混合[1]。虽然白酒的主要成分是乙醇和水,但少量的挥发性和非挥发性化合物可以决定不同类型白酒的风味特征[2-3]。近年来,白酒作为一种传统的酒精饮料越来越受到人们的关注和消费者的喜爱。微量成分的协同作用和综合活性作用决定了白酒独特的风味和口感。然而,随着白酒市场和受众的逐渐扩大,假冒、稀释、勾兑白酒充斥市场,不仅严重损害了消费者的利益,而且扰乱了市场经济。面对复杂的市场,如何科学地鉴别白酒一直是白酒分析研究的重点。
目前有许多方法用于检测白酒,如分光光度法[4]、质谱法[5]、高效液相色谱法[6],这些检测分析方法虽然精度较高,但实验准备工作耗时长,无法应用于快速无损检测。因此,迫切需要一种快速高效的白酒鉴定方法。紫外(ultraviolet, UV)光谱技术被认为是最适合多组分检测的方法之一,具有快速、无损地识别复杂混合物体的优点。HE等[7]将UV光谱、近红外光谱和三向荧光光谱与线性判别分析(linear discriminant analysis, LDA)、支持向量机(support vector machine, SVM)和反向传播神经网络(back propagation neural network, BPNN)等化学计量学相结合来区分不同系列的白酒。S
DECK
等[8]将紫外-可见光谱与主成分分析、变量选择(variable selection, VS)、LDA、一般判别分析(general discriminant analysis, GDA)和SVM结合,对未稀释和稀释的斯洛伐克托卡伊葡萄酒样品进行分类,其中使用稀释葡萄酒和VS-GDA方法分类效果最佳。
青稞酒是我国一种独特的清香型白酒,主要产于青海和西藏地区,以富含支链淀粉的高原谷物青稞为唯一原料,青稞生长于平均海拔4 000 m的青藏高原。青稞酒清香纯正,入口绵柔,深受消费者喜爱[9]。青稞酒与其他白酒在酿酒环境、原料、用水、工艺、风格等方面有所不同。青海“互助”青稞酒,是中华人民共和国原产地保护地理标识产品。
目前有许多化学计量学方法能快速、准确的分类,例如偏最小二乘判别分析(partial least squares discriminant analysis, PLS-DA)[10]、随机森林[11],也有许多优化算法来提高模型性能,如遗传算法[12]、粒子群优化[13]。但寻找更多高效的元启发式算法仍然是一个挑战。FU等[14]基于之前的研究,提出了红嘴蓝喜鹊优化器(red-billed blue magpie optimizer, RBMO)。RBMO是一种基于自然界中红嘴蓝喜鹊行为模式的元启发式算法,它克服了大多数算法初始化敏感、过早收敛和局部最优停滞的问题。FU等[14]提出,在未来研究中,RBMO仍有许多领域有待探索,其中包括将机器学习技术与RBMO相结合。机器学习技术将增强RBMO的自适应和自学习能力。这将使RBMO能够适应不同问题场景和环境中的变化。它允许RBMO从数据中学习,自主调整参数和策略,提高问题解决的有效性和适应性。目前RBMO主要应用于无人机路径规划[14]、燃料电池参数提取[15]等方面,在食品方面的研究较少,因此本文将RBMO分别与SVM、BPNN和极限学习机(extreme learning machine,ELM)这3个传统的分类模型结合,将RBMO应用到食品领域中,以“互助”青稞酒为研究对象,通过比较“互助”青稞酒、非“互助”青稞酒和非青稞酒的紫外光谱,将紫外光谱结合化学计量学工具,构建“互助”青稞酒分类模型,实现“互助”青稞酒的快速、准确、无损分类。
本实验共113个样品,其中“互助”青稞酒共43种,青海青稞酒股份有限公司专营店;非“互助”青稞酒共53种、非青稞原料白酒共17种,西宁各大商场;无水乙醇(分析纯),中国医药集团有限公司。
Lambda系列紫外/可见分光光度计,美国PerkinElmer公司。
取适量样品于石英比色皿中,以无水乙醇为参比,在室温下,在波长200~400 nm的1 nm间隔处采集光谱,每个样品扫描3次,取平均光谱,每个样品光谱含201个波长变量。
1.4.1 样本划分
Kennard-Stone(KS)算法主要思想是将欧氏距离差异较大的样本选入数据校正集中,并将计算剩余的光谱数据选入数据预测集中,从而得到2个互补的子集:训练集和测试集。KS算法可以通过最大化样本空间的样本差异性,将具有代表性且解释能力强的数据选入到校正集中,避免校正集数据分布不均匀而导致的模型不稳定等缺点,因此选用KS算法作为本文的样本划分方法。
1.4.2 预处理
为了去除干扰信息和消除数据采集引起的变异性,如噪声、基线偏移和仪器漂移,在开发校准模型之前,光谱预处理技术是必不可少的[16]。在本研究中,对原始光谱用4种方法进行预处理:标准正态变换(standard normal variate transform, SNV)、Savitzky-Golay(SG)平滑、一阶导数(first derivative, 1st)和二阶导数(second derivative, 2nd)。SNV方法消除了由于散射和粒度变化引起的光谱斜率波动,去除数据中的噪声。SG平滑消除了光谱数据中的高频噪声,而不减少变量的数量[17]。1st和2nd可以消除基线漂移,并增强微小的光谱差异[18]。
1.4.3 特征变量筛选
特征变量筛选旨在精确定位包含关键信息的特定波段,同时从光谱数据集中排除不需要的波段[19]。为了实现这一目标,在训练集上采用了变量投影重要性(variable importance of projection,VIP)分析和ReliefF方法。目标是确定最相关的变量,以构建一个分类模型,使用尽可能少的波段来区分3种类别的白酒。
1.4.3.1 VIP分析
LOHUMI等[20]将VIP定义为一种复合度量,用于量化变量对表征2组数据[因变量(Y)和自变量(X)]的贡献。VIP值提供了有关变量的重要信息,有助于从独立变量描述因变量。第j个变量的VIP值定义如公式(1)所示。“大于一个规则”通常被用作变量选择的标准[21],根据这一规则,只有VIP值>1的变量才被认为是显著的[22]。因此,使用VIP值>1的波段来进行下一步工作。
(1)
式中:
为得分矩阵T的第a列向量;qa为T的回归系数向量q的第a个元素;wa为加权矩阵W的第a列向量,它给出了保留维度中第j个变量的加权变异性;p为回归矩阵X中的变量数量;wja/‖wa‖为第a个分量中第j个变量的重要性;SS(qata)为由第a个分量解释的y方差。
1.4.3.2 ReliefF算法
KONONENKO[23]于1994年提出ReliefF算法,该算法主要用于多重分类。ReliefF算法是一种经典的多变量过滤式特征选择方法,其核心思想是根据特征与类别标签之间的相关性计算特征的权值。该算法中特征和类别标签的相关性是基于特征对近距离样本的区分能力度量的[24]。
1.4.4 分类模型的优化
RBMO是一种基于群体智能的算法,灵感来自红嘴蓝喜鹊的狩猎过程[14]。它模拟了红嘴蓝喜鹊的搜索、追捕、攻击和食物储存行为。在寻找食物阶段,红嘴蓝喜鹊通常采用在地上跳跃、行走或在树上搜寻食物资源等技术,以2~5只为小团体[公式(2)]或10只以上集群[公式(3)]的形式行动,以提高搜索效率。
(2)
(3)
式中:t为当前迭代次数;Xi(t)为第i个个体在第t次迭代的位置;Xi(t+1)为第i个个体在第t+1次迭代的位置;p为从所有搜索个体中随机选择的2~5个小群体中的红嘴蓝喜鹊的数量;Xm为随机选择的第m个个体;Xi为第i个个体;Xrs(t)为当前迭代中随机选择的个体;Rand,0~1的随机数;q为集群在探索食物时的群体数量,介于10~n。
在追捕猎物阶段,小团体和集群狩猎行为表达式分别与公式(2)、公式(3)相似,具体可见FU等[14]的研究。
此外,红嘴蓝喜鹊还将多余的食物储存在树洞或其他隐蔽的地方,以备将来食用,确保在食物短缺时稳定的食物供应[公式(4)]。这个过程保留了解决方案的信息,方便个人找到全局最优值。
(4)
式中:
为第i只红嘴蓝喜鹊位置更新前的适应度值;
为第i只红嘴蓝喜鹊位置更新后的适应度值。
本文将RBMO分别与SVM、BPNN和ELM这3个传统的分类模型结合。SVM的性能很大程度上取决于核函数的选择及其参数的设置[25],不合适的参数可能导致过拟合或欠拟合,影响模型的泛化能力。RBMO可以通过对SVM的参数进行优化,自动地搜索出最佳的参数组合,从而提高SVM的分类或回归性能。通过RBMO优化SVM的参数,可以避免过拟合现象,增强模型的泛化能力。由于RBMO具有较快的收敛速度,它可以帮助SVM更快地找到合适的参数配置,进而缩短整个模型训练的时间。BP的缺点是收敛过程的速度较慢,以及依赖于神经网络权重的初始设置,而不同的初始值可能会导致训练过程中的收敛速度和最终性能差异,在处理复杂非线性问题时容易陷入局部最优解,影响模型的整体表现[25]。RBMO可以优化BPNN算法的初始权重,加快收敛速度,帮助跳出局部极小值点,从而提高找到全局最优解的概率,进而缩短整个模型训练的时间。ELM算法不具备对大型高维数据的管理能力,隐藏层学习参数的分类边界可能不是最好的[25]。RBMO可以优化ELM中的参数设置,比如隐藏层节点数等,找到更好的结构配置或参数,从而提高模型的整体性能。
如图1所示,在UV光谱区域内,200~220、260~290 nm出现明显的吸收峰,分别为羧基和糠醛吸收峰。糠醛这类物质在白酒中是重要的呈香成分,其结构中含有1个醛基和1个呋喃环,2个双键和1个环醚键,化学性质活泼。当连续波长的紫外光照射白酒样品时,糠醛中的不饱和键中的电子吸收能量从低能级跃迁到高能级,在276 nm处形成较强的特征吸收峰。白酒中的糠醛主要是由美拉德反应和微生物代谢产生的,不同香型的白酒受酿造原料、地理来源、发酵温度、发酵时间、微生物等因素影响,其糠醛含量必然存在差异[26]。从结果看,“互助”青稞酒和非“互助”青稞酒中糠醛的含量存在明显差异,但无法与非青稞酒区分开,这与白酒的酿造工艺有关,因此仅用UV光谱图是无法区分3种类别的样品,需要寻找一种新的策略来区分3种样品。
图1 三种白酒的UV光谱图
Fig.1 UV spectra of three kinds of liquor
通过KS算法把样本划分为训练集和测试集。测试集用于测试所开发模型区分样本的能力,保证数据的代表性。最终,将113个样本按照7∶3的比例进行划分,其中训练集有79个样本,测试集有34个样本。
本研究采用SNV、SG、1st和2nd方法分别对数据进行预处理。图2为预处理后的效果图。为评价4种预处理方法的效果,将原始光谱数据以及经过4种预处理方法处理后的数据分别建立PLS-DA模型,通过比较模型的灵敏度、特异性和曲线下面积(area under curve,AUC)值来确定一种适用于本研究的预处理方法。灵敏度是指某一类中正确分类样本的比例,特异性是指模型正确拒绝的另一类样本的比例。灵敏度、特异性和AUC值越接近1,代表模型效果越好[19, 27-28]。由表1可知,4种预处理方法处理测试集后效果相同,但在训练集上有差异,其中1st的特异性为0.966 7,AUC为0.949 9,皆高于原始光谱和其他预处理方法,因此本文选择1st作为白酒UV光谱的预处理方法。
表1 不同预处理方法结果分析
Table 1 Analysis of different pretreatment methods
预处理方法训练集测试集灵敏度特异性AUC灵敏度特异性AUC无10.900 00.899 9110.928 6SNV10.966 70.887 4110.928 6SG10.933 30.851 4110.928 61st10.966 70.949 9110.928 62nd10.966 70.933 5110.928 6
a-SNV预处理;b-SG预处理;c-1st预处理;d-2nd预处理
图2 不同预处理方法对训练集处理后的UV光谱图
Fig.2 UV spectra of training set with different pretreatment methods
本研究采用VIP和ReliefF两种方法来进行特征变量筛选。将经过1st预处理的训练集数据分别用2种方法进行变量筛选。为评价2种变量筛选方法的效果,对2种方法筛选的数据分别建立PLS-DA模型,通过比较模型的灵敏度、特异性和AUC值来确定适用于白酒UV光谱数据的最优的特征变量筛选方法。根据采用2种特征变量筛选方法后得到的结果(表2),本文选择ReliefF作为白酒UV光谱的特征变量筛选方法。
表2 不同特征变量筛选方法结果分析
Table 2 Analysis of the results of different feature variable screening methods
方法灵敏度特异性AUC特征变量数量VIP10.866 70.873 271ReliefF10.966 70.958 548
图3标记了对UV-1st光谱分别用VIP和ReliefF筛选的特征波长变量,结果可见,UV-1st光谱中选择的变量集中在230~280 nm。白酒含有大量的酯类、有机酸、醇类和羰基化合物。这些化合物含有发色团,如
C—O、—COOH和芳香环,以及辅助色团,如—OH和—OR。因此,在紫外区可以观察到明显的吸收光谱。在外部辐射激发下,有机物中的电子可以经历σ→σ*、n→σ*、π→π*和n→π* 4种跃迁类型。如图3所示,3种白酒在UV光谱范围内有明显的紫外吸收峰。其中,276 nm附近的紫外吸收峰来源于样品中不饱和化合物的π→π*跃迁。一般来说,孤立双键通过π→π*电子跃迁产生的紫外吸收带位于160~180 nm,而样品在276 nm左右具有较强的紫外吸收,这是因为类酒化合物中的共轭双键使吸收带发生了一定程度的红移。共轭体系越大,红移程度越强[7]。
图3 UV-1st平均光谱图以及特征变量筛选图
Fig.3 UV-1st average spectra and screening of characteristic variables
对经过1st-ReliefF结合处理后的数据进行建模。表3是不同分类模型的分类效果。RBMO优化的SVM、ELM、BPNN与传统的SVM、ELM、BPNN相比具有更高的准确率,说明经RBMO优化后的分类模型效果明显比传统的好。
表3 不同分类模型结果分析 单位:%
Table 3 Analysis of results of different classification models
分类模型特征筛选测试集训练集准确率测试集准确率训练集准确率测试集准确率SVM78.1879.1775.9591.18RBMO-SVM96.36100100100ELM1007598.7391.18RBMO-ELM10095.8310097.06BPNN89.0983.3391.1482.35RBMO-BPNN94.5510096.20100
图4为3个RBMO优化后的模型的适应度曲线,在迭代开始时,适应度值较大,表示个体正在广泛地探索整个搜索空间,然后迅速减小,表示大多数个体已经到达最佳位置或在附近[14]。由图4可知,RBMO-BPNN的适应度曲线最好,它的初始适应度值最低,为0.012 66,表明模型在这些迭代中迅速学习并改进了其性能;在第1次迭代后就迅速收敛到接近0的水平,最终适应度值最小[29-30],说明模型已经找到了一个非常接近最优解的状态。因此说明RBMO-BPNN模型的性能最好,能准确分类3种样品。
a-RBMO-SVM;b-RBMO-ELM;c-RBMO-BPNN
图4 RBMO优化后的模型适应度曲线
Fig.4 Model fitness curve after RBMO optimization
本文将UV光谱结合化学计量学工具对“互助”青稞酒、非“互助”青稞酒和非青稞酒进行分类。通过对3种白酒的UV光谱进行4种预处理方法的比较,确定1st预处理方法为本文的预处理方法;通过对UV-1st进行2种特征变量筛选方法的比较,确定ReliefF为本文的特征变量筛选方法;通过对UV-1st-ReliefF建立分类模型,分别比较RBMO-SVM与SVM、RBMO-BPNN与BPNN和RBMO-ELM与ELM模型的分类效果,发现有RBMO优化的分类模型比优化前的分类模型具有更好的分类效果,它克服了初始化敏感和局部最优停滞的问题;通过比较RBMO-SVM、RBMO-BPNN、RBMO-ELM的适应度曲线,发现RBMO-BPNN适应度值最低,收敛速度快,具有更好的分类效果,说明UV光谱结合RBMO-BPNN能够更好地实现快速、无损区分“互助”青稞酒的目的。
[1] ZHANG G Y, TUO X G, PENG Y J, et al.A rapid nondestructive detection method for liquor quality analysis using NIR spectroscopy and pattern recognition[J].Applied Sciences, 2024, 14(11):4392.
[2] QIAN W, LU Z M, CHAI L J, et al.Cooperation within the microbial consortia of fermented grains and pit mud drives organic acid synthesis in strong-flavor Baijiu production[J].Food Research International, 2021, 147:110449.
[3] FANG C, DU H, JIA W, et al.Compositional differences and similarities between typical Chinese Baijiu and western liquor as revealed by mass spectrometry-based metabolomics[J].Metabolites, 2018, 9(1):2.
[4] WU Z Z, XU E B, LI J P, et al.Determination of antioxidant capacity of Chinese rice wine and Zhuyeqing liquor using nanoparticle-based colorimetric methods[J].Food Analytical Methods, 2017, 10(3):788-798.
[5] HE F, DUAN J W, ZHAO J W, et al.Different distillation stages Baijiu classification by temperature-programmed headspace-gas chromatography-ion mobility spectrometry and gas chromatography-olfactometry-mass spectrometry combined with chemometric strategies[J].Food Chemistry, 2021, 365:130430.
[6] WU Z Y, QIN D, DUAN J W, et al.Characterization of benzenemethanethiol in sesame-flavour Baijiu by high-performance liquid chromatography-mass spectrometry and sensory science[J].Food Chemistry, 2021, 364:130345.
[7] HE M, CHEN X L, ZHANG J, et al.Identification of liquors from the same brand based on ultraviolet, near-infrared and fluorescence spectroscopy combined with chemometrics[J].Food Chemistry, 2023, 400:134064.
[8] S
DECK
J, JAKUB
KOV
M.Classification of tokaj wines by ultraviolet-visible spectroscopy[J].Food Analytical Methods, 2022, 15(1):56-66.
[9] 张有香, 唐东恒, 赵国华, 等.青稞酒窖池内不同层次酒醅酒体风味物质的研究[J].酿酒科技, 2024, (11):72-76;81.ZHANG Y X, TANG D H, ZHAO G H, et al.Flavor substances of fermented grains in different layers in the pit of highland barley Baijiu[J].Liquor-Making Science &Technology, 2024, (11):72-76;81.
[10] STEIDLE NETO A J, DE CARVALHO LOPES D.Chemometrics coupled with near infrared spectroscopy for detecting adulteration levels in herbal teas[J].Journal of Food Composition and Analysis, 2024, 135:106637.
[11] ONG P, JIAN J B, LI X H, et al.Sugarcane disease recognition through visible and near-infrared spectroscopy using deep learning assisted continuous wavelet transform-based spectrogram[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy, 2025, 324:125001.
[12] ZONG X Y, ZHOU X J, WEN L, et al.Identification of Baijiu based on the Raman spectroscopy and back-propagation neural network optimized using genetic algorithm[J].Journal of Food Composition and Analysis, 2024, 126:105917.
[13] CHENG X Y, HU X P, LI Z Z, et al.Using genetic algorithm and particle swarm optimization BP neural network algorithm to improve marine oil spill prediction[J].Water, Air, &Soil Pollution, 2022, 233(8):354.
[14] FU S W, LI K, HUANG H S, et al.Red-billed blue magpie optimizer:A novel metaheuristic algorithm for 2D/3D UAV path planning and engineering design problems[J].Artificial Intelligence Review, 2024, 57(6):134.
[15] EL-FERGANY A A, AGWA A M.Red-billed blue magpie optimizer for electrical characterization of fuel cells with prioritizing estimated parameters[J].Technologies, 2024, 12(9):156.
[16] ONG P, JIAN J B, YIN J H, et al.Characteristic wavelength optimization for partial least squares regression using improved flower pollination algorithm[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy, 2023, 302:123095.
[17] KHATUN M S, AL MASUM A, ISLAM M H, et al.Short wave-near infrared spectroscopy for predicting soluble solid content in intact mango with variable selection algorithms and chemometric model[J].Journal of Food Composition and Analysis, 2024, 136:106745.
[18] ZHAO J W, CHEN Q S, HUANG X Y, et al.Qualitative identification of tea categories by near infrared spectroscopy and support vector machine[J].Journal of Pharmaceutical and Biomedical Analysis, 2006, 41(4):1198-1204.
[19] LAMPTEY F P, AMUAH C L Y, BOADU V G, et al.Smart classification of organic and inorganic pineapple juice using dual NIR spectrometers combined with chemometric techniques[J].Applied Food Research, 2024, 4(2):100471.
[20] LOHUMI S, LEE S, CHO B K.Optimal variable selection for Fourier transform infrared spectroscopic analysis of starch-adulterated garlic powder[J].Sensors and Actuators B:Chemical, 2015, 216:622-628.
[21] CHONG I G, JUN C H.Performance of some variable selection methods when multicollinearity is present[J].Chemometrics and Intelligent Laboratory Systems, 2005, 78(1-2):103-112.
[22] WANG Z X, HE Q P, WANG J.Comparison of variable selection methods for PLS-based soft sensor modeling[J].Journal of Process Control, 2015, 26:56-72.
[23] KONONENKO I.Estimating attributes:Analysis and extensions of RELIEF[C].Machine Learning:ECML-94.Berlin, Heidelberg:Springer, 1994:171-182.
[24] 项颂阳, 许章华, 张艺伟, 等.高光谱图像分类的ReliefF-RFE特征选择算法构建与应用[J].光谱学与光谱分析, 2022, 42(10):3283-3290.XIANG S Y, XU Z H, ZHANG Y W, et al.Construction and application of ReliefF-RFE feature selection algorithm for hyperspectral image classification[J].Spectroscopy and Spectral Analysis, 2022, 42(10):3283-3290.
[25] ZAREEF M, CHEN Q S, HASSAN M M, et al.An overview on the applications of typical non-linear algorithms coupled with NIR spectroscopy in food analysis[J].Food Engineering Reviews, 2020, 12(2):173-190.
[26] 苏媛媛, 姜雪, 仓义鹏, 等.紫外-可见光谱传感对高温大曲白酒真实性的准确鉴别[J].化学试剂, 2023, 45(10):8-13.SU Y Y, JIANG X, CANG Y P, et al.Accurate identification of high-temperature Daqu liquor by UV-vis sensor[J].Chemical Reagents, 2023, 45(10):8-13.
[27] 张勋, 黄晓萱, 殷金可, 等.基于近红外和化学计量学方法对金线莲快速鉴别及其多糖含量测定的研究[J].中国现代应用药学, 2023, 40(19):2702-2712.ZHANG X, HUANG X X, YIN J K, et al.Rapid identification and determination of polysaccharides contents in Anoectochilus roxburghii based on near infrared spectroscopy with chemometrics[J].Chinese Journal of Modern Applied Pharmacy, 2023, 40(19):2702-2712.
[28] DE SOUSA MARQUES A, NIC
CIO J T N, CIDRAL T A, et al.The use of near infrared spectroscopy and multivariate techniques to differentiate Escherichia coli and Salmonella Enteritidis inoculated into pulp juice[J].Journal of Microbiological Methods, 2013, 93(2):90-94.
[29] PENDHARKAR P.Misclassification cost minimizing fitness functions for genetic algorithm-based artificial neural network classifiers[J].Journal of the Operational Research Society, 2009, 60(8):1123-1134.
[30] TANG Z, LIU X F, WEI D P, et al.Enhanced multiclass support vector data description model for fault diagnosis of gears[J].Measurement, 2022, 194:110974.