激光诱导击穿光谱结合机器学习在蜂蜜真伪评估与品质鉴定中的研究进展

曾凡倜1,李春宇1*,赵雪珺2*

1(中国人民公安大学 侦查学院,北京,100038)

2(上海市刑事科学技术研究院,上海市现场物证重点实验室,上海,200072)

摘 要 蜂蜜真伪评估与品质鉴定是保障食品安全和消费者权益的重要环节。传统检测方法为蜂蜜质量监测建立了重要的技术基础,但仍存在样品前处理繁琐和分辨率低等限制。随着分析需求的不断提升,人工智能与模式识别技术的发展,激光诱导击穿光谱(laser-induced breakdown spectroscopy,LIBS)凭借其广泛的检测范围、高灵敏度和高空间分辨率等优势,结合机器学习(machine learning,ML)可原位解析蜂蜜中目标分子的元素组成,为鉴别蜂蜜质量提供关键的依据。该文系统综述了LIBS在蜂蜜掺假鉴定中的创新应用,分析了各种光谱预处理和光谱数据建模方法在LIBS数据处理中的适用性,并对其应用前景和研究趋势进行了展望。

关键词 激光诱导击穿光谱;机器学习;蜂蜜;掺假鉴定;光谱数据处理;食品安全

文化中不可或缺的天然甜味剂[1-2]。蜂蜜的组成以碳水化合物为主,其中果糖和葡萄糖等单糖占总质量的70%~80%,其次是蔗糖、麦芽糖等双糖和约20余种寡糖[3],辅以16%~20%的水分。我国食品安全国家标准中已明确禁止在蜂蜜中添加已知或未知添加剂,但蜂蜜掺假屡禁不止,造假案件频发。欧盟联合研究中心(European Commission Joint Research Centre,JRC)的一项调查发现,46%进口蜂蜜存在违规掺假问题[4],其中产自中国的蜂蜜74%涉嫌掺假[5]。目前,蜂蜜掺假手段呈多样化和隐蔽化趋势,一是成分掺假,直接向蜂蜜中添加糖浆,或通过给蜜蜂饲喂糖浆生产蜂蜜;二是来源欺诈,混入低档次蜂蜜以次充好,或对蜂蜜产地和来源进行虚假标注[6]。消费者长期摄入掺假蜂蜜,可导致肥胖、代谢综合征以及肝肾损伤等健康风险[7],因此准确评估与鉴别蜂蜜真伪已成为亟待解决的重要食品安全问题。

目前,蜂蜜质量检测主要技术有:核磁共振氢谱(1H nuclear magnetic resonance spectroscopy,1H NMR)[8]、液相色谱同位素比质谱法(liquid chromatography-isotope ratio mass spectrometry,LC-IRMS)[9]、傅里叶变换红外光谱(Fourier transform infrared spectroscopy,FTIR)[10]、液相色谱-高分辨质谱(liquid chromatography high-resolution mass spectrometry,LC-HRMS)[11]、超高效液相色谱-质谱(ultra high performance liquid chromatography-mass spectrometry,UHPLC-MS)[12]和GC-MS[13]等。尽管现有技术能够检出蜂蜜中目标成分的定性与定量信息,但受到样品制备繁琐、检测成本高、易污染环境等限制,难以满足蜂蜜多样本快速筛查需求。近年来,激光诱导击穿光谱(laser-induced breakdown spectroscopy,LIBS)凭借其广泛的检测范围、高灵敏度和高分辨率等优势[14],为蜂蜜溯源分析提供了一种创新且高效的技术路径。与近红外光谱和高光谱等无损检测技术相比[15],近红外和高光谱对有机物官能团及化学键特征峰更灵敏,但难以直接检测金属或矿物元素,且易受到外界环境影响。LIBS具有更强的元素分析能力和优异的空间分辨率,依靠高能激光烧蚀实现样品局部剥离与激发,几乎不受样品的物理形态限制,对样品前处理要求极低,可实现微区分析和深层成分探测,大幅提升了分析效率[16]。随着人工智能与模式识别技术的发展,尤其是与机器学习(machine learning,ML)算法相结合,显著提升了光谱分析的智能化水平[17-18]。将LIBS的快速检测能力与ML强大的数据挖掘能力相结合,已成为高效处理光谱数据、构建稳定判别模型的有效途径。本文总结了LIBS与ML融合技术应用于蜂蜜真伪评估与品质鉴定的最新进展,以期为准确辨别蜂蜜真伪及质量评估提供重要的技术支撑。

1 LIBS技术简介

LIBS是近年发展迅速的一种新型检测技术,可用于对物质的含量及元素种类组成进行定性与定量分析。与传统理化分析方法相比,LIBS具备快速、近无损且无需复杂样品预处理的通用优势。典型LIBS实验装置的核心功能是利用激光产生等离子体并分析其发射光谱,如图1所示,其主要由多个关键部分构成。首要的是高功率脉冲激光器,它可以产生短而强有力的激光脉冲来烧蚀、原子化并激发待分析样品,常见的激光源主要有Nd:YAG固体激光器、脉冲光纤激光器、准分子激光器和飞秒激光器(femtosecond laser,FS)等,其脉冲能量、波长和脉冲宽度是影响烧蚀效率、等离子体产生和光谱信号强度的重要参数[19]。激光束通过光学系统进行传输、聚焦和导向,该系统通常包含透镜和反射镜,确保激光束能被精确地聚焦到样品表面的微小区域,从而在极短时间内实现高能量密度,诱导样品材料发生局部等离子体击穿并发射特征光谱。为了获得更精确和可重复的分析结果,可将测量室恒定在真空、特定气体(如氩气或氦气)或标准大气压环境,以优化等离子体的形成和演化。等离子体发出的光信号,通过另一组收集光学系统进行有效收集,并将其导入光谱仪,光学系统常由透镜、反射镜或光纤束构成[20]。光谱仪是LIBS系统的核心分析部件,它利用内部的色散元件将复合的等离子体发射光按照波长分离,形成强度按波长分布的光谱图。光谱仪的光谱范围和光谱分辨率直接决定了系统区分紧邻谱线和准确识别元素的能力。色散后的光谱由探测器接收并转换为电信号。常用的探测器是电荷耦合器件(charge-coupled device,CCD)或增强型CCD(intensified charge-coupled device,ICCD)。ICCD具有高灵敏度和纳秒级门控能力,通过与数字延迟脉冲发生器同步控制,允许在等离子体初期强烈连续背景辐射衰减之后、特征谱线依然显著的时间窗口内采集信号,从而极大地提高信噪比和分析的准确性。整个系统的运行、参数设定以及光谱数据的采集、存储和初步分析则由计算机控制和完成[21]。这些组件的精密配合及各自的性能参数共同决定了LIBS系统的分析能力,并直接影响到光谱数据的质量和复杂性。

图1 LIBS仪器组成及工作流程

Fig.1 LIBS instrument composition and workflow

2 LIBS的光谱数据处理技术

2.1 光谱数据预处理

2.1.1 光谱校正

LIBS光谱数据容易受到实验中光的散射、反射、干涉等多种干扰因素的影响。蜂蜜作为成分复杂的天然混合物,其基质的组成复杂且分布不均一,这会显著影响LIBS光谱的稳定性。导致光谱图中表现出基线漂移、噪声、假峰、吸光度异常和分辨率下降等多种光谱图异常表现,使得仅凭原始信号难以直接解释和分析[22]。常用的光谱校正方法有导数校正、散射校正、基线校正、背景校正等。通过有效的校正,可以提高数据的质量和可靠性,突出与样品真实化学组成相关的特征,能够显著提升后续构建模型的性能和准确性[23]

导数校正法也称为导数光谱法,有助于分辨原始光谱中重叠的特征峰,并增强光谱细节信息。原始光谱中的峰值在二阶导数光谱中通常表现为一个尖锐的负峰谷,能够提高光谱的分辨率[24]

多重散射校正(multiple scatter correction,MSC)是一种常用的光谱散射校正方法,用于校正光谱数据中的乘性散射效应。将原始光谱按对应公式进行校正,可消除非化学成分相关的基线偏移与强度缩放[25]。FU等[26]通过构建LIBS光谱偏最小二乘(partial least squares,PLS)模型预测大米中镉的含量,采用MSC消除水稻样品颗粒分布不均匀和粒径不同导致的光谱散射效应。

基线校正法在LIBS光谱中的应用较多。基线指叠加在元素特征发射谱线之上的连续信号,表现为光谱图中强度随波长缓慢变化的背景。未校正的基线会显著提升整体噪声水平,降低谱线的信噪比,尤其容易淹没低浓度元素的弱信号[27]。REMUS等[28]通过减去发射线附近的平均背景来实现LIBS基线校正。UNNIKRISHNAN等[29]应用多项式拟合LIBS光谱背景作为被减数来校正基线。

背景校正法可从记录的总光谱信号中准确地去除或最大程度地减弱由非目标分析物产生的背景贡献。YAROSHCHYK等[30]提出了一种无模型基线校正算法,通过根据光谱窗口中的移动最小值去除背景。GORNUSHKIN等[31]提出了一种基于多项式拟合的自动背景校正方法,通过迭代优化分组数量和多项式阶数,最终得到背景的近似。LIU等[32]利用三阶最小值点对LIBS光谱进行分段,在各段内根据二阶最小值的均值作为阈值来筛选有效的背景点,通过线性插值扩展这些有效点并用多项式完成背景拟合。

2.1.2 数据归一化

选择合适的归一化方法对于机器学习模型的构建至关重要。有效的归一化能够显著降低光谱数据的相对标准偏差,提高校正模型的决定系数和预测精度,并改善分类模型的准确率。总强度归一化将每条谱线的强度或整个光谱除以光谱的总积分面积(所有强度的总和)或特定区域的积分面积。该方法假设光谱总发射强度与烧蚀量或等离子体整体状态相关,能够校正由激光能量波动或烧蚀量变化引起的整体信号强度变化[33]。ZAMAN等[34]在植物样品分类研究中发现,将基线校正后的LIBS光谱进行总强度归一化处理,显著提高了机器学习模型的分类准确性。

2.1.3 噪声去除

针对LIBS光谱的噪声特性,存在多种噪声去除方法。其中包括基于滤波的传统方法,基于小波变换的方法,以及一些针对特定噪声来源的创新方法。基于滤波的传统去噪方法,主要是通过平滑技术来抑制光谱中的随机噪声。SG滤波是一种广泛应用的光谱平滑和噪声处理方法,其通过在滑动窗口内对数据点进行多项式最小二乘拟合,以达到平滑和去噪的目的。在FS-LIBS铝合金分析中,比较了SG滤波和中值滤波的效果,研究发现SG滤波能够有效减少光谱噪声,改善检出限[35]

2.1.4 光谱特征选择

光谱特征选择是一种利用数据谱特性进行无监督特征选择和评估的方法。特征选择的目标是挑选出那些能够最好地保持原始数据在这种谱空间中的结构。通过这种方式识别出最具信息量和判别性的特征,其在处理高维数据时优势明显[36]。LIBS光谱预处理方法如表1所示。

表1 LIBS光谱预处理方法

Table 1 LIBS spectrum preprocessing method

预处理方法原理特点参考文献无模型算法背景校正B(i)=∑j=i+W/2j=i-W/2+1Min (j)×rect (i-j)不需要对背景特征或光谱类型进行任何预设,可适用于高或低信噪比LIBS光谱[30]导数光谱法Dνc[f(x)]=dndxndν-nf(x)[d(x-c)]ν-n≡Dnc[Dν-nc[f(x)]],ν>0,可对原始光谱实现对比度增强和峰形分离,但在过于高阶导数校正下会放大噪声[37]乘性散射校正xorg=b0+bref,1·xref+cxcorr=xorg-b0bref,1=xref+cbref,1校正后的光谱保持了基本的吸收特性,消除了基线和斜率伪影,并增强了预测模型的可靠性[38]Savitzky-Golay(SG)滤波y(i)=a0+a1i+a2i2+…+akik=∑kn=0anin,i≤m基于局部多项式拟合的数据平滑方法有效地降低了噪声,同时保留了信号峰的原始形状和高度[39]

2.2 光谱数据建模

尽管LIBS在蜂蜜分析中展现出显著潜力,但其产生的光谱数据受限于样品复杂的化学组成以及LIBS技术固有的技术限制,仍面临诸多挑战。这些因素导致原始光谱数据难以直接解读与简单处理,凸显了引入机器学习等数据处理方法的必要性。

2.2.1 无监督学习

无监督学习是一种在缺乏标签信息的前提下,从数据中自动挖掘潜在结构、模式与知识的学习方式,其核心目标在于深入探索并理解数据本身所蕴含的信息。不同于依赖明确输出变量进行训练的监督学习,无监督学习不依赖任何先验的类别或目标变量,而是在无预设结论的背景下,试图揭示数据内部自发形成的分布特征、聚类结构或潜在关联[40]。在这一过程中,模型的构建与优化完全由数据自身的特性驱动,不依赖外部标签的指导。

主成分分析(principal component analysis,PCA)被广泛视为探索性数据分析与无监督学习方法中的基础算法,其目标在于通过将多个相互关联的变量转换为少数几个相互独立的主成分,实现数据维度的有效压缩。具有良好的稳定性与可解释性,PCA及其各类扩展形式被广泛应用于数据探索、特征提取、噪声抑制及众多科学研究场景中的数据分析任务[41]。聚类分析旨在无监督的框架下,将数据集中样本划分为若干个互不重叠的群组或簇。其核心划分依据通常基于某种预设的相似性度量或距离函数,使得簇内样本间具有高度相似性,而簇间样本则相对差异显著。当前常用的聚类方法包括:1)K-均值(K-means)算法,其基于质心迭代优化进行样本分组;2)层次聚类(hierarchical clustering)算法,能够逐步构建出嵌套结构的聚类树;3)密度基础的聚类算法,如基于密度的噪声应用空间聚类(density-based spatial clustering of applications with noise,DBSCAN),此类算法擅长发现任意形状的簇结构,并具有较强的噪声鲁棒性[42]

非监督深度学习作为深度学习的一大分支,其核心在于运用多层深度架构的神经网络,在无显式标签或预设目标输出的条件下,自主地从输入数据中挖掘其内在结构、潜在表示及层次化特征。这种方法的关键理念,并非简单地构建从输入到输出的映射关系,而是致力于揭示数据本身更为根本的底层分布规律[43]。生成对抗网络(generative adversarial network,GAN)因其在语音处理领域、计算机视觉领域以及图像处理与分类领域的应用而备受关注[44]。TENG等[45]所提出的基于GAN的光谱生成方法,能够利用少量的实验光谱有效扩充LIBS数据库,其生成光谱在经过充分的交互训练后与真实光谱高度相似。结果显示,仅用实验光谱构建的支持向量机(support vector machine,SVM)模型,分类准确率仅为88.89%,而当结合GAN生成的光谱后,模型的准确率显著提升至95.33%。在原始实验光谱数据受限的情况下,引入GAN生成的数据来共同构建分类模型,能够有效提升模型性能。

2.2.2 监督学习

监督学习是机器学习的一个核心分支,其目标是从已标记的训练数据中学习一个函数,该函数能够将输入特征准确地映射到相应的输出。这些训练数据由一组输入以及其对应的输出变量构成。通过深入学习这些输入与输出之间的内在关联和模式,实现对新的输入变量进行准确预测[46]。根据输出变量是连续数值还是离散类别,监督学习可划分为回归算法和分类算法两大类。近年来,深度监督学习在光谱建模中的应用发展迅速。

回归算法的目标在于对连续型数值输出进行精准预测,可通过构建光谱响应与目标属性之间的连续映射关系,实现从高维光谱数据到待测物浓度、含量乃至物性指标的定性或定量推断。偏最小二乘回归(partial least squares regression,PLS-R)以最小二乘准则为基础,按顺序从预测变量与响应变量中提取正交成分,从而在降维的同时建立有效的预测模型。PLS-R尤其适合处理观测样本数量有限而测量变量维度庞大的情形[47]。主成分回归(principal component regression,PCR)以PCA为先导步骤,挑选出能解释大部分数据变异性的主成分,以建立回归模型并预测目标输出变量。适用于输入变量间存在高度相关性的情形,其能在简化模型结构的同时,提高回归系数估计的稳定性与模型解释能力[48]。支持向量回归(support vector regression,SVR)是SVM在回归问题上的扩展。SVR旨在寻找包含最多训练数据且最“平坦”的函数,以平衡模型复杂度和泛化能力。其计算复杂度与输入维度无关,具备较高的预测精度,适合处理非线性、高维数据[49]。HE等[50]开发了远程激光诱导击穿光谱装置(automatic focusing remote laser-induced breakdown spectroscopy,AR-LIBS)并构建SVR模型对19个合金钢训练集样品和7个验证集样品中的Mn、Ni、Cr、Si 4种痕量元素进行定量分析。结果表明,基于内标法的SVR模型(improved support vector regression,IS-SVR)表现出较优的预测性能,其在验证集上对Mn、Ni、Cr、Si元素的平均绝对百分比误差(mean absolute percentage error,MAPE)分别为4.49%、5.19%、4.59%、11.54%,对应的决定系数R2分别为0.984 8、0.995 3、0.999 2、0.949 7,预测均方根误差(root mean square error of prediction,RMSEP)均小于0.1。

分类算法利用标注数据集,训练出能够将输入特征映射到离散标签空间的判别函数,使模型在面对未知输入时,能够准确预测其所属类别,实现对样本的有效分类。偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)可视为PLS-R在分类任务上的一种直接拓展。其基本策略是将类别标签数值化处理,继而引入PLS回归的建模框架,以构建具有判别能力的分类模型。PLS-DA擅长处理高维数据,尤其在变量间存在显著共线性时表现稳定[51]。线性判别分析(linear discriminant analysis,LDA)核心机制在于构造一个投影矩阵,用以将高维数据映射至一个低维子空间,该映射既能最大程度地拉大不同类别之间的类间距离,又尽可能压缩同一类别样本的类内差异。如此处理不仅提升了特征的判别性,也显著增强了低维空间中各类样本的可分性[52]。以HAO等[53]的研究为例,基于LIBS结合多种机器学习算法,开展了对中国九大主要菊花产区样本的产地识别研究。在内部训练集上,LDA模型的预测准确率为100.0%。在外部测试集上,预测准确率为85.9%。

神经网络及深度学习作为机器学习领域中极具代表性的强大模型体系,具备从数据中自动学习复杂非线性映射关系及多层次抽象特征的能力。在深度学习框架下,典型的监督学习方法包括循环神经网络(recurrent neural network,RNN)、卷积神经网络(convolutional neural network,CNN)以及深度神经网络(deep neural network,DNN)[54]。其中,CNN因其结构优势与广泛适用性,成为当前最为知名且使用最频繁的模型之一。其显著优势在于无需依赖显式的人工特征工程,便可自动提取关键特征,具备较高的泛化能力[55]。CNN已广泛部署于多个前沿应用领域,如计算机视觉、语音识别、人脸识别等[56]。从结构上看,CNN主要由三类结构组成:其一是卷积层,用于提取输入数据中局部空间或序列层面的特征模式;其二为池化层,可有效降低特征图维度并增强模型的鲁棒性;其三是全连接层,负责完成最终的回归或分类判别任务,构成输出预测的关键决策模块。HUANG等[57]基于LIBS对比了传统机器学习算法(LDA和SVM等)与CNN构建出的模型对掺假奶粉中外源性蛋白质的识别能力。结果表明,CNN模型表现出更优的识别性能,其在测试集上的平均准确率达到97.8%,训练集准确率为97.7%,准确率高于传统机器学习算法。研究还通过CNN模型卷积层和池化层的可视化分析证明了CNN能有效提取并处理光谱特征。基于CNN的光谱数据建模过程如图2所示。

图2 基于CNN的光谱数据建模框架图

Fig.2 Spectral data modeling framework based on CNN

2.2.3 半监督学习

半监督学习,作为一种介于监督学习与无监督学习之间的机器学习范式,其核心策略在于同时运用有限的已标注数据与海量的未标注数据,以共同驱动模型的训练与优化过程,利用数据内在的结构与分布信息,提升模型性能与泛化能力[58]。MÜLLER等[59]利用LIBS技术,结合半监督学习方法,通过迭代地将新分类的数据加入训练集中,自动扩大训练样本。对含锂伟晶岩进行矿物分类,能识别已知矿物和训练集中未包含的未知物质。

深度半监督学习通过结合深度神经网络强大的表征能力与半监督范式的灵活性,有效解决了标记数据稀缺环境下的模型性能瓶颈问题。其通过特定的损失函数设计,包含监督损失、无监督损失和正则化项来实现这一目标,并已在图像分类、目标检测、语义分割、文本分类等多个领域得到应用[60]。目前深度无监督学习在LIBS光谱建模方面的应用较少,有待深化应用。

3 LIBS在蜂蜜真伪评估与品质鉴定中的应用

3.1 蜂蜜真伪评估

STEFAS等[61]利用LIBS结合LDA与极端随机树算法(extreme randomized trees,ERT),研究了纯蜂蜜及掺入不同比例葡萄糖糖浆的样品。结果显示,随着糖浆掺入比例增加,纯蜂蜜中Ca(Ⅱ)、Na(Ⅰ)、K(Ⅰ)等无机元素谱线强度明显下降。在LIBS光谱区域为200~1 000 nm内选取Ca、Na、K元素的特定光谱区域(392~399、587~592、765~772 nm)时,LDA构建的分类模型均获得90%以上的准确率,仅使用3种无机元素谱线构建的模型测试准确率可达96.2%。

NESPECA等[62]研究了LIBS结合PLS-DA和PLS定量检测蜂蜜中高果糖玉米糖浆(high-fructose corn syrup,HFCS)和蔗糖糖浆2种掺假物,蜂蜜中常见的掺假物及其化学结构如图3所示。研究发现,在对LIBS全谱数据进行二阶导数校正、MSC等预处理并结合区间偏最小二乘(forward interval partial least squares,Fi-PLS)算法进行变量选择后,成功构建了2个PLS-DA分类模型。模型1中依据Fe元素谱线强度的变化,区分纯蜂蜜与掺假蜂蜜;模型2中依据Ca和Fe元素在不同糖浆中含量的差异,区分掺入的是HFCS还是蔗糖糖浆。2种模型都实现了训练集和外部验证集的100%正确分类。在掺假物定量分析中,采用一阶导数结合正交信号校正进行预处理,并利用反向区间偏最小二乘算法筛选出的光谱变量所构建的PLS模型表现最佳,其外部验证的RMSEP为10.4%,R2=0.929 4,检出限(limit of detection,LOD)为0.1%,定量限(limit of quantitation,LOQ)为0.4%。

图3 蜂蜜中常见的掺假物及其化学结构

Fig.3 Common adulterants in honey and their chemical structures

LASTRA-MEJAS等[63]将LIBS技术与混沌参数分析结合,提出了一种用于检测蜂蜜中大米糖浆掺假的创新方法。该研究不仅利用LIBS光谱(光谱范围200~980 nm)中Ca、Na、K、Mg等金属元素的特征差异对6种欧洲蜂蜜的植物来源进行推断,还创新地引入混沌参数作为特征提取手段。相较于传统特征选择,基于混沌参数的k近邻(k-nearest neighbors,k-NN)模型在纯蜂蜜植物来源分类上表现更优,准确率达到95.8%。该混沌参数模型成功检测出低至2%的米浆掺假,其综合模型准确率为87.2%;若针对单一蜂蜜品种建立模型,对6%掺假阈值的检测准确率可进一步提升至93%~96%。此研究首次将混沌理论应用于LIBS蜂蜜掺假分析,为检测蜂蜜中低浓度、难分辨的掺假物提供了强有力的创新思路和技术途径。

PENG等[64]利用LIBS结合遗传算法(genetic algorithm,GA)、投影重要性变量(variable importance in the projection,VIP)和选择性比率(selectivity ratio,SR)3种特征选择方法的PLS-R模型对洋槐蜜中掺入HFCS-55(含约55%果糖)、HFCS-90(含约90%果糖)和油菜花蜜的含量进行定量分析。通过单变量分析探究了43条主要发射谱线强度与掺假物含量的关系,结果显示,Mg、Ca、Na、K等矿物元素的谱线与HFCS掺假量表现出较强的相关性,而Na元素谱线对油菜蜜掺假的指示性较好。Mg(Ⅱ)、Mg(Ⅰ)、Ca(Ⅱ)、Ca(Ⅰ)、Na(Ⅰ)、K(Ⅰ)等元素的发射谱线与掺假物含量紧密相关。通过SR和VIP进行变量选择后构建的PLS-R模型对HFCS-55、HFCS-90和油菜蜜掺假的RMSEP分别为8.9%、8.2%和4.8%。

3.2 蜂蜜品质鉴定

KANTEMIRIS等[65]利用LIBS结合LDA、SVM、随机森林(random forest,RF)算法对268份蜂蜜样品进行植物来源快速识别。结果显示,LDA模型表现最优,所有8种蜂蜜类型的分类准确率为75.39%。通过逐步排除易混淆的蜂蜜类别(如杂花蜜、栗树蜜和冷杉蜜),LDA模型的测试准确率在最优场景下可提升至96%以上。研究中K、Ca、Na、Mg等矿物元素的原子发射谱线在分类中起到核心作用,模型性能与使用全部2 751个光谱特征点相近,降低了数据处理的复杂度和时间成本。

STEFAS等[66]首次应用LIBS研究了不同人工饲喂蜜蜂方式(喂食转化糖浆、蔗糖溶液)对蜂蜜元素组成的影响,并结合LDA和RF进行分类。结果显示K、Ca、Na、Mg等无机元素谱线强度与人工饲喂方式显著相关。Na(Ⅰ)、K(Ⅰ)、Ca(Ⅱ)、Mg(Ⅱ)及C(Ⅰ)的发射谱线是区分不同饲喂方式来源蜂蜜的主要特征,仅提取以Na、Ca、K为主的6个关键谱线,即可实现98.8%的训练集准确率和98.9%的测试集准确率。

STEFAS等[67]采用LIBS结合主成分分析PCA、LDA、SVM及RF对10种不同植物来源蜂蜜进行分类。研究通过高分辨率光谱详细分析了Na、Ca、Mg、K等关键无机元素的特征谱线。研究发现,基于LDA、SVM和RFC构建的分类模型均表现出优异性能。LDA和SVM在10折交叉验证中准确率达(99.8±0.4)%,RFC模型为(97.8±1.9)%。外部验证中,LDA和SVM对未知样本预测准确率达100%,RF为98%。RF分析明确指出Ca、Mg、Na、K的发射谱线对分类最关键。

ZHAO等[68]采用LIBS结合PCA、LDA和SVM对洋槐蜜和杂花蜜进行地理来源进行分类。研究发现Mg、Ca、Na、K等元素发射强度因产地而异,特别是Na(Ⅰ)589 nm谱线差异显著。PCA的载荷图表明C、H、O、N等主要有机元素以及Mg、Ca、Na、K等元素均对主成分有重要贡献。研究者基于PCA降维后的主成分数据(累计方差大于95%),构建了LDA和SVM模型,结果表明SVM模型性能更优。对于洋槐蜜地理来源判别,SVM的准确率和平均平均精度(mean average precision,MAP)分别为82.6%和89.5%;而在杂花蜜分类中,SVM准确率与MAP均为99.7%。

SE等[69]采用电感耦合等离子体发射光谱法(inductively coupled plasma optical emission spectrometry,ICP-OES)结合LIBS和PLS-R算法定量分析了30份无刺蜂蜂蜜中Ca、Mg、Na含量。PLSR模型基于优选光谱波段(Ca:392~397 nm;Mg:278~281 nm;Na:587~590 nm)构建,研究者基于ICP-OES测得的元素浓度,结合25份蜂蜜样品在特定波段下的LIBS光谱数据,构建了Ca、Mg、Na的PLS-R定量模型。各模型均表现出优异性能,校正R2分别为0.960、0.966、0.940,交叉验证R2分别为0.923、0.950和0.909。该研究证明LIBS-PLSR可快速分析和定量蜂蜜元素。

表2总结了近年来LIBS技术在蜂蜜真伪评估和品质鉴定中的应用。

表2 LIBS技术在蜂蜜真伪评估和品质鉴定中的应用

Table 2 Application of LIBS technology in honey authenticity assessment and quality identification

分析目的样品目标元素光谱预处理和特征选择机器学习算法参考文献蜂蜜掺假分析掺入不同比例葡萄糖糖浆的蜂蜜Ca、Na、K无LDA、ERT[61]蜂蜜掺假分析掺入了高果糖浆和蔗糖糖浆的蜂蜜Ca、Fe二阶导数校正平均中心化PLS-DA、PLS[62]蜂蜜掺假分析6种不同植物来源的欧洲蜂蜜Ca、Na、K、MgRelief-F算法混沌参数k-NN[63]蜂蜜掺假分析掺入高果糖玉米糖浆或油菜花蜜的洋槐蜂蜜Mg、Ca、Na、KGA、VIP、SRPLS-R[64]蜂蜜植物溯源分析8种不同植物来源的蜂蜜K、Ca、Na、Mg数据归一化PCALDA、SVM、RF[65]不同饲喂方式蜂蜜分析通过喂养不同的糖浆(转化糖浆、蔗糖)生产的蜂蜜K、Ca、Na、MgPCALDA、RF[66]蜂蜜植物溯源分析10种不同植物来源的蜂蜜K、Ca、Na、MgPCALDA、SVM、RF[67]蜂蜜地理来源分析来自6个不同产地的洋槐蜂蜜和杂花蜂蜜C、H、O、N、K、Ca、Na、Mg单因素方差分析PCA、LDA、SVM[68]蜂蜜成分分析马来西亚无刺蜂蜂蜜Ca、Na、Mg总强度归一化PLS-R[69]

4 总结与展望

近年来,随着蜂蜜种类的不断增多,蜂蜜质量安全的风险和隐患不断增加。LIBS技术与机器学习在蜂蜜真伪评估和品质鉴定中展现出巨大潜力,为蜂蜜溯源提供关键的鉴别依据。

尽管LIBS技术潜力显著,但仍面挑战。一是LIBS信号易受激光能量波动和样品基质效应影响,稳定性与重复性难以达到理想水平;二是现有研究多聚焦于高浓度、常见糖浆掺假识别,对于掺假量较低的物质的特异性识别不足;三是受到LIBS设备成本和模型泛化能力影响,在一定程度上制约了该技术在多应用场景下推广。未来,可进一步探索双脉冲LIBS、空间约束等先进技术,以增强检测信号的稳定性;将LIBS获得的元素指纹信息与红外光谱分子振动信息进行数据融合,实现对复杂掺假方式的精准识别。

随着人工智能技术的不断发展,光谱数据建模方法也发生了巨大改变,总体呈现出从一元到多元再到全谱、从线性到非线性的发展趋势。未来,应加强蜂蜜等食品数据库建设,为蜂蜜掺假模型建立提供数据支持,提高算法精度、效率和适用性,推动建立智能化蜂蜜溯源与质控体系。

参考文献

[1] BOSE D, PADMAVATI M.Honey Authentication:A review of the issues and challenges associated with honey adulteration[J].Food Bioscience, 2024, 61:105004.

[2] AHMAD N N, KHAIRATUN S N.Exploring fraudulent honey cases from readily available food fraud databases[J].GATR Global Journal of Business Social Sciences Review, 2021, 9(2):99-113.

[3] HIRPARA P, RAMESHBHAI P M, KELE V D, et al.Honey:A functional food and its application in food products[J].Journal of Xidian University, 2023, 17(10):764-782.

[4] ZHANG X W, XU L T, WANG S Y, et al.How to effectively reduce honey adulteration in China:An analysis based on evolutionary game theory[J].Foods, 2023, 12(7):1538.

[5] ŽDINIAKOV T, LÖRCHNER C, DE RUDDER O, et al.EU Coordinated action to deter certain fraudulent practices in the honey sector[J].European Union, 2023,EUR 31461 EN:1-16.

[6] OTHMAN S, MAVANI N R, HUSSAIN M A, et al.Artificial intelligence-based techniques for adulteration and defect detections in food and agricultural industry:A review[J].Journal of Agriculture and Food Research, 2023, 12:100590.

[7] MORARIU I D, AVASILCAI L, VIERIU M, et al.A comprehensive narrative review on the hazards of bee honey adulteration and contamination[J].Journal of Food Quality, 2024, 2024(1):3512676.

[8] DE NOVAIS L M R, DE FTIMA COSTA SANTOS M, MARQUES A C Q, et al.Combining analytical techniques to detect honey adulteration in Brazil—A case study[J].Journal of Food Composition and Analysis, 2025, 144:107716.

[9] BISWAS A, NARESH K, JAYGADKAR S S, et al.Enabling honey quality and authenticity with NMR and LC-IRMS based platform[J].Food Chemistry, 2023, 416:135825.

[10] LIMM W, KARUNATHILAKA S R, MOSSOBA M M.Fourier transform infrared spectroscopy and chemometrics for the rapid screening of economically motivated adulteration of honey spiked with corn or rice syrup[J].Journal of Food Protection, 2023, 86(4):100054.

[11] MARTINELLO M, STELLA R, BAGGIO A, et al.LC-HRMS-based non-targeted metabolomics for the assessment of honey adulteration with sugar syrups:A preliminary study[J].Metabolites, 2022, 12(10):985.

[12] YAN S, WANG X, WU Y C, et al.A metabolomics approach revealed an Amadori compound distinguishes artificially heated and naturally matured Acacia honey[J].Food Chemistry, 2022, 385:132631.

[13] ALGHAMDI B A, ALSHUMRANI E S, BIN SAEED M S, et al.Analysis of sugar composition and pesticides using HPLC and GC-MS techniques in honey samples collected from Saudi Arabian markets[J].Saudi Journal of Biological Sciences,2020, 27(12):3720-3726.

[14] GARDETTE V, MOTTO-ROS V, ALVAREZ-LLAMAS C, et al.Laser-induced breakdown spectroscopy imaging for material and biomedical applications:Recent advances and future perspectives[J].Analytical Chemistry, 2023, 95(1):49-69.

[15] GONG Z A, ZHI Z H, ZHANG C L, et al.Non-destructive detection of soluble solids content in fruits:A review[J].Chemistry, 2025, 7(4):115.

[16] KABIR M H, GUINDO M L, CHEN R Q, et al.Application of laser-induced breakdown spectroscopy and chemometrics for the quality evaluation of foods with medicinal properties:A review[J].Foods, 2022, 11(14):2051.

[17] RAI D, RAI A K, RAI A K, et al.Libs-a promising technique for control of food quality[J].Journal of Optics, 2025. https://doi.org/10.1007/s12596-024-02436-2.

[18] BISWAS A, CHAUDHARI S R.Exploring the role of NIR spectroscopy in quantifying and verifying honey authenticity:A review[J].Food Chemistry, 2024, 445:138712.

[19] KEERTHI K, GEORGE S D, KULKARNI S D, et al.Elemental analysis of liquid samples by laser induced breakdown spectroscopy (LIBS):Challenges and potential experimental strategies[J].Optics &Laser Technology, 2022, 147:107622.

[20] SINGH, JAGDISH P, SURYA N, et al.Laser-Induced Breakdown Spectroscopy[M].Susan Dennis, Online:Elsevier, 2020, 107-130.

[21] PALLESCHI V, LEGNAIOLI S, POGGIALINI F, et al.Laser-induced breakdown spectroscopy[J].Nature Reviews Methods Primers, 2025, 5(1):17.

[22] LEE L C, LIONG C Y, JEMAIN A A.A contemporary review on Data Preprocessing (DP) practice strategy in ATR-FTIR spectrum[J].Chemometrics and Intelligent Laboratory Systems, 2017, 163:64-75.

[23] MOKARI A, GUO S X, BOCKLITZ T.Exploring the steps of infrared (IR) spectral analysis:Pre-processing,(classical) data modelling, and deep learning[J].Molecules, 2023, 28(19):6886.

[24] DAYANANDA B, OWEN S, KOLOBARIC A, et al.Pre-processing applied to instrumental data in analytical chemistry:A brief review of the methods and examples[J].Critical Reviews in Analytical Chemistry, 2024, 54(8):2745-2753.

[25] YAN C S.A review on spectral data preprocessing techniques for machine learning and quantitative analysis[J].iScience, 2025, 28(7):112759.

[26] FU G R, LI Z X, XU J, et al.Prediction of heavy metal Cd and stress on minerals in rice by analysis of LIBS spectra[J].Applied Optics, 2022, 61(10):2536-2541.

[27] SUN L X, YU H B.Automatic estimation of varying continuum background emission in laser-induced breakdown spectroscopy[J].Spectrochimica Acta Part B:Atomic Spectroscopy, 2009, 64(3):278-287.

[28] REMUS J J, GOTTFRIED J L, HARMON R S, et al.Archaeological applications of laser-induced breakdown spectroscopy:An example from the Coso Volcanic Field, California, using advanced statistical signal processing analysis[J].Applied Optics, 2010, 49(13):C120-C131.

[29] UNNIKRISHNAN V K, NAYAK R, AITHAL K, et al.Analysis of trace elements in complex matrices (soil) by laser induced breakdown spectroscopy (LIBS)[J].Analytical Methods, 2013, 5(5):1294-1300.

[30] YAROSHCHYK P, EBERHARDT J E.Automatic correction of continuum background in laser-induced breakdown spectroscopy using a model-free algorithm[J].Spectrochimica Acta Part B:Atomic Spectroscopy, 2014, 99:138-149.

[31] GORNUSHKIN I B, EAGAN P E, NOVIKOV A B, et al.Automatic correction of continuum background in laser-induced breakdown and Raman spectrometry[J].Applied Spectroscopy, 2003, 57(2):197-207.

[32] LIU J L, ZHANG R, LI X T, et al.Continuous background correction using effective points selected in third-order minima segments in low-cost laser-induced breakdown spectroscopy without intensified CCD[J].Optics Express, 2018, 26(13):16171-16186.

[33] GUEZENOC J, GALLET-BUDYNEK A, BOUSQUET B.Critical review and advices on spectral-based normalization methods for LIBS quantitative analysis[J].Spectrochimica Acta Part B:Atomic Spectroscopy, 2019, 160:105688.

[34] ZAMAN M H, REHMAN F, TAHIR M S, et al.A study on the effect of preprocessing and normalization on classification of plant samples in machine learning assisted laser-induced breakdown spectroscopy[J].Arabian Journal for Science and Engineering, 2024, 49(7):10003-10019.

[35] YAO J Q, YANG Q, HE X Y, et al.Spectral filtering method for improvement of detection accuracy of Mg, Cu, Mn and Cr elements in aluminum alloys using femtosecond LIBS[J].RSC Advances, 2022, 12(50):32230-32236.

[36] ZHOU P, CHEN J Y, DU L, et al.Balanced spectral feature selection[J].IEEE Transactions on Cybernetics, 2023, 53(7):4232-4244.

[37] KHARINTSEV S S, SALAKHOV M K.A simple method to extract spectral parameters using fractional derivative spectrometry[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy, 2004, 60(8-9):2125-2133.

[38] RINNAN Å, VAN DEN BERG F, ENGELSEN S B.Review of the most common pre-processing techniques for near-infrared spectra[J].TrAC Trends in Analytical Chemistry, 2009, 28(10):1201-1222.

[39] ZHANG G S, HAO H, WANG Y C, et al.Optimized adaptive Savitzky-Golay filtering algorithm based on deep learning network for absorption spectroscopy[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy, 2021, 263:120187.

[40] NAEEM S, ALI A, ANAM S, et al.An unsupervised machine learning algorithms:Comprehensive review[J].International Journal of Computing and Digital Systems, 2023, 13(1):911-921.

[41] GREENACRE M, GROENEN P J F, HASTIE T, et al.Principal component analysis[J].Nature Reviews Methods Primers, 2022, 2:100.

[42] EZUGWU A E, IKOTUN A M, OYELADE O O, et al.A comprehensive survey of clustering algorithms:State-of-the-art machine learning applications, taxonomy, challenges, and future research prospects[J].Engineering Applications of Artificial Intelligence, 2022, 110:104743.

[43] VALPOLA H. From Neural PCA to Deep Unsupervised Learning[M]. Amsterdam: Elsevier, 2015:143-171.

[44] ZHOU T, LI Q, LU H L, et al.GAN review:Models and medical image fusion applications[J].Information Fusion, 2023, 91:134-148.

[45] TENG G E, WANG Q Q, KONG J L, et al.Extending the spectral database of laser-induced breakdown spectroscopy with generative adversarial nets[J].Optics Express, 2019, 27(5):6958.

[46] SARKER I H.Machine learning:Algorithms, real-world applications and research directions[J].SN Computer Science, 2021, 2(3):160.

[47] ESPOSITO VINZI V, RUSSOLILLO G.Partial least squares algorithms and methods[J].WIREs:Computational Statistics, 2013, 5(1):1-19.

[48] SOLANKI R B, KULKARNI H D, SINGH S, et al.Optimization of regression model using principal component regression method in passive system reliability assessment[J].Progress in Nuclear Energy, 2018, 103:126-134.

[49] MONTESINOS LPEZ O A, MONTESINOS LPEZ A, CROSSA J.Support Vector Machines and Support Vector Regression[M].Cham:Springer International Publishing, 2022:337-378.

[50] HE Y X, KE C, WEN Q F, et al.Automatic focusing remote laser. induced breakdown spectroscopy analysis of trace elements in steel using support vector machine regression[J].IEEE Transactions on Instrumentation and Measurement, 2025, 74:7009408.

[51] SOROCHAN ARMSTRONG M D, DE LA MATA A P, HARYNUK J J.Review of variable selection methods for discriminant-type problems in chemometrics[J].Frontiers in Analytical Science, 2022, 2:867938.

[52] ZHAO S P, ZHANG B, YANG J, et al.Linear discriminant analysis[J].Nature Reviews Methods Primers, 2024, 4:70.

[53] HAO N, GAO X, ZHAO Q, et al.Rapid origin identification of Chrysanthemum morifolium using laser-induced breakdown spectroscopy and chemometrics[J].Postharvest Biology and Technology, 2023, 197:112226.

[54] ALZUBAIDI L, ZHANG J L, HUMAIDI A J, et al.Review of deep learning:Concepts, CNN architectures, challenges, applications, future directions[J].Journal of Big Data, 2021, 8(1):53.

[55] AHMED S F, BIN ALAM M S, HASSAN M, et al.Deep learning modelling techniques:Current progress, applications, advantages, and challenges[J].Artificial Intelligence Review, 2023, 56(11):13521-13617.

[56] QAMAR R, ALI ZARDARI B.Artificial neural networks:An overview[J].Mesopotamian Journal of Computer Science, 2023, 2023:124-133.

[57] HUANG W H, GUO L B, KOU W P, et al.Identification of adulterated milk powder based on convolutional neural network and laser-induced breakdown spectroscopy[J].Microchemical Journal, 2022, 176:107190.

[58] VALE K M O, GORGNIO A C, DA LUZ E GORGNIO F, et al.An efficient approach to select instances in self-training and co-training semi-supervised methods[J].IEEE Access, 2021, 10:7254-7276.

[59] MÜLLER S, MEIMA J A.Mineral classification of lithium-bearing pegmatites based on laser-induced breakdown spectroscopy:Application of semi-supervised learning to detect known minerals and unknown material[J].Spectrochim.Acta B, 2022, 189:106370.

[60] YANG X L, SONG Z X, KING I, et al.A survey on deep semi-supervised learning[J].IEEE Transactions on Knowledge and Data Engineering, 2023, 35(9):8934-8954.

[61] STEFAS D, GYFTOKOSTAS N, KOURELIAS P, et al.A laser-based method for the detection of honey adulteration[J].Applied Sciences, 2021, 11(14):6435.

[62] NESPECA M G, VIEIRA A L, SANTOS JNIOR D, et al.Detection and quantification of adulterants in honey by LIBS[J].Food Chemistry, 2020, 311:125886.

[63] LASTRA-MEJAS M, IZQUIERDO M, GONZLEZ-FLORES E, et al.Honey exposed to laser-induced breakdown spectroscopy for chaos-based botanical classification and fraud assessment[J].Chemometrics and Intelligent Laboratory Systems, 2020, 199:103939.

[64] PENG J Y, XIE W Y, JIANG J D, et al.Fast quantification of honey adulteration with laser-induced breakdown spectroscopy and chemometric methods[J].Foods, 2020, 9(3):341.

[65] KANTEMIRIS G, KOURELIAS P, PANAGIOTOPOULOU C, et al.Authentication of the botanical origin of honey via laser induced breakdown spectroscopy[J].Microchemical Journal, 2025, 212:113537.

[66] STEFAS D, GYFTOKOSTAS N, KOURELIAS P, et al.Honey discrimination based on the bee feeding by laser induced breakdown spectroscopy[J].Food Control, 2022, 134:108770.

[67] STEFAS D, GYFTOKOSTAS N, COURIS S.Laser induced breakdown spectroscopy for elemental analysis and discrimination of honey samples[J].Spectrochimica Acta Part B:Atomic Spectroscopy, 2020, 172:105969.

[68] ZHAO Z F, CHEN L, LIU F, et al.Fast classification of geographical origins of honey based on laser-induced breakdown spectroscopy and multivariate analysis[J].Sensors, 2020, 20(7):1878.

[69] SE K W, GHOSHAL S K, WAHAB R A.Laser-induced breakdown spectroscopy unified partial least squares regression:An easy and speedy strategy for predicting Ca, Mg and Na content in honey[J].Measurement, 2019, 136:1-10.

Research progress of laser-induced breakdown spectroscopy combined with machine learning in honey authenticity assessment and quality identification

ZENG Fanti1, LI Chunyu1*, ZHAO Xuejun2*

1(School of Criminal Investigation, People’s Public Security University of China, Beijing 100038, China)

2(Shanghai Key Laboratory of Crime Scene Evidence, Shanghai Institute of Forensic Science and Technology, Shanghai 200072, China)

ABSTRACT The authentication and quality evaluation of honey are essential for ensuring food safety and consumer protection.While traditional detection methods provide a technical foundation for honey quality monitoring, they are often limited by cumbersome sample preparation and low resolution.Laser-induced breakdown spectroscopy (LIBS), when combined with machine learning (ML), presents a powerful alternative.This approach enables the rapid, in situ analysis of honey’s elemental composition, leveraging its wide detection range, high sensitivity, and high spatial resolution to provide a robust basis for quality assessment.This review systematically examines the innovative applications of LIBS for identifying honey adulteration.It analyzes the applicability of various spectral preprocessing and data modeling methods for processing LIBS data and provides an outlook on the future application prospects and research trends in this field.

Key words laser-induced breakdown spectroscopy; machine learning; honey; adulteration identification; spectral data processing; food safety

DOI:10.13995/j.cnki.11-1802/ts.044157

引用格式:曾凡倜,李春宇,赵雪珺.激光诱导击穿光谱结合机器学习在蜂蜜真伪评估与品质鉴定中的研究进展[J].食品与发酵工业,2026,52(10):451-460.ZENG Fanti,LI Chunyu,ZHAO Xuejun.Research progress of laser-induced breakdown spectroscopy combined with machine learning in honey authenticity assessment and quality identification[J].Food and Fermentation Industries,2026,52(10):451-460.

第一作者:硕士研究生(李春宇副教授和赵雪珺副研究员为共同通信作者,E-mail:lichunyu@ppsuc.edu.cn;xjzhao1201@163.com)

基金项目:上海市现场物证重点实验室开放课题基金项目(2024XCWZK02)

收稿日期:2025-08-07,改回日期:2025-10-10