基于近红外光谱和多层感知机的贻贝中腹泻性贝毒快速无损检测

刘忠艳1*,刘瑶2,乔付1,郝博麟1,姜微1,熊建芳1

1(岭南师范学院 计算机与智能教育学院,广东 湛江,524048)2(岭南师范学院 电子与电气工程学院,广东 湛江,524048)

摘 要 以腹泻性贝毒(diarrheal shellfish poison,DSP)污染和未污染良好贻贝为研究对象,利用近红外光谱仪采集950~1 700 nm波长内各120个样本的光谱数据;分析确定适合贻贝近红外光谱(near-infrared spectroscopy,NIS)的最佳预处理方法来消除环境光的影响;构建多层感知机(multi-layer perceptron,MLP)模型作为检测DSP污染贻贝的分类器。将240个样本构成的数据集按照7∶3随机划分为训练集和测试集,将运行50次模型得到的准确率的平均值作为最终评价指标,检测DSP污染贻贝的准确率达到99.94%。该研究所构建的基于NIS的MLP模型对DSP的检出限为35 μg/kg。对于实际应用中存在的数据集中训练集所占比重不同、小样本和类别不均衡等问题,分析了MLP模型的检测性能。实验结果表明,基于一阶导数光谱预处理的MLP模型对以上3种问题不敏感,说明该分类器泛化能力及鲁棒性较强。因此,将NIS与MLP分类器结合是一种可行的贝毒无损鉴别的新方法。

关键词 近红外光谱;腹泻性贝毒;贻贝;多层感知机;光谱预处理

随着人们生活水平的提高,海鲜产品已成为人们生活中的必需品。贻贝因含有大量的蛋白质和丰富的矿物质,而且具有抗炎、解毒等功效,广受人们的欢迎[1]。贻贝属于双壳软体类动物,通常生活在近海靠近河口岸边。近年来,海洋水体污染日趋严重,水体富营养化,导致赤潮频繁发生,赤潮藻类毒素泛滥。贻贝滤食被毒素污染藻类,使得毒素在体内富集。当人类食用了大量被污染的贻贝时就会严重中毒。腹泻性贝毒(diarrheal shellfish poison,DSP)是常见且危险性较大的藻类毒素,食用后产生头疼、腹痛、呕吐和腹泻等中毒症状[2]。鉴于贝毒严重危害着人们的身体健康,开发快速且准确地检测贻贝中毒素的方法变得更加重要。

目前,贻贝毒素检测主要采用理化方法。彭志兰等[3]利用小鼠生物测定法对舟山海域的麻痹性贝毒进行检测,并与酶联免疫分析法测定结果比较。虽然这种方法很容易操作,但因杀害了许多动物而遭到动物保护者的抗议[4]。酶联免疫分析法需要专门的试剂,成本较高。姚建华等[5]利用液相色谱-串联质谱法(liquid chromatography-tandem mass spectrometry,LC-MS/MS)对贝类组织中的5种贝类毒素进行检测。LC-MS/MS作为一种高效的定性和定量分析方法,近年来受到越来越多的关注。然而,LC-MS/MS需要昂贵的参比物质,熟练的操作人员,而且仪器的维护成本高,阻碍了其广泛应用。这些理化方法可以检测出贝类毒素,但需要对样本进行复杂的预处理且具有破坏性,难以实现大规模、实时、无损检测。因此,迫切需要找到一种快速、无损、低成本且操作简单的方法来检测贻贝中的毒素。

近年来,近红外光谱作为一种检测速度快、无损,而且操作简单的方法,已被广泛用于食品质量和安全的检测中[6]。李凯等[7]利用近红外光谱(near-infrared spectroscopy,NIS)结合多种机器学习分类模型对3种葡萄酒品种进行鉴别,准确率最高为88.24%。夏吉安等[8]利用NIS技术,采用人工神经网络模型和支持向量机(support vector machine,SVM)模型对蚕豆虫害等级进行鉴别,准确率分别为95.05%和 90.10%。王劭晟等[9]利用NIS技术结合SVM实现鳕鱼品种的二分类,准确率最高达到97.2%。上述NIS检测方法中分类模型主要采用SVM、AdaBoost和偏最小二乘等机器学习算法,用以实现各类食品的检测,但分类准确率不高,而且训练数据集中的各类样本的分布基本是均衡的。

赤潮的发生有显著的突发性特点,而且一旦发生赤潮现象,海洋管理部门和人民政府会及时关闭养殖区,以防止意外中毒事件的发生。因此,对于本文所开展的利用NIS技术检测贻贝中毒素的研究,很难捕捞到自然环境下生长的含有毒素的贻贝样本,只能在实验室环境下,通过喂食利玛原甲藻培养受DSP污染贻贝样本。在毒素富集过程中,毒素在贻贝各组织器官中会发生吸收、同化、排除,组织间的转移等复杂的活动。经过这一系列同时发生又有相互重叠的代谢和转化等活动,贻贝体内毒素的含量存在不确定性,使得利用NIS技术进行贝毒检测具有一定的难度。目前,这方面的检测研究少有报道。但是,受毒素污染贻贝样本在毒素的富集和转化过程中,其机体中的化学成分和含量与未污染贻贝样本相比有很大不同。两种样本在特定波长处对相同光的反射率不同,这种差异会体现在近红外反射光谱中[10-11],从而为利用NIS技术实现贻贝毒素检测提供了可行性。另外,实际检测的样本集中可能大部分是未污染良好的贻贝,受DSP污染的贻贝只占小部分,这是一个类别不均衡问题。因此,贝毒污染检测研究不能直接地简单移用现有的NIS检测方法。

本文探究DSP污染贻贝和未污染贻贝的NIS光谱曲线差异及变化规律,针对数据集中训练集所占比重不同、小样本及样本类别不均衡的问题,构建一个具有较好泛化能力和鲁棒性的多层感知机(multi-layer perceptron,MLP)分类模型,以期为贝毒快速、准确检测提供一种可行方法,可保障海产品质量安全,具有重要的现实意义。

1 材料与方法

1.1 样品制备和光谱采集

贻贝是从中国广东省湛江市的寸金市场购买的。将贻贝放入2个规格为119 cm×108 cm×32 cm,容积为80 L的塑料箱中暂养。一组贻贝在海水中养殖,不添加任何毒素,在整个实验过程中,连续适量充气,每日换水,维持水温26 ℃,每天用0.5 L光合细菌喂养,以维持贻贝正常的生理活动。另外一组贻贝每天定期投喂1 L浓度为7.3×109 cell/L的利玛原甲藻,每天全量换水1次,让DSP在贻贝样本中充分积累,喂养期间连续适量充气,保证溶氧以及形成水流。6 d后从2个塑料箱中分别取出所有贻贝,挑选出未污染良好的和污染的贻贝各120个,对240个样品开壳,进行光谱采集。

NIS采集系统如图1所示,该系统由中国台湾OtO光电子有限公司生产的SW2 520-050-NIRA近红外光谱仪、光纤、光纤探针、载物台和计算机组成。为了降低噪声,对光谱仪器提前进行黑白校正。将DSP污染的贻贝和未污染的贻贝开壳样本分别放到载物台上,将光纤探针定位在贻贝肉的中心,扫描3次,并将3次光谱采集的平均值作为该样本的NIS,将采集到的样本光谱传输到计算机中。光谱波长在950~1 700 nm,包含114个光谱波段。

图1 近红外光谱采集系统
Fig.1 NIS acquisition system

1.2 光谱预处理算法

光谱采集过程中由于环境光及人为因素影响不可避免的产生噪声、基线倾斜等现象。通常要对原始光谱进行预处理操作,以提高光谱特性。本文分析、比较了多元散射校正(multiplicative scatter correction,MSC)、一阶导数(first derivative,FD)、标准正态变量(standard normal variate,SNV)和卷积(savitzky-golay,SG)4种预处理方法[12-13]

SNV用于降低样品形状不规则和样品表面的非特异性散射的影响。MSC用来修正光谱数据中的基线漂移现象,增强光谱与检测对象之间的相关性。FD能够消除由于散射和一些重叠峰引起的基线漂移的影响。SG可有效去除高频噪声信号,提高光谱数据的信噪比[13-14]

MSC算法如公式(1)所示,对光谱进行MSC预处理:

xMSC=(xk-bk)/nk

(1)

式中:bk为回归系数,为平均光谱。

SNV算法如公式(2)所示,对光谱进行SNV预处理:

(2)

式中:为样本平均光谱;xp为第p条原始光谱,m为光谱波段数。

FD算法如公式(3)所示,设光谱xp=f(λ),对光谱进行FD预处理:

xFD=[f(λi+1)-f(λi-1)]/λ

(3)

式中:λ为波长。

SG算法如公式(4)所示,对光谱进行SG预处理:

(4)

式中:w为窗口宽度。

1.3 MLP模型原理

MLP是一种深度神经网络模型,具有很强的泛化能力,能学习和贮存大量输入输出模式之间映射关系,而无需了解映射关系的具体表达公式[15]。MLP由输入层、隐含层和输出层构成,不同层之间是全连接的。MLP神经网络结构如图2所示。网络的输入为[x1, x2, x3],输出为y,第l-1层的第i个节点到第l层第j个节点的连接权重为j个节点的输出为偏移常量为bl,激活函数为g(x),则第1层神经元的输出为:

图2 MLP的神经网络结构图
Fig.2 Structure diagram of MLP neural network

(5)

输出y为:

(6)

为了更好应用MLP模型对实际问题进行分类,可以增加隐含层层数或者隐含层中神经元数量。一般情况下,一个隐含层足够解决任何非线性分类问题,只要有足够多的神经元数量。因此,本文的MLP神经网络模型采用的是一个隐含层的网络,隐含层神经元数量通过试验确定。

1.4 模型性能评估

为了评估模型的泛化能力,利用Recall(召回率)、Precision(精确率)、Accuracy(准确率)、F1_score(综合评价)和Error(受DSP污染样本识别误差)等指标评价分类模型的性能[16-17]。定义如公式(7)~公式(11)所示:

(7)

(8)

(9)

(10)

(11)

式中:FN,实际未污染样本预测为DSP污染样本的数量;FP,实际DSP污染样本预测为未污染样本的数量;TP,实际未污染样本预测为未污染样本的数量;TN,实际DSP污染样本预测为DSP污染样本的数量。

指标Recall、Precision、Accuracy表示检测模型对样本的查全率、查准率和正确率,F1_score对检测模型的综合评价,Error表示受DSP污染的贻贝样本检测错误的概率。指标 Recall、Precision、Accuracy和F1_score的值越高说明模型性能越好,最理想值为1;Error越小说明模型性能越好,最理想值为0。后续所有实验中每次建模运行50次,取这50次运行平均值作为每种模型的最终评价指标值。

2 结果与分析

2.1 光谱分析

240个样本(120个DSP污染样本和120个未污染样本)的原始NIS曲线如图3-a所示。由于两类样本属于同一物种,它们的光谱曲线的形状相似。DSP污染和未污染样本的平均光谱曲线如图3-b所示。可见,DSP样本和未污染样本的平均光谱反射率值在950~1 700 nm波长内是存在差异的。未污染样本光谱反射率值小于DSP污染样本的光谱反射率值。只有1 480 nm波长附近,2种样本的平均光谱曲线几乎重叠,但对分类效果影响不大。

a-全部样本的光谱;b-两类样本的平均光谱
图3 贻贝样本近红外光谱曲线
Fig.3 NIS curves of mussel samples

当贻贝受到DSP污染时,会使蛋白质、酶和脂质等组织成分发生变化,这些变化会反映在光谱曲线上。两类样本光谱上的差异为区分DSP污染样本和未污染样本提供了可行性。

采集近红外光谱后,120个DSP污染样本的贻贝肉被取出、冷冻,送往厦门海关技术中心检测。检测方法为GB 5009.212—2016《食品安全国家标准 贝类中腹泻性贝类毒素的测定》中的LC-MS/MS法。检测结果DSP的含量为35 μg/kg。

2.2 光谱预处理实验结果与分析

为了消除环境光及人为因素对采集光谱的影响,本研究利用SNV、MSC、FD和SG这4种算法分别对原始光谱进行预处理。4种预处理后的贻贝光谱曲线如图4所示。

a-SNV预处理后的光谱;b-SG预处理后的光谱;c-FD预处理后的光谱;d-MSC预处理后的光谱
图4 由4种预处理方法预处理后的光谱
Fig.4 Preprocessed spectra by four preprocessing methods

为了检验4种光谱预处理方法的效果,将贻贝未污染样本120个和DSP污染样本120个构成的数据集按照7∶3划分为训练集和测试集,将4种预处理后的光谱输入分类器SVM模型[18]、最近邻模型(K-nearest neighbors,KNN)[19]和随机森林模型(random forest,RF)[20],这3种分类器参数均采用默认值,实验结果如表1~表3所示,其中,Original表示原始光谱。

由表1可知,SVM模型对4种预处理后的光谱和原始光谱的各项评价指标数值差距不大。对于FD预处理后的光谱,SVM模型取得了最高Accuracy、Recall和F1_score的值,Precision为0.701 6仅低于具有最高Precision值的MSC预处理方法0.07。对于MSC预处理方法,SVM模型的Accuracy和F1_score分别为0.756 9和0.751 4,仅比最高值低0.01 和0.04左右,但是Error是所有预处理方法中最小的。其他2种预处理方法及原始光谱的SVM模型指标值各有高低。由表2和表3可见,KNN和RF模型对FD预处理后的光谱有最高Accuracy、Precision、Recall、F1_score的值,而且这4个指标值都在0.9以上,比较接近1,远高于其他3种预处理方法及原始光谱对应的指标值;并且KNN和RF模型对FD预处理后的光谱有最小的Error值,分别为0.062 8和0.023 3,远小于其他方法中的Error值。

表1 不同预处理方法的SVM模型评价指标
Table 1 SVM model evaluation indexes for different preprocessing methods

组别RecallPrecisionAccuracyF1_scoreError原始光谱0.628 30.617 00.618 90.619 50.390 6SNV0.909 40.575 50.617 20.703 50.675 0SG0.647 80.624 30.628 10.631 70.391 7FD0.913 30.701 60.760 80.792 80.391 7MSC0.735 00.774 00.756 90.751 40.221 1

表2 不同预处理方法的KNN模型评价指标
Table 2 KNN model evaluation indexes different preprocessing methods

组别RecallPrecisionAccuracyF1_scoreError原始光谱0.729 40.582 30.602 80.646 20.523 9SNV0.720 00.667 00.678 60.691 10.362 8SG0.723 30.592 60.613 60.650 20.496 1FD0.964 40.940 20.950 80.951 70.062 8MSC0.723 30.662 00.675 00.689 60.373 3

表3 不同预处理方法的RF模型评价指标
Table 3 RF model evaluation indexes different preprocessing methods

组别RecallPrecisionAccuracyF1_scoreError原始光谱0.642 80.662 70.655 00.648 90.332 8SNV0.688 90.801 00.756 90.736 90.175 0SG0.648 30.658 00.652 80.650 30.342 8FD0.948 30.976 30.962 50.961 60.023 3MSC0.686 70.798 50.754 40.735 70.177 8

综上,应用FD预处理后的光谱建模,SVM、KNN和RF 3种检测模型的各项评价指标总体上都好于应用其他3种预处理方法预处理后的光谱及原始光谱建模。因此,本文选用FD作为光谱预处理方法。

2.3 MLP检测模型参数分析与确定

MLP分类器具有114个输入,1个隐含层(神经元数量通过试验确定),2个类别输出的3层全连接结构。权重和偏置采用lbfgs方法进行优化获取,激活函数为relu,最大迭代次数为4 000。隐含层神经元数量对分类准确率的影响如图5所示。基于FD预处理的MLP分类模型(FD-MLP)随着隐含层神经元数量变化准确率波动较小,原始光谱的MLP分类模型(Original-MLP)随着隐含层神经元数量变化准确率波动较大。FD-MLP模型的分类准确率远高于Original-MLP模型。两个模型都是在神经元数量为110个时达到各自的最高准确率,FD-MLP模型分类准确率最高为99.94%,Original-MLP模型准确率最高为97.03%。因此,本研究MLP分类模型的隐含层神经元数量取为110个。

图5 Original-MLP和FD-MLP模型在隐含层不同神经元数量下的准确率
Fig.5 Accuracy of the Original-MLP and FD-MLP models under different numbers of hidden layer neurons

2.4 训练集不同比重下分类模型性能分析

FD-MLP模型在整个数据集中训练集所占不同比重情况下的DSP检测效果如图6所示。

图6 Original-MLP和FD-MLP模型在不同训练集占比下的准确率
Fig.6 Accuracy of the Original-MLP and FD-MLP models under different ratios of a training set

图6显示了FD-MLP和Original-MLP分类模型的准确率随不同的训练集占比的变化情况,其中数据集由两类共240个样本构成。当训练集所占比重从9/10变化到1/10时,FD-MLP模型准确率变化不大。即使当训练集所占比重减小为1/10时,准确率仍然达到98.13%。随着训练集所占比重减小,Original-MLP模型准确率一直在下降,当训练集所占比重小于6/10时,准确率下降幅度显著加大。在训练集所占比重为9/10时,Original-MLP模型取得最高准确率,数值为97.92%,其低于FD-MLP分类模型的最低准确率98.13%。

综上,在训练集不同比重下,FD-MLP模型均能取得令人满意的检测效果,即使训练样本数量仅占数据集的十分之一。FD-MLP模型分类准确率受训练集所占比重变化影响较小,具有较强的泛化能力,分类效果优于Original-MLP模型。

2.5 小样本训练集情况下分类模型性能分析

实际检测的数据集中可能存在待检测的贻贝样本数量很少的情况,这是一个小样本问题。小样本情况下,机器学习模型难以取得良好训练效果。本节研究FD-MLP模型在小样本数据集中的DSP检测效果。

图7显示了FD-MLP和Original-MLP分类模型准确率随样本数量的变化情况,其中训练集和测试集按照7∶3对样本进行划分。当数据集样本数量从240个减少到40个时,FD-MLP和Original-MLP两种分类模型随着样本数量的减少,分类准确率均逐渐下降,但FD-MLP分类模型准确率变化很小,准确率明显高于Original-MLP分类模型。当数据集样本数从40减少到20时,FD-MLP分类模型的准确率下降幅度增大,准确率从98.67%下降到91.67%,下降幅度达到了7%。但是,即便数据集只有20个样本,FD-MLP分类模型的准确率也在91%以上,检测性能仍然较好。Original-MLP分类模型准确率较低,即使在数据集样本数为240时,准确率也只有95.69%,远低于FD-MLP分类模型在数据集样本数为40时的准确率(98.67%)。

图7 Original-MLP和FD-MLP模型在不同样本数量下的准确率
Fig.7 Accuracy of the Original-MLP and FD-MLP models under different numbers of samples

综上,在数据集样本数量变化的情况下,FD-MLP模型的分类效果优于Original-MLP模型。FD-MLP模型分类准确率受数据集规模大小影响较小,对小样本数据集的训练和预测效果依然很好,鲁棒性较强。

2.6 训练样本类别不均衡情况下分类模型性能分析

实际应用中数据集里受DSP污染的贻贝可能少于未污染的贻贝,这是一个类别不均衡的数据集。类别不均衡问题在一定程度上影响检测的性能。FD-MLP模型在类别不均衡训练集中DSP检测效果如图8所示。

图8显示了FD-MLP和Original-MLP分类模型的准确率随训练集中未污染样本和DSP污染样本的数量比例变化的情况。其中,测试集由20个DSP污染样本和20个未污染样本构成,训练数据集中未污染样本100个保持不变,DSP污染样本从95个减少到5个,每次减少10个。FD-MLP和Original-MLP两种分类模型的准确率随着DSP污染样本数量的减少而降低,下降幅度起初很小,然后逐渐增大。当DSP污染样本的数量从25个减少到5个时,准确率下降幅度最大。然而,当DSP污染样本为25个时,FD-MLP模型的准确率仍然在91%以上,分类性能令人满意,而Original-MLP模型准确率一直较低,即使在DSP污染样本为95个时,准确率也只有89.50%。

图8 Original-MLP和FD-MLP模型在数据集类别不均衡比例下的准确率
Fig.8 Accuracy of the Original-MLP and FD-MLP models in the class unbalance proportions of the dataset

3 结论

为了更好地检测DSP污染的贻贝,本研究提出以NIS技术作为快速检测方法,将用利玛原甲藻培养的贻贝作为DSP污染样本(DSP含量为35 μg/kg),将正常贻贝作为对照组(阴性)样本。首先,用MSC、SNV、FD和SG 4种不同的预处理方法进行光谱预处理,确定FD为最佳光谱预处理方法。其次,建立了一种基于深度学习的MLP分类器,用于DSP污染贻贝的检测。最后,在训练集所占数据集不同比重、小样本数据集和类别不均衡样本数据集情况下,分析了FD-MLP分类器的检测性能。实验结果表明,与Original-MLP模型比较,FD-MLP获得了更好的分类效果。FD-MLP模型对训练集所占的不同比重、数据集样本大小和类别不均衡程度等都不敏感。利用NIS直接检测贻贝中DSP毒素是可行的,检测准确率达到99.94%,检出限为35 μg/kg。本研究可为构建贝类近红外光谱快速无损检测系统提供技术支持,并可应用于贝类产品的安全和质量监管,能够满足海产品品质检测要求,确保食品安全,保障公众健康。

但是,NIS技术检测灵敏度较低,对于低浓度毒素的检测能力较弱。在后续的相关研究中,我们将研究用不同浓度利玛原甲藻喂养、用不同时间富集毒素等情况下,NIS技术有效鉴别DSP污染贻贝的能力。改善和优化DSP检测模型,进一步降低检出限,实现DSP更灵敏、更稳定地检测。

参考文献

[1] 耿倩倩, 郭萌萌, 李风铃, 等.BDE-47在紫贻贝中的分布、蓄积、消除和毒性效应[J].中国环境科学, 2022, 42(3):1 385-1 393.

GENG Q Q, GUO M M, LI F L, et al.Tissue distribution, accumulation, elimination characteristics and toxicity of 2,2’,4,4’-tetrabromodiphenyl ether in blue mussel[J].China Environmental Science, 2022, 42(3):1 385-1 393.

[2] 王运选, 李春爱, 黎承, 等.贝类食品中腹泻性贝类毒素检测能力验证结果分析[J].现代食品, 2022, 28(1):182-187.

WANG Y X, LI C A, LI C, et al.Analysis of verification results of detection ability of diarrheal shellfish toxins in shellfish food[J].Modern Food, 2022, 28(1):182-187.

[3] 彭志兰, 罗海军, 王维洁, 等.舟山海域麻痹性贝类毒素污染情况及其2种检测方法比较[J].食品安全质量检测学报, 2017, 8(4):1 436-1 440.

PENG Z L, LUO H J, WANG W J, et al.Investigation of paralytic shellfish poison in waters of Zhoushan and comparison of 2 detection methods[J].Journal of Food Safety and Quality, 2017, 8(4):1 436-1 440.

[4] 张晓萌, 秦鸣蔚, 赵新月, 等.鹅膏毒肽类毒素检测方法的研究进展[J].食品与发酵工业, 2020, 46(19):295-300.

ZHANG X M, QIN M W, ZHAO X Y, et al.Research progress on detection methods of amanita cyclopeptide toxins[J].Food and Fermentation Industries, 2020,46(19):295-300.

[5] 姚建华, 谭志军, 周德庆.液相色谱-串联质谱检测贝类组织中5种脂溶性贝毒素[J].分析化学, 2010, 38(12):1 714-1 720.

YAO J H, TAN Z J, ZHOU D Q.Determination of five lipophilic marine toxins in shellfish by liquid chromatography with tandem mass spectrometry[J].Chinese Journal of Analytical Chemistry, 2010, 38(12):1 714-1 720.

[6] 田华. 全球食品领域近红外光谱应用研究文献计量分析[J].食品工业科技, 2021, 42(18):41-47.

TIAN H.Bibliometric analysis of near-infrared spectroscopy in global food areas[J].Science and Technology of Food Industry, 2021, 42(18):41-47.

[7] 李凯, 李雪莹, 栾丽丽, 等.近红外光谱和多分类器融合的葡萄酒品种判别研究[J].光谱学与光谱分析, 2016, 36(11):3 547-3 551.

LI K, LI X Y, LUAN L L, et al.Determination of wine varieties with NIR and fusion of multiple classifiers[J].Spectroscopy and Spectral Analysis, 2016, 36(11):3 547-3 551.

[8] 夏吉安, 杨余旺, 曹宏鑫, 等.云计算的蚕豆虫害可见-近红外光谱分类[J].光谱学与光谱分析, 2018, 38(3):756-760.

XIA J A, YANG Y W, CAO H X, et al.Classification of broad bear pest of visible-near infrared spectroscopy based on cloud computing[J].Spectroscopy and Spectral Analysis, 2018, 38(3):756-760.

[9] 王劭晟, 田绪红, 邱少健, 等.基于近红外光谱结合机器学习的鳕鱼品种二分类方法研究[J].食品安全质量检测学报, 2021, 12(22):8 651-8 659.

WANG S S, TIAN X H, QIU S J, et al.Research on cod species binary classification method based on near infrared spectroscopy and machine learning[J].Journal of Food Safety and Quality, 2021, 12(22):8 651-8 659.

[10] LIU Y, XU L L, WANG R T, et al.Study on the detection of heavy metal lead (Pb) in mussels based on near-infrared spectroscopy technology and a REELM classifier.Microchemical Journal, 2022.DOI:10.1016/j.microc.2022.107394.

[11] 孟庆龙, 冯树南, 尚静, 等.基于可见/近红外光谱预测枇杷糖度及模型优化[J].食品与发酵工业, 2022,48(12):249-254.

MENG Q L, FENG S N, SHANG J, et al.The establishment and optimization of the model for predicting the sugar content of loquat by Vis/NIR spectroscopy and its optimization[J].Food and Fermentation Industries, 2022,48(12):249-254.

[12] 张立欣, 杨翠芳, 陈杰, 等.基于变量优选和近红外光谱技术的红富士苹果产地溯源[J].食品与发酵工业, 2022,48(20):36-43.

ZHANG L X, YANG C F, CHEN J, et al.Tracing the origin of Red Fuji apple based on variable optimization and near-infrared spectroscopy[J].Food and Fermentation Industries, 2022,48(20):36-43.

[13] 袁旭林. 基于高光谱成像技术的苹果糖度无损检测系统研究[D].济南:山东大学, 2021.

YUAN X L.Research on nondestructive detection system of apple sugar content based on hyperspectral imaging technology[D].Jinan:Shandong University, 2021.

[14] 伍臣鹏. 基于高光谱成像技术的猕猴桃品质无损检测方法研究[D].南昌:江西农业大学, 2020.

WU C P.Research on nondestructive detection quality of kiwifruit based on hyperspectral imaging technology[D].Nanchang:Jiangxi Agricultural University, 2020.

[15] MURLIDHAR B R, NGUYEN H, ROSTAMI J, et al.Prediction of flyrock distance induced by mine blasting using a novel Harris Hawks optimization-based multi-layer perceptron neural network[J].Journal of Rock Mechanics and Geotechnical Engineering, 2021, 13(6):1 413-1 427.

[16] 花蕊. 深度学习技术在阿尔茨海默症分类预测中的应用[D].南京:东南大学, 2019.

HUA R.Application of deep learning technology in classification and prediction of Alzheimer′s disease[D].Nanjing:Southeast University, 2019.

[17] 徐玲玲, 迟冬祥.面向不平衡数据集的机器学习分类策略[J].计算机工程与应用, 2020, 56(24):12-27.

XU L L, CHI D X.Machine learning classification strategy for imbalanced data sets[J].Computer Engineering and Applications, 2020, 56(24):12-27.

[18] BOUDIBI S, SAKAA B, BENGUEGA Z, et al.Spatial prediction and modeling of soil salinity using simple cokriging, artificial neural networks, and support vector machines in El Outaya plain, Biskra, southeastern Algeria[J].Acta Geochimica, 2021, 40(3):390-408.

[19] COVER T.Estimation by the nearest-neighbor rule[J].IEEE Transactions on Information Theory, 1968, 14(1):50-55.

[20] BREIMAN L.Random forests[J].Machine Learning, 2001, 45(1):5-32.

Rapid non-destructive detection of diarrheal shellfish poison in mussels based on near-infrared spectroscopy and multi-layer perceptron

LIU Zhongyan1*,LIU Yao2,QIAO Fu1,HAO Bolin1,JIANG Wei1,XIONG Jianfang1

1(School of Computer Science and Intelligence Education, Lingnan Normal University, Zhanjiang 524048, China)2(School of Electronic and Electrical Engineering, Lingnan Normal University, Zhanjiang 524048, China)

ABSTRACT In this study, diarrheal shellfish poison (DSP)-contaminated and non-contaminated mussels were used as the research objects, the near-infrared spectrometer was used to collect the spectral data of 120 mussel samples of each class in the wavelength range of 950-1 700 nm. The best preprocessing method for near-infrared spectroscopy (NIS) of the mussels was determined to eliminate the influence of ambient light. Multi-layer perceptron (MLP) model was constructed as a classifier to detect DSP-contaminated mussels. The dataset composed of 240 samples was randomly divided into training and test datasets according to the ratio of 7∶3, the average accuracy of the model by running 50 times was the final evaluation index, and the accuracy of detecting DSP-contaminated mussels reached 99.94%. The detection limit of the MLP model based on NIS for DSP was 35 μg/kg. The detection performance of the MLP model was analyzed for the problems of different ratios of training sets, small sample datasets, and unbalanced classes in practical application. The experimental results showed that the MLP model based on first derivative spectral preprocessing was insensitive to these three problems, which indicated that the classifier had strong generalization ability and robustness. Therefore, the combination of NIS and the MLP classifier provided a feasible new method for the non-destructive identification of shellfish toxicity.

Key words near-infrared spectroscopy; diarrheal shellfish poison; mussels; multi-layer perceptron; spectral preprocessing

DOI:10.13995/j.cnki.11-1802/ts.032253

引用格式:刘忠艳,刘瑶,乔付,等.基于近红外光谱和多层感知机的贻贝中腹泻性贝毒快速无损检测[J].食品与发酵工业,2023,49(8):258-264;271.LIU Zhongyan,LIU Yao,QIAO Fu, et al.Rapid non-destructive detection of diarrheal shellfish poison in mussels based on near-infrared spectroscopy and multi-layer perceptron[J].Food and Fermentation Industries,2023,49(8):258-264;271.

第一作者:博士,副教授(通信作者,E-mail:912968544@qq.com)

基金项目:广东省自然科学基金项目(2020A1515011368;2021A1515012440);国家自然科学基金青年科学基金项目(62005109);岭南师范学院红树林研究院课题(PYXM04);岭南师范学院人才专项(ZL2054);岭南师范学院自然科学研究项目(ZL1902;ZL2007);广东省哲学社会科学规划学科共建项目(GD22XJY32)

收稿日期:2022-05-07,改回日期:2022-06-10