基于正交线性判别分析和电子鼻技术的食醋分类

武斌1*,王大智2,嵇港3,黄大鹏3,武小红3,陈开兵1,贾红雯1

1(滁州职业技术学院 信息工程系,安徽 滁州,239000)2(江苏大学 京江学院, 江苏 镇江, 212013)3(江苏大学 电气信息工程学院, 江苏 镇江, 212013)

摘 要 为了实现食醋品种的准确分类,探索应用电子鼻技术和两种特征提取方法进行食醋的检测和分类。先用自制电子鼻系统检测5个品种食醋的电子鼻信号,接着用标准正态变量变换进行数据预处理,然后分别用主成分分析(principal component analysis, PCA)+线性判别分析(linear discriminant analysis, LDA)和正交线性判别分析(orthogonal linear discriminant analysis, OLDA)对食醋电子鼻信号进行降维与特征提取,最后用最近邻分类器进行分类。实验表明,PCA+LDA的分类准确率最高达到90.32%,而OLDA的分类准确率最高达到91.52%。另外,PCA+LDA需要2次特征提取而OLDA只要1次。因此,OLDA在特征提取方面要优于PCA+LDA,基于OLDA和电子鼻技术的食醋品种分类方法是切实可行的。

关键词 食醋;电子鼻;标准正态变量变换;正交线性判别分析;线性判别分析

DOI:10.13995/j.cnki.11-1802/ts.022212

引用格式:武斌,王大智,嵇港,等.基于正交线性判别分析和电子鼻技术的食醋分类[J].食品与发酵工业,2020,46(6):263-268.WU Bin, WANG Dazhi, JI Gang, et al. Classification of vinegars based on orthogonal linear discriminant analysis and electronic nose technology[J].Food and Fermentation Industries,2020,46(6):263-268.

第一作者:硕士,副教授(本文通讯作者,E-mail:wubind2003@163.com)

基金项目:安徽省质量工程项目—大学生物联网创客实验室项目(2016ckjh137);安徽省教育厅高校自然科学研究重大项目(KJ2018ZD064);江苏大学大学生创新创业训练计划项目(201810299274W);安徽省教育厅高校自然科学研究重点项目(KJ2019A1129);滁州职业技术学院校级科研重点项目(YJZ-2018-19)

收稿日期:2019-09-09,改回日期:2019-10-26

Classification of vinegars based on orthogonal linear discriminant analysis and electronic nose technology

WU Bin1*, WANG Dazhi2, JI Gang3, HUANG Dapeng3, WU Xiaohong3, CHEN Kaibing1, JIA Hongwen1

1(Department of Information Engineering, Chuzhou Vocational Technology College, Chuzhou 239000, China) 2(Jingjiang College, Jiangsu University, Zhenjiang 212013, China) 3(School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China)

ABSTRACT In order to classify vinegar varieties correctly, the electronic nose (E-nose) technology was explored in the application of two feature extraction methods to detect and classify vinegars. After the detection of E-nose signals of 5 brands of vinegars using our designed E-nose system, the signals were pretreated with the standard normal variate transformation. Then principal component analysis (PCA) plus linear discriminant analysis (LDA) and the orthogonal linear discriminant analysis (OLDA) were introduced to reduce the dimension and extract the features of the E-nose signals of vinegars. At last, nearest neighbor classifier was used to classify the data. The results showed that the highest classification accuracy of PCA+LDA was 90.32%, while that of OLDA was 91.52%. On the other hand, PCA+LDA required twice feature extractions, while OLDA needed only once. Therefore, OLDA is superior to PCA+LDA in feature extraction, and it is a feasible method to use OLDA coupled with E-nose technology for the classification of vinegar varieties.

Key words vinegar; electronic nose; standard normal variate transformation; orthogonal linear discriminant analysis; linear discriminant analysis

食醋是人们日常饮食中常用的酸性调味品。由于食醋酿造的地理位置、气候和水源环境、原材料以及酿造工艺流程的各有千秋,因此酿造出来的食醋风味不同[1]。市场上有多种品牌的食用醋,醋的质量良莠不齐,还存在以次充好的现象,而普通消费者凭主观判断选择食醋难以确定食醋品质。

电子鼻技术包含了传感器,模式识别,信号处理等多个学科的技术。随着物联网和人工智能的发展,电子鼻技术将成为新的研究热点[2]。电子鼻利用传感器阵列对气体反应灵敏来检测混合气体,被广泛用来分析各种有机挥发性有机化合物的气体成分[3-5]。由于电子鼻具有无损检测,速度快,智能化,灵敏度高等优点,在食品及食品安全行业领域得到应用[6]。目前,电子鼻技术在有毒气体检测[7-9]、中药检测[10-13]和食品安全检测[14-18]上都有应用。特别在食品检测上,已经成为研究热点。例如电子鼻已经成功应用于对碳酸饮料[14],鳕鱼[15],猪肉冷冻储藏期[16-17],不同产地名优红茶和绿茶[18]等的检测。WU等使用自制电子鼻设备,提出模糊鉴别主成分方法,快速准确判别不同品牌的白酒[19]。成剑峰等使用PEN3电子鼻判断食醋是否变质,使用主成分分析(principal component analysis,PCA)和线性判别分析(linear discriminant analysis,LDA)进行对比分析,获得很好的效果[20]。黎新荣使用PEN3电子鼻对不同贮藏时间沃柑的气味进行判别,分别采用PCA和LDA对气味进行特征值提取,最后比较发现使用LDA具有更好的准确率[21]。食醋的香气成分多达65种,其中酸类,酯类和酮类共占79.15%,乙酸乙酯,苯乙醇,苯乙醛,3-羟基2-丁酮,乙醛-3-甲基1-丁醋,2-甲基丁酸,2, 3-丁二酮,二氢-5-戊基-2(3H)呋喃酮共8种特征香气[22]是区分食醋的关键物质。不同品种的食醋其8种特征香气存在差异,这些差异有利于食醋品种的分类。

综上所述,电子鼻技术可实现对食醋的分类。目前,电子鼻技术的应用存在两个问题,第一,大部分采用的电子鼻都不是自制的,使用的德国的PEN3比较多,价格昂贵,不利于市场推广使用,操作起来也很复杂;第二,分类方法仍然有待进一步研究和优化。本研究设计一种用于食醋检测的电子鼻系统,用主成分分析(PCA)+线性判别分析(LDA)和正交线性判别分析(orthogonal linear discriminant analysis,OLDA)[23]来处理电子鼻信号而实现食醋品种的快速无损检测。

1 材料与方法

1.1 材料与仪器

实验所用食醋品种共有5种,分别是镇江香醋、恒顺香醋、镇江陈醋、山西陈醋和保宁醋。5种食醋的详细信息见表1。

表1 食醋的详细信息

Table 1 The details of vinegar samples

品名产地主要成分镇江香醋镇江水、糯米、麦麸、大曲、大米、食用盐、白砂糖恒顺香醋镇江水、糯米、麦麸、食用盐、白砂糖镇江陈醋镇江水、糯米、麸皮、大曲、大米、食用盐、白砂糖山西陈醋山西水、高粱、麸皮、大麦、豌豆、苯甲酸钠、食用盐保宁醋 四川水、糯米、麸皮、大米、玉米、小麦

实验所用的食醋电子鼻系统主要包括气体传感器阵列、数据采集卡、PC机、气室、电源模块和样品瓶等组成。如图1所示。

图1 食醋电子鼻系统

Fig.1 E-nose system for vinegar

采用TGS813、TGS822、TGS822TF、TGS2620、TGS2610、TGS2611、TGS2602、TGS2600、MQ135、MQ3十个半导体气体传感器。传感器的基本信息见表2。本文的自制电子鼻针对食醋的特征香气选取电子鼻传感器,用于食醋品种分类。电子鼻传感器对所测样品的气味类别和气味浓度敏感,工作环境温度在20 ℃和湿度在35%~70%。

表2 传感器的基本信息

Table 2 The details of sensors

编号型号敏感气体种类1TGS2600污染空气(氢气、酒精等)2TGS2602污染空气(VOC、氨气、硫化氢等)3TGS2610异丁烷4TGS2611甲烷、天然气5TGS2620乙醇、有机溶剂6TGS813甲烷、丙烷、丁烷7TGS822酒精、有机溶剂8TGS822TF人工煤气中的氢气9MQ135氨气、甲苯、氢气10MQ3乙醇

1.2 实验方法

1.2.1 环境温度与湿度

实验采用了静态测试法,在室温约20 ℃和湿度40%左右的环境下进行采样。

1.2.2 电子鼻系统

首先打开样品瓶盖,将电子鼻各部分器件连接起来,电源模块接传感器阵列,传感器阵列信号输出端接数据采集卡的输入端,数据采集卡的输出端通过USB线连接到PC机。将电子鼻通电10 min进行预热。

1.2.3 食醋样本

量取10 mL样品放入样品瓶中,将样品瓶的气管与气室连接,伸入气室的气管位置正好位于传感器阵列中心,目的是对各个传感器响应时间保持大体一致,然后连接好数据采集卡与传感器阵列和PC,并计时。让传感器静置60 min,待气体挥发完全[23]

1.2.4 电子鼻信号采集

编写控制PC端Labview程序,设置好数据采集卡参数,分别在60 min采集数据1次,然后每隔5 min采集1次,总共采集3次,最后计算3次结果的平均值作为最终结果,将结果通过USB传输并保存到PC机。采集1次完成后,打开样品瓶的瓶盖,开启出气的气泵,清除整个系统的气味10 min,使传感器恢复初始状态[23]。将采集的数据结果按食醋品种分类保存,每个品种食醋的样本数为51,每个样本10 mL,共255个样本。

1.3 正交线性判别分析(OLDA)

与线性判别分析相比,正交线性判别分析(OLDA)[24]无需事先运行PCA对数据进行降维。OLDA的判别投影向量之间的正交关系以消除投影中的冗余信息,OLDA要计算的新投影向量与所有先前获得的投影向量正交,解决了LDA小样本问题。

假设有一组样本的集合IR,令训练样本矩阵A={A1,A2,…,Ak},其中Ai∈IR。类内方差矩阵为Sw,类间方差矩阵为Sb和总体方差矩阵别为St定义公式(1)、(2)、(3)、(4)如下:

(1)

(2)

(3)

(4)

式中:e(i)=(1,1,...,1)TRni, e=(1,1,...,1)TRnc(k)是第k类样本均值,c为总体样本均值。

计算Ht的奇异值分解,即计算B的奇异值分解,即B=PΣQTq=rank(B);令Xq进行QR分解,Xq=QR,则线性变换矩阵G=Xq。对于第k 个测试样本xk,经过OLDA变换后可得到:yk=GTxk

2 结果与分析

实验获得5种食醋总样本共255个数据,每种食醋有51个样本数据,将51个样本数据里的20个数据作为训练样本,其余的31个数据作为测试样本。也就是总样本255个数据分成100个训练样本数据集和155个测试样本数据集。所有的样本都是1×10的向量,则100个训练样本数据可得到100×10的数据矩阵;同理155个测试样本数据可得到155×10的数据矩阵。用100个训练样本数据进行模式训练学习,建立食醋的预测分类模型,再用155个测试样本数据来检验该模型的分类准确率。

2.1 五种食醋的预处理

对采集的255个食醋样本数据进行标准正态变量变换处理。标准正态变量变换也称为标准归一化,它是一种预处理方法,能降低电子鼻采集数据中产生的噪声影响,有效地优化了原始数据,减少冗余信息。标准正态变量变换就是将数据按照对于一组实验获得的原始样本,求出它的标准差、方差和均值,通过标准归一化变换得到一个新变量。标准正态变量变换能够按照比例把样本数据进行平移和缩放,使数据落入到一个特定的小区间中。

2.2 五种食醋的PCA+LDA分析

PCA是一种基于Karhunen-Loeve变换思想的方法[25],它主要是用于简化变量结构并提取训练数据样本空间的特征,把样本空间从高维降到低维。使用PCA得到的样本数据不仅能降低各特征信息相关性和减少冗余信息,还能使得训练算法的运行效率得到提高。线性判别分析[26]计算得到一个最优的线性变换,通过这个变换,高维空间中的原始数据被转换为一个更低维的特征空间,在减小维数的同时保留尽可能多的分类信息。

首先使用PCA算法对预处理后的数据进行第1次降维,其中降维是通过针对数据矩阵求取特征向量和特征值然后选取合适的维数。定义其特征向量数为6,得到其特征值见表3。其对应的特征向量为表4所示。用PCA降维后,根据前2个特征向量投影形成的测试样本的两维散点图如图2所示。图2中PC1和PC2为PCA的前2个特征向量。由图2可知,镇江香醋和山西陈醋重叠在一起难以区分开,而保宁醋和其他4种醋间隔远,易于和其他4种醋区分开。

表3 用PCA计算得到的特征值

Table 3 Eigenvalues by PCA

维数123456特征值39.694 628.722 110.544 44.041 30.445 40.245 4

表4 用PCA计算得到的特征向量

Table 4 Eigenvectors by PCA

维数123…61-0.193 7-0.792 90.031 1…0.056 62-0.244 3-0.135 5-0.308 1…0.418 63-0.038 20.163 4-0.638 4…-0.243 44-0.175 70.018 90.227 4…-0.225 950.183 30.144 4-0.397 0…0.155 16-0.345 60.542 70.265 4…0.366 07-0.163 50.027 40.248 5…-0.268 38-0.168 90.031 50.255 8…-0.301 290.622 3-0.066 20.298 9…0.462 7100.524 40.066 40.016 4…-0.420 2

图2 主成分分析处理后的测试样本两维散点图

Fig.2 The two-dimensional scatter plot of test samples by PCA

在通过PCA降维处理后得到了255×6的样本集,其中训练集数据为100×6,余下所有数据均为测试集数据。通过线性判别的方法提取鉴别特征向量。经过LDA算法的计算后,最终将PCA算法降维得到的155×6的测试数据样本转换成155×4的新的测试集。完成了从PCA特征空间向LDA特征空间的空间转换,达到了降维和提取分类信息的目的。

经过LDA计算后得到的测试样本的两维散点图见图3。由图3可知,食醋电子鼻信号经过PCA+LDA后完成了数据维数从10维到4维的减少,从测试样本的两维散点图可以看出,镇江香醋和山西陈醋这2类醋数据点很靠近给分类造成一定难度,容易造成误分类现象。恒顺香醋、镇江陈醋和保宁醋这3种醋彼此之间以及与其他2种醋的间隔较大,比较容易区分开。

经过OLDA处理后的测试样本的两维散点图见图4。图4和图3情况类似,镇江香醋和山西陈醋两种醋的数据点很靠近,不利于分类器进行分类。另外,在本文中OLDA处理后的测试样本是4维数据,无法可视化看到4维数据分布情况,所以也就无法进一步比较PCA+LDA和OLDA处理后测试样本的4维数据分布。

图3 线性判别分析处理后的测试样本两维散点图

Fig.3 The two-dimensional scatter plot of test sample by LDA

图4 正交线性判别分析处理后的测试样本两维散点图

Fig. 4 The two-dimensional scatter plot of test sample by OLDA

PCA将数据降为不同特征维数时再用LDA计算降为4维后,用最近邻分类器得到的食醋识别准确率见图5。由图5可知,当特征维数为9时,PCA+LDA分类准确率最高。在其他特征维数时,分类准确率保持在85%以上。

图5 特征维数与识别准确率的关系

Fig.5 Relationship between feature dimensionalities and recognition accuracies

2.3 食醋的正交线性判别分析

在PCA以后再用LDA,这种方法是在降维的另一阶段之后执行LDA。由于类内散布矩阵Sw的秩以m-c为上限,所以PCA的最大维数可以减少到m-c,其中m是训练集的大小,并且c表示类的大小。然而,PCA + LDA存在一个严重的问题,那就是分类信息可能会丢失。

OLDA强制判别投影向量之间的正交关系以消除投影中的冗余信息,从而在识别率方面实现比传统判别投影向量更强的判别投影向量。OLDA算法在处理数据时无需先用PCA对数据进行降维,其计算的新投影向量与所有先前获得的投影向量正交。针对PCA+LDA方法的不足,用正交线性判别分析对食醋电子鼻信号进行处理,再用最近邻分类器进行分类。表5列出了样本在不同划分情况下的分类准确率。

由表5可知,当每类食醋电子鼻信号的训练样本个数为20,测试样本个数为31个时,主成分分析与线性判别分析的分类准确率达到最高(90.32%)。对于不同的训练样本与测试样本划分情况,基于正交线性判别分析的分类准确率始终保持在90%以上,高于PCA+LDA方法的分类准确率。

表5 样本不同划分情况下的分类准确率

Table 5 Accuracy of classification in different cases of samples

每类训练样本个数每类测试样本个数PCA+LDA准确率/%OLDA准确率/%183389.0991.52193288.7591.25203190.3290.97213090.0090.67222989.6690.34232888.5791.43

由图6可知,当每类的食醋电子鼻信号的训练样本个数变化时,基于正交线性判别分析的分类准确率要明显高于基于PCA+LDA方法的分类准确率。

当总样本数较少时,例如总样本数是75个数据样本(即每种15个样本数),当训练样本每种6个样本数,共30个训练样本,测试样本每种9个样本数,共45个测试样本。用PCA将数据降维到6维,再用LDA降维到4维,最后用最近邻分类器进行分类,分类准确率为82.22%。用OLDA将数据降维到4维,用最近邻分类器进行分类,可得分类准确率为82.22%。

图6 训练样本个数变化时两种算法分类准确率

Fig.6 Classification accuracies of two algorithms when the number of training samples was changed

3 结论

采用主成分分析与线性判别分析(PCA+LDA)方法对食醋电子鼻信号进行处理会存在分类信息丢失现象。为了克服这一缺陷,引入正交线性判别分析方法对食醋电子鼻信号进行处理,分类准确率得到了提高。对训练样本和测试样本进行了不同划分,当训练样本为20,测试样本为31时,PCA+LDA方法识别准确率达到最高90.32%。而且,在训练样本和测试样本划分变化时,使用正交线性判别分析方法的食醋电子鼻信号分类准确率明显高于使用PCA+LDA方法的分类准确率,即基于正交线性判别分析的电子鼻食醋信号分类是切实可行的一种方法。当总样本数较少,训练样本较少时,分类准确率不高,此问题有待以后的进一步研究和探索。

参考文献

[1] 魏泉增,汤雅,李伟民.液相色谱-串联质谱测定食醋中生物胺含量[J].中国酿造,2019,38(4):170-173.

[2] 单伟国.基于专家系统的挥发性气体检测的电子鼻研究[D].合肥:中国科学技术大学,2010.

[3] HASSAN M,BERMAK A.Robust bayesian inference for gas identification in electronic nose applications by using random matrix theory[J]. IEEE Sensors Journal, 2016, 16(7):2 036-2 045.

[4] ZHANG Lei,TIAN Fengchun,NIE Hong,et al.Classification of multiple indoor air contaminants by an electronic nose and a hybrid support vector machine[J].Sensors and Actuators B: Chemical, 2012,174:114-125.

[5] ZHANG Lei,LIU Yan,DENG Pingling.Odor recognition in multiple E-nose systems with cross-domain discriminative subspace learning[J].IEEE Transactions on Instrumentation and Measurement,2017,66(7):1-14.

[6] 陈芳,黄玉坤,苑阳阳,等.基于电子鼻无损鉴别掺假蜂蜜[J].西华大学学报(自然科学版),2018,37(5):56-60.

[7] 周博,嵇云,蔡国华,等.电子鼻检测农作物病虫害的研究进展[J].江苏农业科学,2019,47(15):143-148.

[8] 孟洁,商细彬,荆博宇,等.污水处理厂还原硫化物和臭气浓度的电子鼻监测技术探究[J].环境监测管理与技术,2019,31(3):45-48.

[9] 方向生,施汉昌,何苗,等.电子鼻在环境监测中的应用与进展[J].环境科学与技术,2011,34(10):112-117;122.

[10] 冷晓红,陈海燕,郭鸿雁.电子鼻技术在中药领域的应用[J].西北药学杂志,2019,34(3):426-428.

[11] 杨瑞琦.基于电子鼻的易霉变中药质量快速评价[D].北京:北京中医药大学,2019.

[12] 田连起,乐智勇,曹晖,等.基于电子鼻技术的中药蕲蛇饮片炮制矫味物质基础研究[J].中医学报,2019,34(4):785-789.

[13] 费程浩,戴辉,苏杭,等.电子鼻技术的研究进展及其在中药行业中的应用[J].世界中医药,2019,14(2):257-262.

[14] 张井,张维一,李燕,等.基于电子鼻分析的碳酸饮料识别判定技术研究[J].食品与发酵工业,2017,43(5):214-218.

[15] 郑舒文,陈卫华.基于电子鼻和电子舌技术的鳕鱼鲜度评定[J].中国调味品,2019,44(5):164-169.

[16] 杨潇,郭登峰,王祖文,等.基于电子鼻的猪肉冷冻储藏期的无损检测方法[J].食品与发酵工业,2018,44(3):247-252.

[17] 张四喆,贾文珅,马洁,等.一种高效的冷鲜肉新鲜度检测工具—电子鼻[J].分析试验室,2019,38(7):878-884.

[18] 马会杰,蒋宾,潘玉兰,等.电子鼻对不同产地名优绿茶和红茶香气特征的判别研究[J].食品科技,2019,44(1):336-344.

[19] WU Xiaohong,ZHU Jin,WU Bin,et al.Discrimination of Chinese liquors based on electronic nose and fuzzy discriminant principal component analysis[J].Foods,2019,8(1),38.

[20] 成剑峰,胡红娟.食醋半成品贮存期质量监测方法的探讨[J].中国酿造,2018,37(11):102-105.

[21] 黎新荣.电子鼻在沃柑贮藏时间识别中的应用[J].南方农业学报,2018,49(9):1 827-1 832.

[22] 魏永义,焦驼文,崔广,等. 食醋特征香气成分分析研究[J].中国调味品,2010,35(6):99-101.

[23] 嵇港.基于电子鼻系统的食醋分类研究[D].镇江:江苏大学,2018.

[24] YE JIEPING.Characterization of a family of algorithms for generalized discriminant analysis on undersampled problems[J]. Journal of Machine Learning Research,2005,6(1):483-502.

[25] KASBE M S,DESHMUKH S L,MUJAWAR T H,et al.An electronic nose with LabVIEW using SnO2 based gas sensors: application to test freshness of the fruits[J].International Journal of Scientific & Engineering Research,2015,6(4):1 977-1 982.

[26] 刘鹏,叶宾.基于随机矩阵理论的高维数据线性判别分析方法[J].计算机科学,2019,46(S1):423-426.