近红外光谱结合主成分分析和灰色关联分析的苦荞产地溯源

张智峰,韩小平,秦刚,宋海燕*

(山西农业大学 工学院,山西 太谷,030800)

摘 要 为实现苦荞产地溯源以及确定苦荞成分对苦荞产地溯源的影响程度,对朔州、内蒙古、云贵高原、四川大凉山、陕西5个产地的72个苦荞样本的近红外光谱数据进行了主成分分析(principal component analysis,PCA)和灰色关联分析。结果表明,PCA可以很好地实现不同产地苦荞的聚类,得到的特征波长分别为1 370、1 680、870和971 nm;将上述特征波长与苦荞的6种成分进行灰色关联分析,其灰色关联度由大到小排列为:碳水化合物>蛋白质>脂肪>钠>硒>黄酮;依据关联度大小,从官能团层面确定了碳水化合物和蛋白质是对苦荞产地溯源影响最大的两个成分。表明PCA和灰色关联分析结合近红外光谱技术可以实现苦荞产地溯源研究,为苦荞地理标志产品鉴别提供了一种快速、高效、低成本的方法。

关键词 近红外光谱;主成分分析;灰色关联分析;苦荞;产地溯源

苦荞麦是一种食药两用的小杂粮,素有五谷之王的美称,在我国各地都有广泛的栽培种植,主要集中在云南、四川、贵州、陕西、山西、内蒙古等高寒地区,其籽粒含有高营养价值和多种保健功能的蛋白质、膳食纤维、抗性淀粉、生物类黄酮、不饱和脂肪酸(如亚油酸和亚麻酸)、维生素以及丰富的钙、磷、铁、锌、铜、镁、硒等人体所必需的矿物质[1]。已有研究证实,荞麦富含 18 种氨基酸,其中8种必需氨基酸的组成比例较好[2-3]。芦丁是荞麦独有的生物类黄酮主要成分,具有较高的营养和医用价值,近年来得到了人们广泛的关注。

近红外光谱定量分析技术具有样品制备简单,分析速度快,可以同时进行多组分测定,实现无损和在线检测,被广泛应用[5-6]。马续莹等[7]应用近红外光谱漫反射技术,采用偏最小二乘法和留一全交叉验证方法对燕麦和苦荞样品中膳食纤维的含量进行预测,相关系数达到0.927 2。结果表明,采用近红外光谱漫反射方法能够对燕麦、苦荞等产品中膳食纤维含量进行快速定量或半定量分析。席志勇[8]采用近红外光谱技术结合主成分分析和神经网络分别建立荞麦蛋白质、淀粉和总黄酮含量预测模型,其中总黄酮相关度较高,能够达到荞麦总黄酮含量预测的目的。张晶等[9]采集其近红外漫反射光谱图,结合化学计量学软件对光谱进行主成分分析(principal components analysis, PCA),可明显区分甜荞粉、苦荞粉、小麦粉和燕麦粉;利用偏最小二乘(partial least squares,PLS) 模型可以半定量判别荞麦粉掺假。由此可见,近红外光谱分析技术可以实现苦荞及相关产品的定性判别和内部品质定量检测。此外,由于有机硒以半胱氨酸和硒蛋氨酸2种形式共价结合在蛋白质中[10],碳水化合物包括糖类或者淀粉,以及纤维素类型的生物分子,它们主要是带—OH的脂肪环化合物[11],一些国际学者据此为寻找对象的地域特征指标进行了积极探索,也为本文寻找特征吸收谱带和苦荞产地溯源提供了理论依据[12-13]。然而上述研究没有很深入地探讨影响其定性判别的主要品质指标。

本文对来自朔州、内蒙古、云贵高原、四川大凉山、陕西5个产地的苦荞样本进行光谱分析,结合PCA和灰色关联分析,以实现苦荞产地溯源以及确定成分对苦荞产地溯源的影响程度。

1 材料与方法

1.1 实验样品准备

从市场上购买5个不同产地的苦荞,分别来自朔州、内蒙古、云贵高原、四川大凉山、陕西,其中大凉山产地的苦荞包括2个不同品牌(安喜企业和西昌正中食品有限公司)。这6种苦荞作为待测样本,其成分参数由原产品包装给出,如表1。

表1 不同产地苦荞营养成分含量(每100 g)
Table 1 Component content of tartary buckwheat from different areas

产地蛋白质/g黄酮/g钠/mg硒/mg碳水/g脂肪/g朔州5.80.00.00.086.01.8内蒙古9.00.07.00.087.01.4云贵高原5.80.00.00.086.01.8四川品牌18.80.86.00.073.12.4四川品牌27.60.00.00.086.51.0陕西7.10.00.015.068.11.8

1.2 实验设备与光谱数据采集

光谱扫描实验使用ASD公司的FieldSpec3光谱仪:波长范围350~2 500 nm,扫描次数3,用于全光谱范围的原始数据采集。扫描光谱数据在室温下进行,为了避免外界因素影响,光谱采集在暗室进行。每个样本旋转2次,同时采集3次扫描光谱值[14]

光谱数据处理软件为ViewSpecPro,将每个样本的3次光谱数据取平均值作为原始光谱,对原始光谱进行拼接校正,并且将光谱反射率转化为吸光度值。再经过ASCII Export导出数据,应用MTLAB2015a实现主成分分析和灰色关联分析分析。

1.3 基于主成分分析特征波长提取

原始光谱400 nm之前的波长段具有很大的噪声,为了减少干扰,本文研究的波长范围为400~2 500 nm。近红外光谱中包含了大量与本身性质无关或冗余信息,影响了建模和相关性分析,因此需要提取可以表征被测物体特性的特征波长,以增加分析的准确性并简化分析过程。PCA是非常有效的多变量分析技术[15-16],已有很多人实现对研究对象的产地溯源[17-18]。主成分方法可以避免信息间的互相重叠,而且进行了数据简化,从而提取最具代表性的变量子集[19]

PCA的步骤如下:

(1)利用获得的原始光谱数据构建X=m*n阶的矩阵,其中m代表样本数目,n为原始光谱数据的维数;

(2)将m*n阶矩阵X的每一列进行归一化处理,即样本的每个属性;

(3)求出协方差矩阵D,并求解该矩阵的特征值和对应的特征向量;

(4)将求出的特征值从小到大排列,选择最大的k个,然后将其对应的特征向量组成新特征矩N

(5)通过上述求解将原始的数据降到k维,通过计算累计贡献率得到原始数据的信息保留量。

1.4 灰色关联分析

要定量研究两个事物间的关联程度,可以用相关系数和相似系数等,但这需要足够多的样本数或者要求数据服从一定概率分布。在实际情况下,有许多因素之间的关系是灰色的,难以区分因素的密切程度,这样难以找到主要特性[20-21]。灰色系统理论就是以“信息部分明确、部分未知”的“小样本”的灰色系统为研究对象[22-24]。而灰色因素关联分析(grey relation analysis,GRA)目的是定量表征多因素之间的关联程度,从而揭示灰色系统的主要特性。关联分析是灰色系统分析和预测的基础[25-26]。其步骤为:

(1)整理苦荞成分含量和提取的特征波长对应的光谱吸收度;

(2)选定一个参考列和n个比较序列并进行归一化处理,消除量纲;

(3)计算每个参考列一个关联度得到关联矩阵,根据矩阵元素的大小分析得出结论。

2 结果与分析

图1是将不同产地的苦荞样本光谱数据取均值作为该产地的原始光谱曲线,横坐标为波长,纵坐标为吸光度。

图1 不同产地的苦荞原始光谱
Fig.1 Primitive spectra of different areas

从图1可以看出,不同产地的苦荞样本光谱吸收度不同,但峰谷趋势基本一致,900 ~2 500 nm有多个明显的吸收峰,表明该波段范围对苦荞内部品质检测具有决定性意义。另外由于空气中含有水蒸气会对扫描光谱产生一定的影响,因此在1 450、1 930、2 200 nm左右波段苦荞样本的原始光谱曲线有明显的吸收峰。与ZHU等[27]得到的水分敏感波段1 400、1 940、2 250 nm相近。

2.1 主成分分析结果

将获得的原始光谱进行主成分分析,主成分属于无监督的数据降维,即得到的降维结果与因变量无关,因此不会受到变量的干扰[29-30]。进行主成分分析后得到表2和图2。

表2 前5个主成分的特征值及贡献率
Table 2 Characteristic value and contribution rate of the first five principal components

主成分特征值贡献率/%累计贡献率/%PC11 754.68583.5283.52PC2256.977 912.2395.75PC344.364 052.11297.86PC438.949 911.85499.72PC52.352 3970.11299.83

从表2可以看出,前4个主成分的累计贡献率达到了99.72%,表示前4个主成分已经可以解释99.72%的原始光谱信息,因此只保留前4个主成分作为提取的特征波长。然后根据得到的主成分载荷大小顺序得到4个特征波长,分别为1 370、1 680、870、971 nm。

图2 主成分得分图
Fig.2 Principal component score

从图2可以看出,除朔州产地样本中存在一个异常样本外,其余不同产地苦荞样本的聚类效果较好。由于四川大凉山的苦荞样本来自两个品牌,所以其样本聚类效果较为分散,但也能很好地与其他产地的样本进行有效区分,说明主成分分析基本可以实现苦荞产地的溯源。

2.2 灰色关联分析的结果

利用提取的特征波长分别与苦荞的6种成分进行灰色关联分析,得到表3。

表3 苦荞成分和特征波长的灰色关联度
Table 3 Grey relation between characteristic wavelength and composition of tartary buckwheat

波长/nm成分蛋白质黄酮钠硒碳水化合物脂肪1 3700.942 40.676 90.684 80.680 20.948 10.933 01 6800.949 20.680 40.687 20.679 10.937 70.937 68700.940 40.676 50.688 60.686 20.955 80.928 39710.941 80.677 00.688 10.686 00.958 10.928 8

从表3可以得出,1 370、870、971 nm波长与对应苦荞成分的关联度由大到小排列为:碳水化合物>蛋白质>脂肪>钠>硒>黄酮,1 680 nm对应的关联度由大到小排列为:蛋白质>碳水化合物>脂肪>钠>硒>黄酮,根据上述关联度排序得出苦荞的6个成分中碳水化合物和蛋白质跟提取的敏感波长关联度最大。此外通过主成分分析提取的特征波长1 680 nm与杰尔·沃克提到的1 688~1 691 nm波段是折叠结构的CONH2吸收谱带基本吻合,而主成分分析提取的敏感波长971 nm与杰尔·沃克曼[11]得出糖类的二级倍频为972 nm的结果一致。

3 结论

为了实现苦荞产地溯源以及确定苦荞成分对苦荞产地溯源的影响程度,对朔州、内蒙古、云贵高原、四川大凉山、陕西5个产地的36个苦荞样本的近红外光谱数据进行了主成分分析和灰色关联分析。主要研究结论如下:

(1)主成分分析提取的4个特征波长(1 370、1 680、870、971 nm)的累计贡献率达到99.72%,主成分得分图的产地聚类效果明显,说明主成分分析可以实现不同产地苦荞的溯源;

(2)为了确定6种苦荞成分对产地溯源的影响程度,将主成分分析提取的特征波长与苦荞成分进行灰色关联分析,得到关联度由大到小为:碳水化合物>蛋白质>脂肪>钠>硒>黄酮。且从官能团层面找到了碳水化合物和蛋白质是对苦荞产地溯源影响最大的2个成分。

参考文献

[1] 郑峰,孙文文,张琦,等.苦荞籽粒的化学成分研究[J].西北农林科技大学学报(自然科学版),2011,39(10):199-203.

[2] 田秀英,李会合.苦荞籽粒蛋白质营养评价及其对硒的响应[J].食品科学,2010,31(7):105-108.

[3] 谢倩,黄文耀,李建洪,等.硒蛋白中硒代氨基酸形态检测技术进展[J].公共卫生与预防医学,2015,26(3):63-66.

[4] 韩雍.荞麦芦丁和蛋白质的近红外光谱分析[D].杨凌:西北农林科技大学,2008.

[5] WATANABE A, FURUKAWA H, MIYAMOTO S, et al.Non-destructive chemical analysis of water and chlorine content in cement paste using near-infrared spectroscopy[J]. Construction and Building Materials,2019,196:95-104.

[6] CHEN Hui, TAN Chao, LIN Zan. Non-destructive identification of native egg by near-infrared spectroscopy and data driven-based class-modeling[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy,2018,206:484-490.

[7] 马续莹,张卓勇.近红外光谱法在燕麦和苦荞膳食纤维含量分析中的应用[J].首都师范大学学报(自然科学版),2011,32(5):30-33.

[8] 席志勇.基于近红外光谱技术荞麦无损检测方法研究[D].昆明:昆明理工大学,2013.

[9] 张晶,郭军,张美莉. 荞麦掺假近红外快速检测模型的建立[J].食品工业,2018,39(10):195-199.

[10] 梁润梅. 硒蛋白及其生物学功能[J].生物学教学,2004,36(9): 5-7.

[11] 杰尔·沃克曼,洛伊斯·文依.近红外光谱解析实用指南[M].北京:化学工业出版社,2009:274.

[12] ACETO M, ROBOTTI E, ODDONE M, et al. A traceability study on the Moscato wine chain[J]. Food Chemistry, 2013, 138(2-3):1 914-1 922.

[13] KELLY S D, HEATON K, HOOGEWERFF J. Tracing the geographical origin of food: the application of multielement and multi-isotope analysis[J]. Trends in Food Science and Technology, 2005,16(12): 555-567.

[14] 王世芳.贮藏期番茄果实质地的光谱特性分析[D].太原:山西农业大学,2016.

[15] 卢艳丽,白由路,杨俐苹,等.基于主成分回归分析的土壤有机质高光谱预测与模型验证[J].植物营养与肥料学报,2008,14(6):1 076-1 082.

[16] 臧卓,林辉,杨敏华.ICA与PCA在高光谱数据降维分类中的对比研究[J].中南林业科技大学学报,2011,31(11):18-22.

[17] 张玥,王朝辉,张亚婷,等. 基于主成分分析和判别分析的大米产地溯源[J].中国粮油学报,2016,31(4):1-5.

[18] 雷建刚,刘敦华.近红外光谱结合SIMCA对不同产地枸杞溯源模型的优化[J].食品科学,2013,34(20):148-152.

[19] 颜静,唐成,梁亚雄,等.柚子原产地溯源鉴定技术[J].食品科学,2014,35(4):248-252.

[20] 苏学素,张晓焱,焦必宁,等.基于近红外光谱的脐橙产地溯源研究[J].农业工程学报,2012,28(15):240-245.

[21] 马国峻,王水波,裴庆祺,等.基于主成分分析和K-means聚类的平行坐标可视化技术研究[J]. 网络与信息安全学报,2017,3(8):18-27.

[22] 王海峰,张智韬,ARNON KARNIELI,等. 基于灰度关联-岭回归的荒漠土壤有机质含量高光谱估算[J].农业工程学报,2018,34(14):124-131.

[23] 李明亮,李西灿,张爽. 土壤含水量高光谱灰色关联度估测模式[J]. 测绘科学技术学报,2016,33(2):163-168.

[24] 宋雪健,钱丽丽,张东杰,等.近红外光谱技术在食品溯源中的应用进展[J].食品研究与开发,2017,38(12):197-200.

[25] 张兰勇,李陇南,陈辉煌.采用灰色关联分析方法评估火箭弹毁伤效能[J].兵器装备工程学报,2018,39(5):11-15.

[26] 宋海燕,王世芳,谌英敏,等.基于灰色关联度和Vis-NIR的不同贮藏方式下番茄光谱特性分析[J].山西农业大学学报(自然科学版),2019,39(2):75-78.

[27] ZHU Y, WEINDORF D C,CHAKRABORTY S.Characterizing surface soil water with field portable diffuse reflectance spectroscopy[J]. Journal of Hydrology, 2010, 391(1):133-140.

[28] 杨玮,孙红,郑立华,等.冬枣光谱数据的灰色关联分析及叶片氮素含量预测[J].光谱学与光谱分析,2013,33(11):3 083-3 087.

[29] HUANG Yuansheng, SHEN Lei, LIU Hui. Grey relational analysis, principal component analysis and forecasting of carbon emissions based on long short-term memory in China[J]. Journal of Cleaner Production,2019, 209:415-423.

[30] 崔凯.基于模型合并的无监督降维方法研究[D].西安:西安电子科技大学,2014.

Origin tracing of tartary buckwheat by near infrared spectroscopy combined with principal component analysis and grey relational analysis

ZHANG Zhifeng, HAN Xiaoping, QIN Gang,SONG Haiyan*

(College of Engineering, Shanxi Agricultural University,Taigu 030800, China)

ABSTRACT In order to trace the origin of tartary buckwheat and analyze the influence of tartary buckwheat components on its origin traceability, principal component analysis (PCA) and grey relational analysis were carried out on the near infrared spectroscopy data of 72 samples from Shuozhou, Inner Mongolia, Yunnan-Guizhou Plateau, Daliangshan of Sichuan province and Shaanxi province. The results showed that PCA could cluster tartary buckwheat from different areas, and the characteristic wavelengths were 1 370, 1 680, 870 and 971 nm, respectively. Furthermore, grey relational analysis was conducted with the grey relational degree ranking from large to small as follows: carbohydrate > protein > fat > sodium > selenium > flavonoids. As a result, carbohydrate and protein were found to be the two components with greatest influence on the origin of tartary buckwheat at the functional group level. PCA and grey relational analysis combined with near infrared spectroscopy can be used to trace the origin of tartary buckwheat, providing a fast, efficient and low-cost method for the identification of tartary buckwheat geographical indications.

Key words near infrared spectroscopy;principal component analysis;grey relational analysis;tartary buckwheat;origin traceability

DOI:10.13995/j.cnki.11-1802/ts.020614

第一作者:硕士研究生(宋海燕为通讯作者,E-mail:haiyansong2003@163.com)。

基金项目:国家科技支撑计划(2018YFD0700300)

收稿日期:2019-03-20,改回日期:2019-06-20