葡萄酒是由水、糖、有机酸、酚类和挥发性化合物组成的复杂混合物,GB/T 15037—2006《葡萄酒》中定义葡萄酒为以鲜葡萄或葡萄汁为原料,经全部或部分发酵酿制而成的,含有一定酒精度的发酵酒。自2003年以来,葡萄酒的质量评价以及品种、产地真实性的研究也逐步深入。由于我国对于葡萄酒品种鉴别和原产地认证手段都还不够成熟,缺乏相应的检测方法予以支撑。以次充好虚报品种和产地的葡萄酒产品极大地损害了消费者以及葡萄酒行业的经济利益,因此急需建立我国葡萄酒真实性鉴别的有效手段。
目前用于葡萄酒品种、产地鉴别的主要有稳定同位素技术[1-3]、气相色谱质谱联用技术[4-6],高效液相色谱技术[7]和红外光谱技术[8]等。葡萄酒中物质的组成和数量与气候条件、土壤、葡萄品种等因素息息相关,可利用挥发性成分和元素信息等非靶向或靶向代谢指纹图谱分析判别葡萄酒差异相关的特征性化合物,从而进行不同品种和产地等信息的区分[9-10]。化学计量学的逐步发展使得主成分分析(principal component analysis, PCA)、偏最小二乘判别分析(partial least square-discriminant analysis, PLS-DA)、支持向量机(support ector machine, SM)和随机森林(random forest, RF)等被广泛应用于食品领域进行品种鉴别和产地溯源[11-14]。此外,非目标筛查与多元统计分析相结合可大幅提升对不同地理环境的葡萄酒鉴别的准确率[7]。超高效液相色谱-四极杆飞行时间质谱(ultra-performance liquid chromatography-quadrupole-time-of-flight-mass spectrometry,UPLC-QTOF-MS)技术具有良好的分离能力、分辨率高、检测限低并且能够测定样品成分和物质结构的特性,在葡萄酒的质量和真实性方面有很好的应用前景[11]。本研究以不同品种和产地的国产红葡萄酒为对象,基于UPLC-QTOF-MS进行葡萄酒代谢组学分析,结合化学计量学手段,通过不同预测模型逐步对国产红葡萄酒的品种和产地进行鉴定,通过综合考虑不同模型之间正确率的对比以及各个模型对于异常点的容忍度和过拟合的可能性,选择最优预测模型,为葡萄酒真实性鉴别提供方法支撑。
Agilent 1290-6546超高效液相色谱-四极杆飞行时间质谱仪(配备Dual AJS ESI源),美国Agilent公司。
甲酸(质谱纯,≥99%),上海麦克林生化科技有限公司;甲醇(质谱纯,99.9%),赛默飞世尔科技有限公司;超纯水,美国Millipore公司。
所选样品均为单一葡萄品种酿造,同时包含不同的品种、产地和年份信息,样品年份范围为2015年—2019年,主要集中在2017年和2018年。样品品种和产地信息如表1、表2所示。
表1 样品品种信息
Table 1 Information of arieties of samples
编号品种数量CS赤霞珠196ME梅鹿辄42SH西拉40
表2 样品产地信息
Table 2 Information of areas of samples
编号产地数量HB河北132NX宁夏56SD山东50XJ新疆70
1.3.1 样品的制备
准确量取1 mL红葡萄酒样品与2 mL甲醇置于玻璃管中,涡旋混匀后取2 mL经0.22 μm有机滤膜过滤后置于进样瓶中,以供UPLC-QTOF-MS检测。
质量控制(quality control, QC)样品制备:所有待测样品每个取0.5 mL置于三角瓶中,混合均匀,取混匀后的液体1 mL与2 mL甲醇置于玻璃管中,涡旋混匀后取2 mL经0.22 μm滤膜过滤后置于进样瓶中,以供UPLC-QTOF-MS检测。
1.3.2 试剂配制
流动相A:0.1%(质量分数,下同)甲酸水溶液;流动相B:100%甲醇。
1.3.3 色谱条件
色谱柱:ZORBAX Eclipse Pluse C18(2.1 mm×100 mm,1.8 μm);柱温40 ℃;进样量2 μL;流速0.3 mL/min;梯度洗脱程序见表3。
表3 正模式梯度洗脱程序
Table 3 Gradient elution procedure in positie mode
时间/minA/%B/%0.009551.0095510.00356513.00010016.00010018.00955
1.3.4 质谱条件
在正模式下进行全扫描检测。
参数设置:毛细管电压3 500 ;干燥气温度300 ℃;干燥气流速6 L/min;雾化气压力241.3 kPa;鞘气温度350 ℃;鞘气流速11 L/min;碎裂电压120 ;质量扫描范围m/z 50~1 700;采集速率2 spectra/s;参比离子m/z 121.050 873和m/z 922.009 798。
将在MassHunter Workstation(美国Agilent公司)采集的谱图数据使用Profinder 10.0和Mass Profiler Professional(MPP)进行统计学分析并建立预测模型。
UPLC-QTOF-MS不需要复杂的前处理过程,具有液相色谱中良好的分离机制,被视为代谢指纹图谱分析的有效工具[15],其能够在不需要标准物质的情况下对复杂样品中的化合物成分进行鉴定和分析,具有高分辨率、高灵敏度、高选择性和高精度的优点,能够提供更加精确的相对分子质量和结构信息[16]。本研究对红葡萄酒进行非靶向指纹图谱分析,在没有具体的目标物质的情况下,对液相色谱分离和质谱检测在通用的方法参数基础上加以优化,以获得包含尽可能多的化合物信息的样品数据。方法采用反相高压色谱柱和梯度洗脱使得红葡萄酒样品中不同极性的化合物能够在高水相向高有机相转变过程中有效分离,在流动相水相中添加0.1%的甲酸能够一定程度上帮助物质电离[14],所有的化合物可在16 min内被洗脱,m/z的范围选择50~1 700,仪器在扫描过程中会自动对参比离子进行检测,以此来对样品中检测到的物质进行质量校准。
图1所示为以正模式扫描的QC样品总离子流色谱图。将获得的QC数据导入Profinder中进行递归特征提取,通过峰高、保留时间和质量进行筛选,共筛选出1 470个特征化合物,在此基础上在MPP中过滤掉变异系数(coefficient of ariation,C)≥20%的不稳定化合物,获得970个C<20%的稳定化合物。样品数据分组导入Profinder并依据获得的稳定化合物进行目标特征提取,获得样品数据的PFA文件。在MPP中将所有数据用中位数对齐,建立预测模型。
图1 质控样品总离子流色谱图
Fig.1 Total ion chromatograms of QC samples
2.3.1 PCA
PCA技术能够提取分析原始数据中有效的化学信息作为新的主成分变量,有效地降低数据维度,选取方差最大的几个主成分,通过对比不同组别样本间的差异性建立分组模型[17-18]。将经QC数据筛选后的样品数据导入MPP进行PCA,红葡萄酒品种和产地的PCA结果见图2。无论品种还是产地的样本数据都相互交叠、重合程度极大。品种鉴别中3个主成分变量贡献率分别为15.61%、9.81%和8.09%,产地鉴别中3个主成分变量贡献率分别为15.33%、9.45%和7.91%,累计贡献率为32.69%,小于35%,贡献率低。提取的有效数据信息不充分,因此,PCA模型均无法成功区分葡萄酒品种和产地。
a-品种;b-产地
图2 品种和产地的PCA图
Fig.2 PCA of ariety and origin
2.3.2 PLS-DA
为了解决PCA模型主成分贡献率低,无法对样品的品种和产地进行区分的问题,进一步使用PLS-DA对样品数据进行分析。PLS-DA可以同时实现多元线性回归和主成分分析[10,19],相较于PCA模型,PLS-DA模型除了对数据进行降维处理,还能实现预测模型的构建,通过有监督的模式更好地明确样本组间关系。PLS-DA模型对红葡萄酒样品品种和产地的分类可视3D模型见图3。图3-a中可看出3个品种数据点各自形成清晰可见的聚集分布,分类效果较好,图3-b中4个产地分组间仍有较大部分的重叠。从正确率来看,模型对于样品的品种和产地的识别能力均为100%,但对于品种鉴别的预测能力为83.81%,对于产地溯源的预测能力为71.43%。
a-品种;b-产地
图3 品种和产地的PLS-DA图
Fig.3 PLS-DA of ariety and origin
在品种鉴别的交叉验证中赤霞珠、梅鹿辄和西拉的分类正确率分别为81.12%、80.95%和100.00%(表4);在产地溯源的交叉验证中河北、宁夏、山东和新疆的分类正确率分别为71.97%、78.57%、50.00%和80.00%(表5)。根据这种有监督的分析,可以注意到西拉与其他2个品种差异较大,品种预测中赤霞珠和梅鹿辄正确率相对较低,但仍明显呈现出聚类分布的趋势,表明3个品种酿酒葡萄所生产的葡萄酒中的化合物组成存在一定程度的差异。产地预测中正确率低于80%,模型预测结果中,各个样本组中被错误分类的样品散落在其他几个样本组之间,没有统一性,其葡萄酒数据间存在异常点,需要采用更为稳定与对异常点容忍度更大的模型进一步分析。
表4 PLS-DA模型的品种分类结果
Table 4 The oeriew of ariety classification results obtained by PLS-DA model
CSMESH正确率/%训练CS16529284.18ME040295.24SH0040100.00识别能力/%88.13验证CS15936181.12ME034880.95SH0040100.00预测能力/%83.81
表5 PLS-DA模型的产地分类结果
Table 5 The oeriew of origin classification results obtained by PLS-DA model
HBNXSDXJ正确率/%训练HB1001471175.76NX3472483.93SD81328156.00XJ0456187.14识别能力/%76.62验证HB951881171.97NX2446478.57SD91625050.00XJ0685680.00预测能力/%71.43
2.3.3 SM
SM模型作为一种常见的广义线性分类器,一般用于分类与回归问题的研究,对数据异常点的容忍度优于PLS-DA,适用于较小的数据集,不容易造成过拟合现象[13,20]。本次构建的SM模型采用线性核函数和留一法交叉验证,对于样品的品种和产地和识别能力均为100%,对于品种鉴别的预测能力为97.48%,对于产地溯源的预测能力为85.07%(表6、表7)。训练集和测试集的整体正确率较高,各个组别自身正确率除山东产地外均在80%以上,山东产地仅为64.00%(表7)。品种模型的训练和预测正确率十分优异,3种酿酒葡萄所酿造的葡萄酒之间的差异明显。但有13个山东产地的红葡萄酒样品被识别为了河北产地样品,导致产地预测正确率出现了较大的偏差,这可能是由于山东省与河北省葡萄的主要种植地均在沿海地区,其地理环境、土壤条件以及种植方式均有相似之处,使得2个产地葡萄酒在一定程度上具有相同的化合物信息,导致无法正确分类。尽管SM对于数据异常点的处理较为优异,但仍然会受到相似性较大的数据点的影响,且组间样本量差异较大,对模型分类预测结果造成影响。
表6 SM模型的品种分类结果
Table 6 The oeriew of ariety classification results obtained by SM model
CSMESH正确率/%训练CS19600100.00ME0420100.00SH0040100.00识别能力/%100.00验证CS1942098.98ME338090.48SH013997.50预测能力/%97.48
表7 SM模型的产地分类结果
Table 5 The oeriew of origin classification results obtained by SM model
HBNXSDXJ正确率/%训练HB132000100.00NX05600100.00SD00500100.00XJ00070100.00识别能力/%100.00验证HB12226292.42NX3456280.00SD13332264.00XJ2146390.00预测能力/%85.07
2.3.4 RF
为了进一步避免数据异常点对于模型的影响,使用对于异常点不敏感的RF,其作为一种非线性分类与回归方法[21],区别于SM需要对多项参数进行调整优化,更为简单直接,从原始样本中抽取多个样本单独进行决策树建模,通过对大量决策树的预测汇总,投票得出最终预测结果,提高了模型的预测精度,一定程度上避免了过拟合等问题的出现[22-23]。图4给出了决策树≤500时红葡萄酒样品品种和产地分类的袋外误差结果,在保证模型有效的基础上设置尽可能少的决策树个数以节省建模所需时间。品种鉴别中误差最低点为0.003 597 122,对应的最小决策树个数为257,产地溯源中误差最低点为0.012 987 013,对应的最小决策树个数为259。
a-品种;b-产地
图4 品种及产地溯源袋外误差
Fig.4 Out-of-bag error of ariety identification and origin traceability
根据筛选出的最小决策树个数分别建立预测模型(见表8和表9)。2个模型在训练过程中没有出现错误分类,即识别能力均为100.00%,表明RF模型能够分别对红葡萄酒的品种和产地进行有效区分。整体品种分类的预测正确率为99.64%,赤霞珠、梅鹿辄和西拉的分类正确率分别为100.00%、97.62%和100.00%;整体产地分类的预测正确率为98.70%,河北、宁夏、山东和新疆的分类正确率分别为100.00%、98.21%、96.00%和98.57%。在针对2个模型的验证中,所有组别的正确率均高于96.00%,验证了RF模型的有效性。
表8 RF模型的品种分类结果
Table 8 The oeriew of ariety classification results obtained by RF model
CSMESH正确率/%训练CS19600100.00ME0420100.00SH0040100.00识别能力/%100.00交叉验证CS19600100.00ME141097.62SH0040100.00预测能力/%99.64
表9 RF模型的产地分类结果
Table 9 The oeriew of origin classification results obtained by RF model
HBNXSDXJ正确率/%训练HB132000100.00NX05600100.00SD00500100.00XJ00070100.00识别能力/%100.00交叉验证HB132000100.00NX0551098.21SD2048096.00XJ1006998.57预测能力/%98.70
本实验选取的3个葡萄品种赤霞珠、梅鹿辄和西拉在色素、花青素和一些酚类物质的种类和含量存在显著差异[24],使得建立模型的干扰较少,较易得到准确率优异的品种预测模型。产地模型中克服了河北与山东产地样品数据间的相似性,仅有2个山东产地样品被识别为河北产地,有效避免了过拟合问题。同时,本研究在前期对数据进行了过滤以及特征化合物提取,筛选出的特征化合物在建立预测模型时更具有优势,相较于同类研究仅使用部分目标酚类化合物及部分代谢物建立的RF预测模型(正确率91.75%)[25],预测正确率更高,性能更好。
使用UPLC-QTOF-MS在全扫描模式下对红葡萄酒进行了代谢指纹图谱分析,在获得丰富信息数据的基础上对红葡萄酒进行品种鉴别和产地溯源具备可行性。不同葡萄品种(赤霞珠、梅鹿辄和西拉)酿制的红葡萄酒除在PCA模型中无法实现聚类之外,在其他3种模型中均呈现出了较好的分类正确率,尽管各品种中包含了来自全国各地不同产地的信息,但其自身的差异性较小,识别率较高。而来自不同产地(河北、宁夏、山东和新疆)的红葡萄酒受到产地间相似地理环境、土壤条件和种植方式等因素的影响,存在较多异常点信息,PCA和PLS-DA模型均无法实现准确分类,而对于异常点容忍度优异,过拟合现象发生概率较小的SM和RF模型,成功实现了对于不同产地的准确分类。本研究通过多元化、多维度的非靶向数据源构建了系统的预测模型,鉴别不同品种和产地的葡萄酒,从而建立了我国葡萄酒真实性鉴别的有效方法。
但同时,本实验在样品设置上存在一些不足,由于中国酿酒葡萄的主要种植品种为赤霞珠,因此无论是品种样品设置还是产地样品设置中赤霞珠都占据了大多数。各个产地的主要酿酒葡萄种植品种存在差异,使得产地模型的建立存在较大的干扰。另外,由于时间对葡萄酒的影响较大,尽管本次样品中涵盖了不同的时间信息,但差距较小,在未来的研究中,可以对葡萄酒中组分随着时间产生的变化进行探究,进一步分析本研究中的2个模型是否具有长期的适用性,以及如何进行适度的更新调整,从而建立更加完善可靠的葡萄酒分析预测模型。
[1] 江伟, 吴幼茹, 薛洁.C、H、O同位素分析在葡萄酒产区鉴别中的应用[J].食品科学, 2016, 37(6):166-171.
JIANG W, WU Y R, XUE J.Application of C, H and O isotopes for identifying the geographical origin of wines[J].Food Science, 2016, 37(6):166-171.
[2] DURANTE C, BERTACCHINI L, COCCHI M, et al.Deelopment of 87Sr/86Sr maps as targeted strategy to support wine quality[J].Food Chemistry, 2018, 255:139-146.
[3] MARCHIONNI S, BUCCIANTI A, BOLLATI A, et al.Conseration of 87Sr/86Sr isotopic ratios during the winemaking processes of ‘Red’ wines to alidate their use as geographic tracer[J].Food Chemistry, 2016, 190:777-785.
[4] 赵昊, 王雪薇, 宋晶晶, 等.不同品种葡萄酒香气特征及成分分析[J].中外葡萄与葡萄酒, 2020(6):28-33.
ZHAO H, WANG X W, SONG J J, et al.Analysis of aroma components of different ariety wines[J].Sino-Oerseas Grapeine & Wine, 2020(6):28-33.
[5] 陶永胜. 贺兰山东麓霞多丽葡萄酒的香气成分活性及其指纹特征研究[J].宁夏林业, 2019(3):55-61.
TAO Y S.Study on aroma component actiity and fingerprint characteristics of Chardonnay wine at the eastern foot of Helan Mountain[J].Ningxia Linye, 2019(3):55-61.
[6] 陶永胜, 李华, 王华.中国不同产区赤霞珠干红葡萄酒香气成分数据的可视化分析[J].分析化学, 2008, 36(5):653-657.
TAO Y S, LI H, WANG H.Data isualization of wine aroma compounds of Cabernet Sauignon dry red wines from different origins in China[J].Chinese Journal of Analytical Chemistry, 2008, 36(5):653-657.
[7] 白秀芝, 王美玲, 颜鸿飞, 等.高效液相色谱指纹图谱及随机森林应用于湖南安化黑茶水溶性成分的研究[J].分析测试学报, 2014, 33(11):1 268-1 273.
BAI X Z, WANG M L, YAN H F, et al.Inestigation on fingerprint of Hunan Anhua dark tea’s water-soluble components by high performance liquid chromatography and random forest[J].Journal of Instrumental Analysis, 2014, 33(11):1 268-1 273.
[8] 何勇, 郑启帅, 张初, 等.基于中红外光谱和化学计量学算法鉴别核桃产地及品种[J].光谱学与光谱分析, 2019, 39(9):2 812-2 817.
HE Y, ZHENG Q S, ZHANG C, et al.Identification of walnut origins and arieties with mid-infrared spectroscopy analysis technique[J].Spectroscopy and Spectral Analysis, 2019, 39(9):2 812-2 817.
[9] ALBERTS P, STANDER M A, DE ILLIERS A.Adanced ultra high pressure liquid chromatography-tandem mass spectrometric methods for the screening of red wine anthocyanins and deried pigments[J].Journal of Chromatography A, 2012, 1 235:92-102.
[10] ARBULU M, SAMPEDRO M C, GMEZ-CABALLERO A, et al.Untargeted metabolomic analysis using liquid chromatography quadrupole time-of-flight mass spectrometry for non-olatile profiling of wines[J].Analytica Chimica Acta, 2015, 858:32-41.
[11] ACLAIK L, LACINA O, HAJSLOA J, et al.The use of high performance liquid chromatography-quadrupole time-of-flight mass spectrometry coupled to adanced data mining and chemometric tools for discrimination and classification of red wines according to their ariety[J].Analytica Chimica Acta, 2011, 685(1):45-51.
[12] ROULLIER-GALL C, WITTING M, GOUGEON R D, et al.High precision mass measurements for wine metabolomics[J].Frontiers in Chemistry, 2014, 2, 102.DOI:10.3389/fchem.2014.00102.
[13] 王梓笛, 李双妹, 尹延东, 等.基于支持向量机算法的乳制品分类识别技术研究[J].粮食科技与经济, 2020, 45(3):104-107.
WANG Z D, LI S M, YIN Y D, et al.Research on classification and recognition of dairy products based on support ector machine algorithm[J].Grain Science and Technology and Economy, 2020, 45(3):104-107.
[14] 林立毅, 徐敦明, 沈晓骅, 等.液相色谱-四级杆飞行时间串联质谱对法国波尔多地区葡萄酒产地溯源研究初探[J].食品安全质量检测学报, 2014, 5(9):2 649-2 656.
LIN L Y, XU D M, SHEN X H, et al.Traceability of the wine in Bordeaux region from France based on liquid chromatography-quadrupole-time of flight tandem mass spectrometry[J].Journal of Food Safety & Quality, 2014, 5(9):2 649-2 656.
[15] DAZ R, POZO O J, SANCHO J , et al.Metabolomic approaches for orange origin discrimination by ultra-high performance liquid chromatography coupled to quadrupole time-of-flight mass spectrometry[J].Food Chemistry, 2014, 157:84-93.
[16] 祝爱艳, 梁露, 侯金雪, 等.基于赣南脐橙指纹图谱的主成分及UPLC-Q-TOF-MS分析[J].中国食品学报, 2019, 19(8):257-264.
ZHU A Y, LIANG L, HOU J X, et al.Analysis of principal component and UPLC-QTOF-MS of Gannan nael orange based on the fingerprints[J].Journal of Chinese Institute of Food Science and Technology, 2019, 19(8):257-264.
[17] MILOANOIC M, ŽERAK J, OBOIL M, et al.A noel method for classification of wine based on organic acids[J].Food Chemistry, 2019, 284:296-302.
[18] LIU Z, ZHANG W X, ZHANG Y Z, et al.Assuring food safety and traceability of polished rice from different production regions in China and Southeast Asia using chemometric models[J].Food Control, 2019, 99:1-10.
[19] 柯朝甫, 武晓岩, 侯艳, 等.偏最小二乘判别分析交叉验证在代谢组学数据分析中的应用[J].中国卫生统计, 2014, 31(1):85-87.
KE Z F, WU X Y, HOU Y, et al.Application of partial least squares discriminant analysis cross alidation in metabolomics data analysis[J].Chinese Journal of Health Statistics, 2014, 31(1):85-87.
[20] 朱立云, 刘媛华.支持向量机在意大利葡萄酒种类识别中的应用[J].软件导刊, 2020, 19(11):29-32.
ZHU L Y, LIU Y H.Application of support ector machines in the type identification of Italian wine[J].Software Guide, 2020, 19(11):29-32.
[21] CALLE J L P, FERREIRO-GONZLEZ M, RUIZ-RODRGUEZ A, et al.A methodology based on FT-IR data combined with random forest model to generate spectralprints for the characterization of high-quality inegars[J].Foods (Basel, Switzerland), 2021, 10(6):1411.
[22] GENUER R, POGGI J M, TULEAU-MALOT C.ariable selection using random forests[J].Pattern Recognition Letters, 2010, 31(14):2 225-2 236.
[23] 邵琦, 陈云浩, 杨淑婷, 等.基于随机森林算法的玉米品种高光谱图像鉴别[J].地理与地理信息科学, 2019, 35(5):34-39.
SHAO Q, CHEN Y H, YANG S T, et al.Identification of maize seed arieties based on random forest and hyperspectral technique[J].Geography and Geo-Information Science, 2019, 35(5):34-39.
[24] STARIDOU K, SOUFLEROS E H, BOULOUMPASI E, et al.The phenolic potential of wines from French grape arieties Cabernet Sauignon, Merlot and Syrah cultiated in the region of Thessaloniki (northern Greece) and its eolution during aging[J].Food and Nutrition Sciences, 2016, 7(2):122-137.
[25] ALEXANDROS T, MARILENA D, REZA A, et al.LC-MS based metabolomics for the authentication of selected Greek white wines[J].Microchemical Journal, 2021, 169:106543.