基于便携式近红外光谱的西藏风干牦牛肉产地鉴别研究

韩沅汐,胡云,张二豪,刘振东*,李梁*,罗章

(西藏农牧学院 食品科学学院,高原特色农产品研发中心,西藏特色农牧资源研发协同创新中心,西藏 林芝,860000)

摘 要 产地是影响牦牛肉品质的重要因素之一,为实现对西藏风干牦牛肉产地的快速鉴别,该文应用便携式近红外光谱仪对西藏不同产地风干牦牛肉样品进行产地鉴别。实验收集西藏4个地区的风干牦牛肉样品共240个,按照3∶1的比例随机分为训练集和测试集。通过马氏距离剔除异常样本后,采用移动平均平滑、Savitzky-Golay卷积平滑、标准整体变量变换、多元散射校正、二阶导数、均值中心化(mean centering,MC)和去趋势校正7种预处理方法,分别建立偏最小二乘判别,支持向量机(support vector machine,SVM)和随机森林3种鉴别模型。结果表明,MC-SVM模型分类效果最优,在训练集和预测集的准确率分别为95.24%和91.67%;为进一步简化模型,分别采用竞争性自适应重加权采样法、变量空间迭代收缩算法、引导软收缩(bootstrapping soft shrinkage,BOSS)进行特征波长筛选。通过多变量数据分析发现,MC-BOSS-SVM模型效果最佳,训练集和预测集准确率分别为88.10%和91.67%。该研究为西藏风干牦牛肉产地的快速、无损鉴别提供理论依据。

关键词 便携式近红外光谱;西藏风干牦牛肉;产地鉴别;机器学习;模型建立

牦牛(Bos grunniens)由野牦牛长期驯化而来[1],是青藏高原特有的畜种。在西藏,牦牛是重要的经济资源组成部分,其肉、乳及皮毛具有高商业价值。牦牛肉因富含高蛋白、低脂肪和丰富矿物元素等特点而备受青睐[2]。风干牦牛肉是藏区最传统的牦牛肉加工制品,由新鲜牦牛肉经切条后在自然条件下风干制成,是藏区最常用于贮存牦牛肉的方式[3]。在风干过程中,牦牛肉在内源酶和微生物的作用下呈现出棕红色并散发出独特的香味,因此受到广大农牧民及游客的欢迎[4]。西藏幅员广阔,海拔梯度较大,牦牛在3 000 m以上海拔均有分布[5]。不同产地的牦牛因生长海拔[6]和饲养方式[7-8]等不同,其肉质存在较大差异[9-10],加之不同产地风干牦牛肉加工过程中受当地气候的影响,肉干品质也存在差异。然而由于风干牦牛肉形态接近,普通消费者难以对市场中不同海拔来源的风干牦牛肉进行鉴别。

在我国日益规范畜产品安全和监管背景下,近年来已有学者对西藏不同产地鲜牦牛肉进行鉴别研究。目前大多采用矿质元素和稳定同位素技术[11-13],但尚无对牦牛肉加工产品的鉴别。风干牦牛肉在风干过程中产生的化学变化可能会影响矿质元素技术的溯源难度及准确性,此外虽然稳定同位素技术具有准确性好的优点,但其操作要求复杂,分析时间长,难以满足市场快速检测和鉴别的需求。因此亟需一种高效、实用的技术方法,以保障风干牦牛肉的优质优价[12]并促进牦牛产业的健康发展。

现今,肉制品产地溯源技术主要包括稳定同位素[14]、矿质元素[15]、代谢组学[16]、DNA[17]和近红外光谱[18]等。其中近红外光谱技术以其快速、无损伤和无污染等特点著称,通过与化学计量学和机器学习等数据科学方法结合,已在各类农产品鉴别中得到广泛应用[19]。例如,LIU等[20]利用近红外光谱分析方法建立的类独立软模式法(soft independent modelling of class analogy,SIMCA)模型对4个地理来源的罗非鱼片产品进行了产地溯源,其预测准确度均高于75%;张宁等[21]使用近红外光谱对山东、河北、内蒙古、宁夏4个产地的羊肉进行鉴别,通过SIMCA建立模型能正确鉴别4个产地羊肉;PARASTAR等[22]将手持近红外光谱仪与机器学习结合,建立了一种快速区分新鲜鸡肉和解冻鸡肉的方法,其测量和分析速度最快仅需20 s。近红外光谱分析快速无损的特点日益受到关注,这进一步推动了便携式光谱设备的开发。这些设备不仅秉承了原有快速无损的优点,还具备了更强的便携性、更低的成本和更高的稳健性,被誉为“真正的绿色分析化学”[23]

因此本研究采集西藏那曲、山南、日喀则、拉萨共240份风干牦牛肉样本,利用便携式近红外光谱仪采集风干牦牛肉光谱数据,结合多种机器学习算法建立产地鉴别模型,以期为西藏风干牦牛肉产地的快速、无损鉴别提供理论依据。

1 材料与方法

1.1 样品

从西藏不同地区(那曲、山南、日喀则和拉萨)农户共收集240个风干牦牛肉样品,每个产地60个,具体收集信息如表1所示。

表1 样品采集地点及海拔
Table 1 Sample collection locations and elevations

编号采样地点经度纬度海拔/mA那曲班戈 90°39′5″E31°31′8″N5 222B山南桑日 92°21′36″E29°26′24″N3 978C日喀则康马89°22′15″E28°37′12″N4 607D拉萨曲水 90°39′36″E29°19′12″N3 567

1.2 仪器与设备

NIR-R210便携式光谱仪:光谱仪模组采用光栅分光方式,内置反射性光源,采集波段为900~1 700 nm,光学分辨率为10~12 nm,深圳谱研互联科技有限公司。

1.3 近红外光谱采集

使用NIR-R210便携式光谱仪与计算机组成的光谱采集系统,设置积分时间120 ms。在采集样本数据前使用标准参考白板进行校正,为确保数据采集的稳定性和可重复性,每个样品进行了5次测量,每次测量平均采集50次,经测量后取平均值作为样品最终光谱基准。样品光谱采集时均在室温下进行,湿度保持恒定。4组样品各60个(4×60=240个),其中来自不同产地的样品编号为:那曲(A)、山南(B)、日喀则(C)和拉萨(D),样品编号为A1~A60、B1~B60、C1~C60和D1~D60。

1.4 光谱数据分析

1.4.1 异常数据剔除

为减少人为操作不当或周围环境因素等方面引起的异常数据点,确保模型学习对数据集整体特征理解的准确性。采用主成分分析分别对4个产地风干牦牛肉样本的原始光谱数据进行压缩降维,确定各变量对主成分的贡献,选择贡献率>99%的主成分数用于马氏距离的计算,以有效鉴别异常样品[24]

1.4.2 光谱预处理

由于受环境因素或仪器状态的影响,所收集的近红外光谱数据易出现噪音、频谱偏移和极化现象[25]。采用移动平均平滑(moving average smoothing,MA)、Savitzky-Golay平滑滤波法(SG)、标准正态变量变换(standard normal variate transformation,SNV)、二阶导数、均值中心化(mean centering,MC)、去趋势校正(detrend correction,DT)和多元散射校正(multiplicative scatter correction,MSC)共7种预处理方法消除由环境或传感器的不确定干扰引起的噪声,以增强数据稳定性和提高频谱信噪比[26-27]

1.4.3 特征波长筛选

在1.4.2节基础上,利用特征提取和特征选择方法以降低数据维度,从而简化并建立有效的鉴别模型[28]。采用竞争性自适应重加权采样法(competitive adaptive reweighted sampling,CARS)、变量空间迭代收缩法(variable iterative space shrinkage approach,VISSA)和引导软收缩法(bootstrapping soft shrinkage,BOSS)对最优预处理方法处理后的光谱数据进行特征波长筛选。基于特征波长数据建立的分类模型,可为后续开发风干牦牛肉简易近红外光谱设备的开发提供依据。

1.5 模型构建及评价

1.5.1 模型构建

支持向量机(support vector machine,SVM)[29]是一种通过将样本特征数据映射到高维空间中,并根据特征维数在空间中构建对样本分类划分最优的超平面的分类算法。对于小样本数据集分类问题,支持向量机模型表现出色的分类性能并具有良好的泛化能力[30]。在该算法中核函数是将特征数据映射的关键手段,因此本实验采用基于径向基核函数的SVM进行模型建立,通过网格搜索筛选最佳惩罚系数和核宽度的参数设置。

偏最小二乘判别分析(partial least squares discrimination analysis,PLS-DA)[31]是一种结合主成分分析和多元回归分析的线性判别模型,通过从样本特征数据的自变量和因变量之间的对应关系,在建立回归模型[32]的同时最大化解释自变量和因变量之间的协方差,以实现样本类别的预测。通常情况下,为防止PLS-DA模型过拟合,提高模型的泛化能力,特征变量的数量应受到限制,因此本实验将特征主成分数量设置为10~15。

随机森林(random forest,RF)[33]是一种由预设数量的决策树组成的模型,是具有训练速度快、实现简单优势的集成学习算法。在面对分类问题时,RF基于每颗决策树中所映射的随机样本属性及特征信息进行训练后的预测结果进行投票或取平均值来确定最终结果。相比于单个决策树,随机森林通常具有更好的泛化能力和抗过拟合能力。为确定最佳决策树数量,本文采用了网格搜索方法。

1.5.2 模型评价指标

为评价建立模型性能,分别以准确率、精确率和召回率3个指标作为评价指标。通过建立混淆矩阵,综合对比模型指标,筛选出最优分类模型。准确率是分类问题最常用的评价指标;精确率反映了模型对于正例的敏感程度;召回率用于衡量真正例中被正确鉴别为正例的比例,详细计算如公式(1)~公式(3)所示[34]:

准确率

(1)

精确率

(2)

召回率

(3)

式中:TP表示真阳性样本个数;FP表示假阳性样本个数;TN表示真阴性样本个数;FN表示假阴性样本个数。

1.6 数据分析

参考采集软件为ISC-NIRScan-GUI;异常样本剔除、原始数据预处理、特征波长提取和分类模型的建立均采用Matlab R2020b软件进行;光谱曲线绘制与分析采用Origin 2024软件和Matlab R2020b软件完成。

2 结果与分析

2.1 各产地风干牦牛肉光谱特征

不同产地的风干牦牛肉在900~1 700 nm波段红外光谱平均吸光度值如图1所示。经分析发现,不同产地风干牦牛肉的平均光谱曲线趋势相似,但在部分波段对应的吸光度值存在差异,如1 400~1 600 nm,说明不同产地风干牦牛肉化学成分含量有一定差异。其中在1 210 nm处所呈现的吸收峰是C—H键(脂肪)的第二泛音振动吸收所导致,这与ZHANG等[35]的研究结果相似且这一吸收峰与样品颜色有关;1 430 nm附近的吸光度峰值(O—H键)与水分含量有关;1 520 nm附近的峰值是由样品中蛋白质N—H键产生[36],这种差异可能受样品产地海拔、饲草和年龄等因素影响[37]

图1 四个产地风干牦牛肉近红外平均光谱图
Fig.1 Average near-infrared spectra of air-dried yak meat from four origins

2.2 异常样品数据剔除

在对不同产地风干牦牛肉样品进行光谱分析前,检测异常样品是确保模型的有效性和可靠性的重要步骤。通常在对单维数据进行检测时可以使用单变量统计进行剔除,但在处理光谱数据时应考虑其多变量分布的位置关系[38]。马氏距离可以通过量化样品点在多维空间中的位置关系,有效考虑各个变量之间的相关性从而鉴别出多维数据分布中分离的数据点,有助于保证后续鉴别模型的预测及泛化能力[39]

通过主成分分析筛选出不同产地样品近红外数据贡献率>99%的主成分信息,以进一步利用这些特征信息用于样品间马氏距离的计算。根据马氏距离的均值、标准偏差及权重系数以确定剔除阈值[24],最终各产地异常样品鉴别结果如图2所示。在A产地样品中超出阈值(0.81×104)的异常样本为A3、A8和A11;B产地样品中超出阈值(2.22×104)的异常样本为B46、B48和B49;C产地样品中超出阈值(5.17×103)的异常样本为C4、C5和C6;D产地样品中超出阈值(3.53×103)的异常样本为D46、D47和D48。为准确评估鉴别模型性能,将剔除异常样品后的数据集以3∶1比例划分为校正集和预测集,具体信息如表2所示。

A-那曲班戈产地样品;B-山南桑日产地样品;C-日喀则康马产地样品;D-拉萨曲水产地样品

图2 四个产地风干牦牛肉样品的马氏距离分布
Fig.2 Distribution of Marginal distance of air-dried yak meat samples from four origins

表2 异常样品及校正集、预测集数量
Table 2 Number of anomalous samples and correction and prediction sets

编号正常样品异常样品A573B573C573D573校正集171/预测集57/合计22812

2.3 近红外光谱预处理

通过近红外光谱分析可获取不同产地风干牦牛肉样品的表征信息,然而样品的物理特性不可避免影响其原始光谱数据质量,如噪声与特征频谱重叠或极化现象等干扰。因此分别采用MA、SG、SNV、MSC、二阶导数、MC和DT共7种方法对光谱数据进行预处理以减少干扰信息,提高数据集质量。为进一步评估不同预处理方法效果,将预处理后的光谱数据分别用于SVM、PLS-DA和RF 3种机器学习方法建立不同产地风干牦牛肉鉴别模型并以平均准确率作为评估指标,结果如表3所示。

表3 原始光谱及不同预处理光谱的产地SVM、PLS-DA和RF模型
Table 3 SVM, PLS-DA, and RF models of origin for original spectra and different preprocessed spectra

预处理方法模型训练集准确率/%测试集准确率/%训练集平均准确率/%测试集平均准确率/%SVM77.9876.67无PLS-DA69.6466.6769.8467.22RF61.9058.33SVM83.9386.67MAPLS-DA69.0571.6775.4078.33RF73.2176.67SVM85.7186.67SGPLS-DA67.2668.3374.4076.11RF70.2473.33SVM88.6985.00SNVPLS-DA68.4571.6779.7678.89RF82.1480.00SVM93.4588.33MSCPLS-DA67.2670.0078.6578.89RF80.3678.33SVM37.5038.33二阶导数PLS-DA40.4838.3342.8637.78RF50.6036.67SVM95.2491.67MCPLS-DA89.0586.6790.0087.78RF85.7185.00SVM78.5775.00DTPLS-DA54.1750.0067.6666.11RF70.2473.33

对比分析显示,除二阶导数及DT预处理外其余5种预处理方法均有效提高了3种鉴别模型的平均准确率。MC预处理后构建的模型在训练集(90.00%)及测试集(87.78%)的平均准确率远高于其他预处理方法,故在MC处理下模型对西藏4个地区风干牦牛肉鉴别效果最优,其中MC-SVM模型在训练集和测试集准确率最高,分别为95.24%和91.67%。

2.4 特征波长选取

数据维度影响着数值计算复杂程度[40]。使用样本所有数据用于模型学习可获取更多信息和特征,但是高维度会增加模型计算复杂度的同时,使得模型鉴别耗时长和存储成本高。因此通过特征选择降低原始光谱维度,以进一步简化模型并提高模型鉴别效率。在特征选择过程中,分别采用了CARS、VISSA和BOSS方法选取MC预处理下样品光谱数据中的最佳特征波长,以实现对精简优化数据的同时充分保留关键信息,最终选取的特征波长数量及分布如表4及图3所示。

图3 不同方法选择的特征波长分布
Fig.3 Distribution of characteristic wavelengths selected by different methods

表4 不同方法提取特征波长数量
Table 4 Number of feature wavelengths extracted by different methods

特征提取方式特征波长数量CARS5VISSA66BOSS10

2.4.1 CARS特征波长的选取

CARS方法是特征波长变量选择最常见的方法之一[41],通过自适应加权抽样评估变量重要性,并结合递减函数来进行特征波长选择[42]。在CARS特征选择过程中,为确保特征提取的可靠性,设置蒙特卡罗采样次数为50并使用5折交叉验证。图4-a显示了CARS的变量选择过程,在采样初期0~20次时样品变量数目迅速减少,之后随着采样运行次数的增加变量数目缓慢减少[43];图4-b为交叉验证均方根误差值(cross-verify root-mean-square error values,RMSECV)的变化趋势图,采样次数为0~40次时RMSECV总体呈现曲折下降直至最小值,说明该过程消除了大冗余信息,而RMSECV在40次采样后增加,表明该过程中有利于区分不同产地风干牦牛肉的特征信息被删除[44];图4-c显示了当采样运行增加至蓝色标记位置时(第40次采样)RMSECV最小,表明此时所选择的波长组合最佳。经CARS处理共提取出5个特征波长,具体特征波长分布如图3所示。

a-变量选择过程;b-交叉验证均方根误差值变化趋势;c-RMSECV值变化趋势

图4 CARS 选取特征变量过程
Fig.4 CARS process of selecting feature variables

2.4.2 VISSA选取特征波长

VISSA方法通过变量空间收缩和子模型生成来选择特征波长以确定最佳变量集,其对于多源数据处理具有自适应性的优点[45]。如图5所示,选择过程中随着变量数量的增加,5折交叉验证的RMSECV呈现出先减小后增加的趋势。当变量数量较少时,RMSECV较高,表明这些变量不足以捕捉到不同产地风干牦牛肉的差异性。然而当变量数量过多时,额外的变量引入了干扰信息,导致RMSECV增加。在变量数达到66时,观察到RMSECV达到最小值,表明这是最优的特征波长数量[46]。经过VISSA处理共提取出66个特征波长,具体特征波长分布如图3所示。

图5 VISSA选取特征变量过程
Fig.5 VISSA process of selecting feature variables

2.4.3 BOSS选取特征波长

BOSS是一种新颖的特征选择方法[47],基于迭代加权自举采样和权重评估来选择最优的特征变量组合[48]。在迭代过程中,设置最大潜在变量数量为12并采用5折交叉验证。结果如图6所示,RMSECV呈现出先减小后增大的趋势,当子模型的RMSECV在第10次迭代时减少到最小值,即为该算法选择的最优波长变量组合。经过BOSS处理共提取出10个特征波长,特征波长分布具体如图3所示。

图6 BOSS选取特征变量过程
Fig.6 BOSS process of selecting feature variables

2.5 模型建立

在基于MC预处理的条件下,分别将通过CARS、VISSA和BOSS三种方法获取的特征波长变量集用于建立SVM、PLS-DA和RF模型,具体结果如表5所示。结果显示,MC-RF模型在训练集和测试集中的鉴别准确率在VISSA和BOSS方法下均得到提高,其最高至90.48%和86.67%。SVM模型虽然在VISSA方法处理下的训练集鉴别准确率为89.29%优于BOSS方法,但其训练集鉴别准确率低于BOSS方法。综合分析,BOSS方法筛选的波长更少并保证了91.67%高预测准确率,这说明BOSS方法有效保留了不同产地风干牦牛肉的关键特征相关波长,同时最大程度地去除了冗余信息,因此MC-BOSS-SVM的模型复杂程度低且具有更好的预测鉴别效果。

表5 不同方法提取特征波长数量
Table 5 Number of feature wavelengths extracted by different methods

特征提取方式模型训练集准确率/%测试集准确率/%SVM67.8670.00CARSPLS-DA50.6055.00RF76.2076.67SVM89.2985.00VISSAPLS-DA66.0768.33RF87.5086.67SVM88.1091.67BOSSPLS-DA57.7460.00RF90.4886.67

2.6 模型评价

为进一步评价BOSS-MC-SVM模型鉴别每个产地风干牦牛肉的能力,采用混淆矩阵进行评估。在分类问题中,混淆矩阵是一种用于直观呈现分类模型预测结果的工具,由mm列组成(m取决于样本类别总数),每一列代表模型的预测值,每一行则代表真实的类别[17],结果如图7所示。根据混淆矩阵及公式(2)和公式(3)计算可知,模型对于那曲产地的精确率和召回率最高分别为93.30%和100.00%;模型对山南和日喀则两地的精确率和召回率一致分别为93.30%和87.50%;模型对拉萨产地的精确率和召回率为86.70%和92.80%。综上所述,MC-BOSS-SVM模型建立的产地分类模型可以有效对风干牦牛肉产地进行鉴别且准确率好,这为后续风干牦牛肉光谱检测方法的开发提供了方法参考[49]

图7 MC-BOSS-SVM模型预测不同产地风干牦牛肉结果的混淆矩阵
Fig.7 Confusion matrix of MC-BOSS-SVM model predicting the results of air-dried yak meat from different origins

3 结论

本研究基于便携式近红外光谱建立了西藏风干牦牛肉鉴别模型。通过采集那曲、山南、日喀则、拉萨4个地区的风干牦牛肉近红外光谱,经马氏距离剔除异常光谱后,分别进行了移动平均平滑、Savitzky-Golay卷积平滑、标准整体变量变换、多元散射校正、二阶导数、均值中心化和去趋势校正7种预处理方法并建立了PLS-DA、SVM和RF 3种分类模型进行鉴别,结果表明MC-SVM模型分类效果最优,训练集和预测集的准确率分别为95.24%和91.67%。为进一步简化模型,将经MC预处理后的光谱数据分别采用CARS、VISSA、BOSS进行特征波长筛选并建立模型,结果表明MC-BOSS-SVM模型效果最佳,训练集和预测集准确率分别为88.10%和91.67%。本研究仅考虑了特定地区的风干牦牛肉样本,未对其他地区或不同季节的样本进行广泛采集和分析,因此未来研究可以扩大样本范围,增加样本多样性,以提高模型的普适性和适用性。总体而言,本研究为西藏风干牦牛肉的产地快速鉴别提供了理论依据。

参考文献

[1] 皮立, 张科, 曹俊虎, 等.基于多元统计分析的玉树牦牛肉挥发性成分的差异性比较[J].青海科技, 2023, 30(3):56-69.PI L, ZHANG K, CAO J H, et al.Comparison of volatile flavor components of Yushu yak based on multivariate statistical analysis[J].Qinghai Science and Technology, 2023, 30(3):56-69.

[2] CAO X K, CHENG J, HUANG Y Z, et al.Growth performance and meat quality evaluations in three-way cross cattle developed for the Tibetan Plateau and their molecular understanding by integrative omics analysis[J].Journal of Agricultural and Food Chemistry, 2019, 67(1):541-550.

[3] 张二豪, 落桑央吉, 高潭, 等.西藏传统风干牦牛肉中微生物群落组成及安全评价[J].食品与发酵工业, 2024, 50(8):182-188.ZHANF E H, LUOSANG Y J, GAO T, et al.Composition and safety evaluation of microbial community in Tibetan traditional air-dried yak meat[J].Food and Fermentation Industries, 2024, 50(8):182-188.

[4] 马国丽, 唐善虎, 李思宁, 等.藏式风干牦牛肉模拟加工过程中理化特性与挥发性风味物质的变化[J].食品工业科技, 2021, 42(2):19-25.MA G L, TANG S H, LI S N, et al.Changes of physicochemical properties and volatile flavor substances in Tibetan air-dried yak meat jerky during the simulated processing[J].Science and Technology of Food Industry, 2021, 42(2):19-25.

[5] JOSHI S, SHRESTHA L, BISHT N, et al.Ethnic and cultural diversity amongst yak herding communities in the Asian highlands[J].Sustainability, 2020, 12(3):957.

[6] 闫忠心, 靳义超, 李升升.青藏高原牧区风干牦牛肉的营养品质分析[J].青海畜牧兽医杂志, 2017, 47(1):20-23;8.YAN Z X, JIN Y C, LI S S.Analysis of nutritional quality of dry yak meat in Qinghai - Tibet Plateau[J].Chinese Qinghai Journal of Animal and Veterinary Sciences, 2017, 47(1):20-23;8.

[7] 杨媛丽, 沙坤, 孙宝忠, 等.不同养殖模式对牦牛背最长肌挥发性风味物质及脂肪酸组成的影响[J].肉类研究, 2020, 34(4):46-52.YANG Y L, SHA K, SUN B Z, et al.Effects of different feeding systems on volatile flavor and fatty acid composition of yak Longissimus dorsi[J].Meat Research, 2020, 34(4):46-52.

[8] BERGAMASCHI M, CIPOLAT-GOTET C, CECCHINATO A, et al.Chemometric authentication of farming systems of origin of food (milk and ripened cheese) using infrared spectra, fatty acid profiles, flavor fingerprints, and sensory descriptions[J].Food Chemistry, 2020, 305:125480.

[9] 田甲春, 余群力, 保善科, 等.不同地方类群牦牛肉营养成分分析[J].营养学报, 2011, 33(5):531-533.TIAN J C, YU Q L, BAO S K, et al.Analysis of the nutritional components of yak in different local groups[J].Acta Nutrimenta Sinica, 2011, 33(5):531-533.

[10] 张群英, 郝力壮, 刘书杰, 等.不同地区成年牦牛肉营养成分比较[J].食品工业科技, 2018, 39(1):302-307;317.ZHANG Q Y, HAO L Z, LIU S J, et al.Comparative research on nutritional content for adult yaks meat in different regions[J].Science and Technology of Food Industry, 2018, 39(1):302-307;317.

[11] 项洋, 郝力壮, 牛建章, 等.稳定性碳、氮、氢同位素在牦牛产地区分中的应用[J].食品科学, 2015, 36(12):191-195.XIANG Y, HAO L Z, NIU T Z, et al.Stable isotope distribution of carbon, nitrogen and hydrogen in yak meat from different regions[J].Food Science, 2015, 36(12):191-195.

[12] 项洋, 郝力壮, 柴沙驼.稳定性同位素及矿物元素指纹组合技术溯源不同产地牦牛肉研究[J].青海畜牧兽医杂志, 2021, 51(2):36-42.XIANG Y, HAO L Z, CHAI S T.Using stable isotope and mineral element fingerprint combination technology to trace yak meat from different origins[J].Chinese Qinghai Journal of Animal and Veterinary Sciences, 2021, 51(2):36-42.

[13] 项洋. 基于矿物质元素指纹特征的牦牛肉产地溯源研究[J].青海畜牧兽医杂志, 2022, 52(6):12-17;59.XIANG Y.Study on traceability of yak meat origin based on mineral element fingerprint characteristics[J].Chinese Qinghai Journal of Animal and Veterinary Sciences, 2022, 52(6):12-17;59.

[14] NIE J, SHAO S Z, XIA W, et al.Stable isotopes verify geographical origin of yak meat from Qinghai-Tibet plateau[J].Meat Science, 2020, 165:108113.

[15] HAO L Z, YANG X, HUANG Y Y, et al.Using mineral elements to authenticate the geographical origin of yak meat[J].Kafkas Universitesi Veteriner Fakultesi Dergisi, 2019, 25(1):93-98.

[16] XIANG Y, LI B, LIU Y C, et al.Bulk and fatty acid-specific stable isotope analysis coupled with multivariate modeling for differentiating free-range grass-fed and captive grain-fed yak meat[J].Journal of Food Composition and Analysis, 2023, 123:105536.

[17] ZHAO J, CHEN A L, YOU X Y, et al.A panel of SNP markers for meat traceability of Halal beef in the Chinese market[J].Food Control, 2018, 87:94-99.

[18] 孙淑敏, 郭波莉, 魏益民, 等. 近红外光谱指纹分析在羊肉产地溯源中的应用[J]. 光谱学与光谱分析, 2011, 31 (04): 937-941.SUN S M, GUO B L, WEI Y M, et al. Application of near infrared spectral fingerprint technique in lamb meat origin traceability[J]. Spectroscopy and Spectral Analysis, 2011, 31(4): 937-941.[19] ZHANG L Z, DAI H M, ZHANG J L, et al.A study on origin traceability of white tea (white peony) based on near-infrared spectroscopy and machine learning algorithms[J].Foods, 2023, 12(3):499.

[20] LIU Y, MA D H, WANG X C, et al.Prediction of chemical composition and geographical origin traceability of Chinese export Tilapia fillets products by near infrared reflectance spectroscopy[J].LWT-Food Science and Technology, 2015, 60(2):1214-1218.

[21] 张宁, 张德权, 李淑荣, 等.近红外光谱结合SIMCA法溯源羊肉产地的初步研究[J].农业工程学报, 2008, 24(12):309-312.ZHANG N, ZHANG D Q, LI S R, et al.Preliminary study on origin traceability of mutton by near infrared reflectance spectroscopy coupled with SIMCA method[J].Transactions of the Chinese Society of Agricultural Engineering, 2008, 24(12):309-312.

[22] PARASTAR H, VAN KOLLENBURG G, WEESEPOEL Y, et al.Integration of handheld NIR and machine learning to “Measure &Monitor” chicken meat authenticity[J].Food Control, 2020, 112:107149.

[23] GULLIFA G, BARONE L, PAPA E, et al.Portable NIR spectroscopy:The route to green analytical chemistry[J].Frontiers in Chemistry, 2023, 11:1214825.

[24] GUO W, LI X X, XIE T H.Method and system for nondestructive detection of freshness in Penaeus vannamei based on hyperspectral technology[J].Aquaculture, 2021, 538:736512.

[25] ZHOU H X, FU H J, WU X H, et al.Discrimination of tea varieties based on FTIR spectroscopy and an adaptive improved possibilistic c-means clustering[J].Journal of Food Processing and Preservation, 2020, 44(10):e14795.

[26] JIMÉNEZ-CARVELO A M, GONZLEZ-CASADO A, BAGUR-GONZLEZ M G, et al.Alternative data mining/machine learning methods for the analytical evaluation of food quality and authenticity-A review[J].Food Research International, 2019, 122:25-39.

[27] OLIVERI P, MALEGORI C, SIMONETTI R, et al.The impact of signal pre-processing on the final interpretation of analytical outcomes—A tutorial[J].Analytica Chimica Acta, 2019, 1058:9-17.

[28] ABBAS O, ZADRAVEC M, BAETEN V, et al.Analytical methods used for the authentication of food of animal origin[J].Food Chemistry, 2018, 246:6-17.

[29] 胡翼然, 李杰庆, 刘鸿高, 等.基于支持向量机对云南常见野生食用牛肝菌中红外光谱的种类鉴别[J].食品科学, 2021, 42(8):248-256.HU Y R, LI J Q, LIU H G, et al.Species identification of common wild edible bolete in Yunnan by Fourier transform mid-infrared spectroscopy coupled with support vector machine[J].Food Science, 2021, 42(8):248-256.

[30] FERNNDEZ-IBEZ V, FEARN T, MONTAÉS E, et al.Improving the discriminatory power of a near-infrared microscopy spectral library with a support vector machine classifier[J].Applied Spectroscopy, 2010, 64(1):66-72.

[31] 叶乐, 李茹, 郭军.基于脂肪酸指纹的胡麻油真实性判别模型的建立[J].食品科学技术学报, 2023, 41(6):139-149.YE L, LI R, GUO J.Establishment of authenticity discrimination model of flaxseed oil based on fatty acid fingerprint[J].Journal of Food Science and Technology, 2023, 41(6):139-149.

[32] JIMÉNEZ-CARVELO A M, MARTN-TORRES S, ORTEGA-GAVILN F, et al.PLS-DA vs sparse PLS-DA in food traceability.A case study:Authentication of avocado samples[J].Talanta, 2021, 224:121904.

[33] WENG S Z, GUO B Q, DU Y H, et al.Feasibility of authenticating mutton geographical origin and breed via hyperspectral imaging with effective variables of multiple features[J].Food Analytical Methods, 2021, 14(4):834-844.

[34] 刘子健, 顾佳盛, 周聪, 等.基于高光谱成像技术的山楂产地判别研究[J].食品工业科技, 2024, 45(10):282-291.LIU Z J, GU J S, ZHOU C, et al.Identification of geographical origin for hawthorn based on hyperspectral imaging technology[J].Science and Technology of Food Industry, 2024, 45(10):282-291.

[35] ZHANG L, SUN B Z, XIE P, et al.Using near infrared spectroscopy to predict the physical traits of Bos grunniens meat[J].LWT-Food Science and Technology, 2015, 64(2):602-608.

[36] MILLAR S J, MOSS B W, STEVENSON M H.Some observations on the absorption spectra of various myoglobin derivatives found in meat[J].Meat Science, 1996, 42(3):277-288.

[37] DING X Z, LONG R J, KREUZER M, et al.Methane emissions from yak (Bos grunniens) steers grazing or kept indoors and fed diets with varying forage: Concentrate ratio during the cold season on the Qinghai-Tibetan Plateau[J].Animal Feed Science and Technology, 2010, 162(3-4):91-98.

[38] YANG L, WU T, LIU Y, et al.Rapid identification of pork adulterated in the beef and mutton by infrared spectroscopy[J].Journal of Spectroscopy, 2018, 2018(1):2413874.

[39] LIU Y, SUN L J, RAN Z Y, et al.Prediction of talc content in wheat flour based on a near-infrared spectroscopy technique[J].Journal of Food Protection, 2019, 82(10):1655-1662.

[40] JIANG L J, MOULTON J D, WEI J.A hybrid HDMR for mixed multiscale finite element methods with application to flows in random porous media[J].Multiscale Modeling &Simulation, 2014, 12(1):119-151.

[41] REN D, ZHANG C, REN S, et al.An improved approach of CARS for Longjing tea detection based on near infrared spectra[J].International Journal of Robotics and Automation, 2018, 33(1):97-103.

[42] WANG Y Y, ZHANG Y, YUAN Y W, et al.Nutrient content prediction and geographical origin identification of red raspberry fruits by combining hyperspectral imaging with chemometrics[J].Frontiers in Nutrition, 2022, 9:980095.

[43] HAN J, GUO J X, ZHANG Z Z, et al.The rapid detection of trash content in seed cotton using near-infrared spectroscopy combined with characteristic wavelength selection[J].Agriculture, 2023, 13(10):1928.

[44] LI Q X, ZHOU W H, WANG Q H, et al.Research on online nondestructive detection technology of duck egg origin based on visible/near-infrared spectroscopy[J].Foods, 2023, 12(9):1900.

[45] REN G X, LIU Y, NING J M, et al.Assessing black tea quality based on visible-near infrared spectra and kernel-based methods[J].Journal of Food Composition and Analysis, 2021, 98:103810.

[46] LI Y T, SUN J, WU X H, et al.Grade identification of tieguanyin tea using fluorescence hyperspectra and different statistical algorithms[J].Journal of Food Science, 2019, 84(8):2234-2241.

[47] LI H Y, GUI X J, WANG P P, et al.Research on rapid quality identification method of Panax notoginseng powder based on artificial intelligence sensory technology and multi-source information fusion technology[J].Food Chemistry, 2024, 440:138210.

[48] WENG S Z, CHU Z J, WANG M Q, et al.Reflectance spectroscopy with operator difference for determination of behenic acid in edible vegetable oils by using convolutional neural network and polynomial correction[J].Food Chemistry, 2022, 367:130668.

[49] 张娜, 李震, 兰维杰, 等.基于可见光-近红外高光谱信息与数据融合的木质化鸡胸肉的判别模型构建[J].食品工业科技, 2024, 45(7):286-293.ZHANG N, LI Z, LAN W J, et al.Development of discriminant models for wooden breast based on visible and near infrared hyperspectral information and their fused data [J].Science and Technology of Food Industry, 2024, 45(7):286-293.

Place of origin identification for air-dried yak meat from Tibet based on portable near-infrared spectroscopy

HAN Yuanxi, HU Yun, ZHANG Erhao, LIU Zhendong*, LI Liang*, LUO Zhang

(Food Science College, Tibet Agriculture &Animal Husbandry University;R &D Center of Agricultural Products with Tibetan Plateau Characteristics;The Provincial and Ministerial Co-founded Collaborative Innovation Center for R&D in Tibet Characteristic Agricultural and Animal Husbandry Resources, Nyingchi 860000, China)

ABSTRACT Place of origin is one important factor affecting the quality of yak meat.To quickly identify the place of origin of air-dried yak meat from Tibet, this study utilized a portable near-infrared spectrometer to trace the origin of air-dried yak meat samples from different Tibet regions.A total of 240 air-dried yak meat samples from 4 Tibet regions were collected, which were randomly assigned into the training set and the test set at a ratio of 3∶1.Initially, abnormal near-infrared spectra were eliminated by Mahalanobis distance, and 3 classification models, namely partial least-squares discrimination analysis, support vector machine (SVM), and random forest, were created separately using 7 pre-processing methods, including Smooth, Savitzky-Golay, standard normal variate, multiplicative scatter correction, second derivative, mean centralization (MC), and de-trend.Results showed that the MC-SVM model had the optimal classification effect, with the accuracies on the training and prediction sets being 95.24% and 91.67%, respectively.To further simplify the model, methods like competitive adaptive reweighted sampling, variable iterative space shrinkage approach, and bootstrapping soft shrinkage (BOSS) were adopted for feature wavelength screening.Through multivariate data analysis, the MC-BOSS-SVM model was found to display the best effect, with the accuracies on the training and prediction sets being 88.10% and 91.67%, respectively.This study offers a theoretical basis for rapid and non-destructive identification of the place of origin for air-dried yak meat from Tibet.

Key words portable near-infrared spectroscopy;Tibetan air-dried yak meat;place of origin identification;machine learning;modelling

DOI:10.13995/j.cnki.11-1802/ts.040024

引用格式:韩沅汐,胡云,张二豪,等.基于便携式近红外光谱的西藏风干牦牛肉产地鉴别研究[J].食品与发酵工业,2025,51(10):336-343.HAN Yuanxi, HU Yun, ZHANG Erhao, et al.Place of origin identification for air-dried yak meat from Tibet based on portable near-infrared spectroscopy[J].Food and Fermentation Industries,2025,51(10):336-343.

第一作者:硕士研究生(李梁副教授和刘振东副教授为共同通信作者,E-mail:jwllok@sina.com;liu304418091@126.com)

基金项目:西藏农牧学院研究生教育创新计划项目(YJS2023-05);西藏自治区中央引导地方项目(XZ202202YD0004C);西藏农牧学院研究生教学改革建设项目(YJSJG2023-015);西藏自治区现代农业产业技术体系(XZARS-MN-2024-01)

收稿日期:2024-05-28,改回日期:2024-08-12