由于新疆南疆绵羊生长于独特的气候、土壤、水源等环境,其羊肉具有膻味较轻、脂肪与胆固醇含量较低等优点,深受各族人民群众的喜爱,是老百姓餐桌上不可或缺的健康养生美食,供不应求。在羊肉的加工、贮存过程中,水分含量直接影响其口感,因此,对羊肉含水量的检测具有十分重要的意义。
传统的实验室测定肉类水分的方法费时费力,且具有破坏性,较难实现大批量的快速检测。近红外光谱分析技术以其速度快、成本低和易于实现等特点,广泛用于肉制品的检测,有对肉制品掺假的检测[1-2]、产地鉴别[3]、品种的识别[4]、嫩度的检测[5]、新鲜度的检测[6]、肌红蛋白含量的研究[7]、pH值和颜色检测[8]、水分含量[9]的预测等。陈杰等[10]采用不同的预处理方法对羊肉水分含量建立了偏最小二乘回归偏最小二乘回归(partial least squares, PLS)模型进行检测,但是水分含量的测量范围偏窄。张立欣等[11]建立了羊肉含水量的极限学习机极限学习机(extreme learning machine, ELM)预测模型,运算速度比较快,但是没有将光谱预处理方法和变量选择方法结合起来考虑。
在近红外光谱应用中,为消除噪音的干扰,需要对光谱数据进行预处理[12],常用方法有一阶导数(first derivative,1-DER)[13]、标准正态变换(standard normal transformation,SNV)[14]、多元散射校正(multivariate scatter correction,MSC)[15]、SG平滑变换(Savizkg Golag smooth transformation,SG)[16]、小波变换(wave transformation,WT)[17]等。由于全波段光谱中不可避免地含有大量无信息甚至是干扰信息,影响模型的预测性能,因此,建模时需要选取特征波长变量[18],特征变量的选取方法有主成分分析(principal component analysis, PCA)[19]、连续投影算法(successive projection algorithm, SPA)[20]、竞争自适应重加权算法(competitive adaptive reweighted sampling, CARS)[21]等。在模型建立方面,有PLS[10]、支持向量机回归(support vector regression, SVR)[22]、BP神经网络(back propagation neural network)[23],ELM[24]等。
不同的研究对象在结构、成分含量上的差异,导致光谱响应和敏感波段也不尽相同。神经网络建立模型时,参数的随机赋值,也会影响模型的稳健性。因此,本文在总结前人研究的基础上,基于近红外光谱技术和参数优化的SVR算法,以新疆阿拉尔的绵羊肉为研究对象,依据光谱数据和水分含量的实测数据,建立水分含量的最佳预测模型,为研制羊肉水分含量的无损检测装置提供理论参考。
选用新疆阿拉尔市九团10月龄左右的绵羊,新宰杀后取后腿肉。剔除筋和膜,分割修整成6 cm×6 cm×4 cm规格的样品,编号分装入食品保鲜袋,放置于冰箱进行冷藏(4 ℃)。实验前逐次拿出,待其恢复到室温后开始实验。
使用北京凯元盛世公司的JDSU-MicroNIR 1700便携式近红外光谱仪(900~1 700 nm),在室温20~25 ℃环境下进行实验,样品与光谱仪镜头保持2 mm的距离,对准中心位置,每个样品间隔5 s扫描3次,取平均值作为样品的光谱数值,通过自带Micro NIR软件导出为 Excel数据。
羊肉忠水分含量的测定采用国标法GB/5009.3—2016《食品安全国家标准 食品水分的测定》标准中第一法直接干燥法进行测定,每块样品测3次,取其平均值作为水分含量值。
1.2.1 光谱数据的预处理
在光谱检测的过程中,会受到样品背景等随机因素的影响,导致光谱数据中含有噪声,为提高模型的准确性和稳健性,需要对数据进行预处理。本文中的采用的光谱数据预处理的方法有1-DER、SNV、MSC、WT、SG、傅里叶变换(Fourier transformation,FT)。
1.2.2 特征波长的提取
光谱能够体现物质所含成分及含量,但同时包含大量的冗余信息,为降低模型的复杂性,需要提取特征波长。本文采取的方法有SPA和CARS。
1.2.3 建模方法
PLS法集主成分分析、典型相关分析和多元线性回归分析3种分析方法的优点于一身,可以避免数据非正态分布、因子结构不确定性和模型不能识别等潜在问题。并且能较好地解决样本个数少于变量个数等问题,特别当各变量内部高度线性相关时,用PLS法更有效。
SVR法是基于支持向量基的函数逼近回归问题的学习方法,可用于小样本问题的学习,计算速度快,预测能力强。
1.2.4 模型验证
SPXY(sample set partitioning based on joint X-Y distance)算法在划分训练集和测试集时,将自变量和因变量间的距离同时考虑在内,使样本更加均匀。按照SPXY算法划分训练集和测试集,以测试集的均方误差(mean square error, MSE)、拟合优度(goodness of fit, R2)作为标准来评判模型的优劣,计算如公式(1)和公式(2)所示:
(1)
(2)
式中:n为样本个数,yi为第i个样本的观测值,为第i个样本的预测值,为平均值。
所分割的每份羊肉样品在 900~1 700 nm的波段范围内原始光谱如图1所示。
图1 原始光谱图
Fig.1 Original spectrum
近红外光主要是对含氢基团X—H(XC、N、O)振动的倍频和合频吸收。由图1可以看出,950 nm波段附近处有1个明显的峰,这是O—H基团的3倍频吸收带,1 060 nm波段处的峰是N—H基团的3倍频带,1 180 nm处的波谷位于C—H的3倍频带等。如果样品的组成相同,则其光谱也相同,反之亦然。因此,可以建立光谱与水分含量的关联模型,依据测得的光谱数据,就能很快预测其水分含量。同时考虑光谱特征和水分含量指标,按照SPXY算法,将训练集和测试集以4∶1的比例划分,划分结果如表1所示。
表1 训练集和测试集
Table 1 Training set and test set
来源样本数最大值/%最小值/%平均值/%标准差/%训练集20481.100 563.167 372.809 82.595 5测试集5176.791 568.575 773.734 72.073 8
由表1可以看出,最大值和最小值都出现在训练集中,因此,数据的划分是合理的。
在近红外光谱应用时,经常会受到背景等随机因素的干扰,因此需对光谱数据作预处理。分别采用1-DER、SNV、MSC、WT、SG、FT 6种方法对光谱数据预处理,对原始光谱数据(ORI)和预处理之后的光谱数据,分别采用PLS算法、SVR算法建立水分含量的预测模型。PLS算法建模时,以交叉验证的均方误差最小确定潜变量个数,SVR算法建模时,惩罚参数c和核函数参数g采用网格法在{2^(-10),2^(-8),...2^(10)}范围内选取,结果如下表2所示。
表2 不同预处理下的建模效果
Table 2 Modeling effects under different pretreatment
模型预处理训练集测试集均方误差拟合优度均方误差拟合优度ORI0.603 80.914 3 5.894 30.137 2 1-DER0.741 30.890 4 5.622 10.306 6 SNV0.875 40.869 4 2.924 80.448 2 PLSMSC0.839 10.877 6 3.460 60.364 6 MT5.353 50.474 4 4.559 6 0.419 3 SG0.603 80.914 3 5.894 30.137 2 FT0.603 80.914 3 5.894 30.137 2ORI3.328 80.537 6 2.011 70.375 5 1-DER2.460 20.736 2 1.874 90.672 7SNV2.108 10.817 9 2.565 00.430 9 SVRMSC2.466 00.822 8 2.275 10.475 8 MT2.485 90.650 4 2.287 60.340 7SG2.479 60.651 2 2.230 60.353 4 FT2.944 30.586 0 2.110 80.350 0
以测试集的MSE、相关系数为评价指标,可以看出,采用PLS算法建模,比较而言,SNV预处理的效果较好,训练集的MSE为0.875 4,R2为0.869 4,测试集的为2.924 8和0.448 2,存在过拟合。采用SVR算法建模,1-DER预处理的效果较好,测试集的MSE为1.874 9,R2为0.672 7。为提高模型的预测效果,以下均采用1-DER和SNV预处理后的光谱数据。
光谱能够体现所含物质的成分及含量,但也包含大量的冗余信息,为提高模型稳健性,需要选取特征波段建模。分别采用SPA算法、CARS算法选取特征波段。
采用SPA算法,以1-DER预处理之后的光谱数据为例,特征波段的选取过程如图2所示。
图2 变量的选取过程
Fig.2 Variable selection process
由图2可以看出,随着参与建模的变量数目的增加,均方根误差(root mean square error,RMSE)整体呈现衰减的趋势,当变量数为13时,均方根误差达到最小值1.328,之后随着所选变量个数的增加,均方根误差并无减少的趋势,因此,选取13个波长变量,选取的波长变量如图3所示,图中小方块对应的横坐标为所选取的波长,即:908.10、932.88、945.27、951.47、970.05、976.24、988.63、1 001.02、1 007.21、1 013.40、1 019.60、1 180.65、1 242.60 nm。
图3 选取的变量
Fig.3 Selected variables
采用CARS算法进行变量选择,以标准正态变换预处理之后的光谱数据为例,变量的选取过程如图4所示。
a-变量优化过程;b-RMSE变化趋势;c-回归系数变化
图4 CARS 选取变量结果
Fig.4 Variable selection results
由图4可以看出,在第18次迭代时,交叉验证的RMSE达到最小为1.573 1,此时选出的变量对应的波长为:932.88、939.08、945.27、982.44、988.63、994.82、1 001.02、1 013.40、1 038.19、1 044.38、1 081.54、1 093.93、1 124.90、1 143.49、1 162.07、1 168.27、1 186.85、1 354.09、1 366.48、1 378.87、1 385.07、1 391.26、1 416.04、1 447.01、1 453.20、1 471.79、1 521.35、1 539.93、1 552.31、1 589.48 nm。
基于预处理之后选出的特征变量作为输入量,建立PLS模型和SVR模型,对羊肉中的水分含量进行预测,结果如表3所示。
表3 不同预处理方法下不同的波长选择方法的建模效果
Table 3 Modeling effects of different wavelength selection methods under different pretreatment methods
模型预处理变量选择训练集测试集MSER2MSER21-DERSPA3.784 60.440 61.746 30.662 4PLSCARS1.449 10.785 92.882 50.532 2SNVSPA3.873 60.422 21.867 40.586 0CARS1.889 70.718 11.978 70.629 31-DERSPA3.635 00.478 12.050 90.609 3SVRCARS1.222 90.872 51.461 60.718 3SNVSPA3.137 40.759 33.350 70.377 9CARS2.428 90.706 32.244 00.504 8
由表3可以看出,1-DER-CARS-SVR模型的预测性能最佳,预测的MSE为1.461 6,R2为0.718 3。优于PLS模型的,这是因为羊肉内部成分结构复杂,除了线性结构外,还存在其他非线性结构。
SVR做预测时,需要设置惩罚参数c和核函数参数g。一阶导数预处理后数据,采用CARS方法选出特征变量建模,若随机生成[0,1]范围内的参数c和g,并利用这些参数训练SVR模型,最后进行预测,10次运行的结果如表4所示。
表4 随机选取参数的建模结果
Table 4 Modeling results of randomly selected parameters
序号参数c参数g训练集测试集MSER2MSER210.800 00.080 00.439 50.943 4 1.221 30.739 3 20.268 40.112 71.260 40.868 1 1.468 70.716 7 30.008 20.020 06.555 00.363 1 4.528 10.321 3 40.054 30.119 04.048 00.673 1 2.887 60.618 9 50.268 40.112 71.222 90.872 5 1.461 60.718 3 60.543 60.017 22.601 60.665 5 1.996 10.581 7 70.800 30.141 90.146 20.981 7 1.277 70.725 4 80.993 60.076 90.343 50.912 4 1.236 90.737 2 90.675 90.012 82.695 40.422 1 2.051 50.567 6 100.627 30.021 62.152 10.719 8 1.710 40.634 6
由表4可以看出,随机选取的参数无法保证最后测试集的拟合效果。在实际操作中,可以先在大范围内粗略寻找参数c和g,让c和g的取值变化都为2^(-10),2^(-8),...2^(10),计算对应参数的5折交叉验证的均方根误差,均方误差的等高线如图5所示。等高线表示c和g取相应值时,对应的5折交叉验证的的MSE,3D视图效果如图6所示。
图5 参数选择的等高线图
Fig.5 Contour map with parameters selection
图6 3D视图
Fig.6 3D view
由图5和图6可以看出,在保证均方误差最小的情况下,c的范围可缩小到[2^(-5),2^(5)],g的范围可缩小到[2^(-10),2^(3)],这样在上面粗略参数选择的基础上进行精细的参数选择,逐步缩小参数c和参数g的搜索范围,对参数进行精选。最后确定参数c和参数g的取值范围分别为[2^(-1.5),2^0]和[2^(-5),2^(-3)],在此精细的参数范围内确定最佳的参数c和参数g的值,此时,1-DER-CARS-SVR模型的拟合效果如表5所示。
表5 1-DER-CARS-SVR的拟合效果
Table 5 Fitting effect of 1-DER-CARS-SVR
参数c参数g训练集测试集MSER2MSER20.701 10.088 40.445 10.943 0 1.216 20.739 5
(1)将羊肉近红外光谱数据分别进行1-DER、SNV、MSC、WT、SG、FT 6种预处理方法,采用PLS算法和SVR算法建立预测模型。结果表明,SNV和1-DER 预处理方法分别让2种预测模型达到最优。
(2)分别采用SPA算法、CARS算法选取特征波段,建立PLS和SVR模型。最佳预测模型为1-DER-CARS-SVR模型,预测的MSE为1.461 6,R2为0.672 7,优于PLS模型。
(3)SVR算法进行建模时,惩罚参数c和核函数参数g的可以在大范围内粗选,借助于等高线图和3D视图,逐步缩小参数的取值范围,再进行精选,最终选出最佳参数c为0.701 1,g为0.088 4,此时1-DER-CARS-SVR模型预测的MSE为1.216 2,R2为0.739 5,优于随机选取参数的预测效果。
本文研究了1种预处理方法、1种变量选择方法下不同建模方法的预测效果,后续研究中可以进一步将多种预处理联合用于原始光谱数据预处理,多种变量选择方法相结合采用不同的算法建立模型,比较分析模型的预测效果。
[1] 白京,李家鹏,邹昊,等.近红外特征光谱定量检测羊肉卷中猪肉掺假比例[J].食品科学,2019,40(2):287-292.
BAI J, LI J P, ZOU H, et al.Quantitative detection of pork in adulterated mutton rolls based on near infrared spectroscopy[J].Food Science,2019,40(2):287-292.
[2] MABOOD F, BOQUÉ R, ALKINDI A Y, et al.Fast detection and quantification of pork meat in other meats by reflectance FT-NIR spectroscopy and multivariate analysis[J].Meat Science, 2020, 163:108084.
[3] 王靖,丁佳兴,郭中华,等.基于近红外高光谱成像技术的宁夏羊肉产地鉴别[J].食品工业科技,2018,39(2):250-254;260.
WANG J, DING J X, GUO Z H, et al.Identification of geographical origins of mutton in Ningxia based on the near infrared hyperspectral imaging technique[J].Science and Technology of Food Industry,2018,39(2):250-254;260.
[4] 王彩霞, 何智武, 吴龙国, 等.高光谱技术结合特征波长筛选的牛肉品种多波段识别[J].发光学报,2019,40(4):520-527.
WANG C X, HE Z W, WU L G, et al.Multi-bands recognition of beef breeds with hyperspectral technology combined with characteristic wavelengths selection methods[J].Chinese Journal of Luminescence, 2019,40(4):520-527.
[5] 刘贵珊,张翀, 樊奈昀, 等.IVISSA算法冷鲜滩羊肉嫩度的高光谱模型优化[J].光谱学与光谱分析,2020,40(8):2 558-2 563.
LIU G S, ZHANG C, FAN N Y, et al.Hyperspectral model optimization for tenderness of chilled tan-sheep mutton based on IVISSA[J].Spectroscopy and Spectral Analysis, 2020, 40(8):2 558-2 563.
[6] YU H D, ZUO S M,XIA G H, et al.Rapid and nondestructive freshness determination of Tilapia fillets by a portable near-infrared spectrometer combined with chemometrics methods[J].Food Analytical Methods,2020,13(10):1 918-1 928.
[7] CHENG L J, LIU G S, HE J G, et al.Non-destructive assessment of the myoglobin content of Tan sheep using hyperspectral imaging[J].Meat Science,2020,167:107988.
[8] 邱园园,朱荣光,黄昆鹏,等.真空包装冷却羊肉pH值和颜色的近红外快速无损检测[J].新疆农业科学,2017,54(11):2 092-2 099.
QIU Y Y, ZHU R G, HUANG K P, et al.Rapid and nondestructive detection of the pH valueand and Luminosity for vacuum packed chilled mutton by using near infrared reflectance spectroscopy technique[J].Xinjiang Agricultural Sciences,2017,54(11):2 092-2 099.
[9] 袁凯,张志勇,席前,等.3步混合变量选择策略在鸡肉近红外水分检测中的应用[J].食品与机械,2020,36(9):72-76;81.
YUAN K, ZHANG Z Y, XI Q, et al.Research on the application of three-step hybrid variable selection strategy in chicken moisture detection by near infrared[J].Food & Machinery, 2020,36(9):72-76;81.
[10] 陈杰,姚娜,吕海芳,张晓.近红外光谱在小尾寒羊羊肉水分预测中的应用[J].食品科技,2021,46(1):134-138.
CHEN J, YAO N, LYU H F, et al.Application of near infrared spectroscopy in water prediction of small-tail han sheep[J].Food Science and Technology,2021,46(1):134-138.
[11] 张立欣,李文华,王顺,等.基于ELM算法的羊肉水分含量的快速无损检测[J].数学的实践与认识,2020,50(8):94-102.
ZHANG L X, LI W H, WANG S, et al.Fast non-destructive detection of moisture content in mutton based on ELM algorithm[J].Mathematics in Practice and Theory, 2020,50(8):94-102.
[12] 第五鹏瑶,卞希慧,王姿方,等.光谱预处理方法选择研究[J].光谱学与光谱分析,2019,39(9):2 800-2 806.
DIWU P Y, BIAN X G, WANG Z F, et al.Study on the selection of spectral preprocessing methods[J].Spectroscopy and Spectral Analysis, 2019,39(9):2 800-2 806.
[13] 杨倩圆,谢定,郑瑞娜,等.淀粉液化液葡萄糖当量值的近红外快速检测[J].食品工业科技,2019,40(9):248-252.
YANG Q Y, XIE D, ZHENG R N, et al.Fast detection of starch liquefying solution′s dextrose equivalent value by near infrared spectroscopy[J].Science and Technology of Food Industry,2019,40(9):248-252.
[14] FENG C H, MAKINO Y.Colour analysis in sausages stuffed in modified casings with different storage days using hyperspectral imaging—A feasibility study[J].Food Control, 2020, 111:107047.
[15] PANG L, WANG J H, MEN S, et al.Hyperspectral imaging coupled with multivariate methods for seed vitality estimation and forecast for Quercus variabilis[J].Spectrochimica Acta Part A Molecular and Biomolecular Spectroscopy, 2021, 245:118888.
[16] 吴鹏,宋海燕,杨威,等..基于近红外光谱的鸡蛋产地溯源[J].食品工业科技,2020,41(22):227-231.
WU P, SONG H Y, YANG W, et al.The origin of eggs based on near infrared spectroscopy[J].Science and Technology of Food Industry,2020,41(22):227-231.
[17] 王亚轩,谭峰,辛元明,等.大米拉曼光谱不同预处理方法的相近产地鉴别研究[J].光谱学与光谱分析,2021,41(2):565-571.
WANG Y X, TAN F,XIN Y M, et al.Identification of rice from similar areas with different pretreatment methods of Raman spectrum[J].Spectrocopy and Spectral Analysis,2021,41(2):565-571.
[18] 宋相中,唐果,张录达,等.近红外光谱分析中的变量选择算法研究进展[J].光谱学与光谱分析,2017,37(4):1 048-1 052.
SONG X Z, TANG G, ZHANG L D, et al.Research advance of variable selection algorithms in near infrared spectroscopy analysis[J].Spectrocopy and Spectral Analysis,2017,37(4):1 048-1 052.
[19] 曹晓兰,邓梦洁,崔国贤.高光谱结合主成分分析的苎麻品种识别[J].光谱学与光谱分析,2019,39(6):1 905-1 908.
CAO X L, DENG M J, CUI G X.Identifying ramie variety by combining the hyperspectral technology with the principal component analysis[J].Spectrocopy and Spectral Analysis,2019,39(6):1 905-1 908.
[20] CHEN S M, HU T T, LUO L H, et al.Rapid estimation of leaf nitrogen content in apple-trees based on canopy hyperspectral reflectance using multivariate methods[J].Infrared Physics & Technology, 2020, 111:103542.
[21] ZHANG D Y, YANG Y, CHEN G, et al.Nondestructive evaluation of soluble solids content in tomato with different stage by using Vis/NIR technology and multivariate algorithms[J].Spectrochimica Acta Part A Molecular and Biomolecular Spectroscopy, 2021, 248:119139.
[22] 段宇飞,王巧华.基于特征选择与特征提取融合的鸡蛋新鲜度光谱快速检测模型优化[J].食品科学,2020,41(12):273-278.
DUAN Y F, WANG Q H.Optimization of a predictive model for rapid detection of egg freshness using visible near-infrared spectra based on combination of feature selection and feature extraction[J].Food Science,2020,41(12):273-278.
[23] 刘秀英,余俊茹,王世华.光谱特征变量和BP神经网络构建油用牡丹种子含水率估算模型[J].农业工程学报,2020,36(22):308-315.
LIU X Y, YU J R, WANG S H.Estimation of moisture content in peony seed oil using spectral characteristic variables and BP neural network[J].Transactions of the Chinese Society of Agricultural Engineering, 2020,36(22):308-315.
[24] FANG Y M, YANG F, ZHOU Z, et al.Hyperspectral wavelength selection and integration for bruise detection of Korla pears[J].Journal of Spectroscopy,2019, 2019:6715247.