红缨子糯高粱(glutinous sorghum cultivar “Hongyingzi”)因具淀粉含量高与耐蒸煮特性,与酱香型白酒多轮次反复蒸煮的酿造工艺高度适配,从而成为酱香型白酒的核心酿酒原料[1]。近年来,随着酱香型白酒市场需求的持续增长,对红缨子糯高粱需求量显著提升,严格把控其质量对于保障酱香型白酒品质尤为关键。其中,水分和淀粉含量是评价红缨子糯高粱品质的2个关键指标。目前,实验室主要采用105 ℃恒重法和酸解法分别测定水分和淀粉含量,这些方法不仅耗时费力,而且需要使用多种具有潜在危害的化学试剂,难以满足现代企业对环保、高效检测的需求。因此,开发一种绿色、快速、无损的检测方法已成为行业亟需解决的问题。
近红外光谱技术(near-infrared spectroscopy,NIRS)作为一种快速分析手段,已在白酒行业的酒醅、大曲检测中得到广泛应用[2-4],但在酿酒原料检测方面的研究主要针对常规酿酒用高粱,如余松柏等[5]建立了基于近红外光谱的酒用高粱主要理化指标快速无损分析模型;苏鹏飞等[6-7]开发了高粱水分和淀粉含量的近红外快速检测方法;张北举等[8]构建了高粱籽粒中直链淀粉和支链淀粉的近红外快速检测模型。然而,对于酱香型白酒专用红缨子糯高粱的快速检测模型研究仍鲜见报道。基于前期预实验发现,现有常规酒用高粱快速检测模型无法准确预测红缨子糯高粱的理化指标,因此开发专用检测模型十分必要。
近红外光谱技术具备多种显著优势,包括其快速性、简便性、无损性、无污染性以及无需复杂前处理等特点。根据美国试验和材料协会(American Society for Testing and Materials,ASTM)的界定,近红外光(near infrared,NIR)的波长位于780~2 526 nm,是介于可见光波段和中红外波段的电磁波[9]。样品经近红外光谱分析仪扫描后,其光谱特征主要来源于分子中含氢基团(如C—H、N—H、O—H等)的振动吸收。这些基团在分子内部的倍频振动和合频振动,会在特定波长处产生特征吸收峰,最终形成样品的特征光谱图谱[10],可反映物质的各项理化特性。通过综合分析得到的光谱图,可以建立针对特定理化指标的定量分析模型,从而实现对物质特性的精准评估。
基于此,本研究以贵州特产红缨子糯高粱为研究对象,采用近红外光谱技术采集样品光谱信息,同时采用传统理化检测方法测定水分和淀粉含量。然后使用箱线图四分位距(interquartile range,IQR)剔除异常手工理化检测值、使用主成分分析(principal component analysis,PCA)和Hotelling T2检验检查并剔除异常光谱数据,使用SPXY(sample set partitioning based on joint X-Y distances)算法划分样本校正集与验证集。在上述模型优化步骤基础上,通过改进改进偏最小二乘法(partial least squares,PLS)定标算法,最终构建了红缨子糯高粱水分和淀粉含量的快速预测模型。经优化后,该模型预测准确,该方法具有检测快速、无需化学试剂、成本低廉等优势,为红缨子糯高粱的品质监控提供了可靠的技术支持,本研究有助于形成红缨子糯高粱标准化检测流程、规范企业管理及促进企业绿色可持续发展,提升质量控制水平。
本实验所用高粱样品为某酱香型白酒酿造企业所用酿酒原料,为当地红缨子糯高粱,在生产过程中,选取不同批次、不同班组的876个红缨子糯高粱样品用于建模。
DS 2500 F近红外光谱仪、NIRS DS2500F光谱采集软件、Mosaic (NIRS DS2500 F) 光谱分析软件、WINISI 4光谱模型处理软件,丹麦FOSS公司;Minitab 软件(Minitab 19),Minitab公司;Python软件(python-3.13.3),Python软件基金会;SPS202F分析天平,梅特勒-托利多(常州)测量技术有限公司;HH系列数显恒温水浴锅,江苏科析仪器有限公司;DK-98-II电子调温万用电炉、FZ102微型植物粉碎机,天津市泰斯特仪器有限公司。
1.3.1 高粱样品水分、淀粉含量的测定
高粱样品的水分含量测定采用105 ℃恒重法[11],淀粉含量测定参考GB 5009.9—2016《食品安全国家标准 食品中淀粉的测定》。
1.3.2 高粱样品近红外光谱采集
统一装样方式,将高粱样品充分混匀,平铺于干净的样品杯中,装样量约占样品杯2/3,检查杯底无杂质后压实,确保无漏光或大空隙,然后将样品杯置于近红外光谱仪测量池中进行测量,使用光谱采集软件采集样品光谱信息。光谱波长为850~2 450 nm,分辨率为2 nm,每次扫描选取8个点取光谱平均值,重复扫描2次,以提高测量的稳定性和准确性。
1.3.3 样本检查与分组
使用Minitab软件,采用箱线图检查手工理化值数据,剔除掉Q1-1.5IQR-Q3+1.5IQR之外的样本点[12];然后使用Python 3.13.3软件,采用PCA结合Hotelling T2检验检查光谱数据,剔除99.9%置信区间之外的样本点[13],并将剩余样本点用SPXY算法按4∶1划分为校正集与验证集[14]。
使用近红外光谱仪按照1.3.1节所述方法采集样品光谱后,用光谱分析软件导出样品光谱信息,并使用光谱模型处理软件将光谱信息与采用1.3.2节所述方法测得的样品手工理化检测值一一匹配,即对这些光谱信息进行赋值。随后,结合PCA和改进PLS[15],利用一阶导数、二阶导数、标准正态变量校正(standard normal variable correction,SNV)与去趋势化(Detrend)、内部交互验证法(cross validation)等近红外光谱预处理方法,确定最优建模参数,建立高粱水分、淀粉的定量分析模型。
完成初步建模后,通过常规评价指标对模型的质量进行评价,其评价标准见表1。同时,选取30份未参与建模的样品对模型进行准确性盲样验证、6份样品进行重复性盲样验证,即利用所建模型对其进行预测分析,并通过预测结果的分析比较来评价模型的预测能力[16]。
表1 模型质量评价参数及标准
Table 1 Parameters and standards for model quality evaluation
模型评价指标评价标准相关系数(R-squared,RSQ)越接近1越好交互验证相关系数(1 minus the variance ratio, 1-VR)越接近1越好校正标准偏差(square error of cali-bration,SEC)越小越好,且SEC与预测标准偏差两者相差不多且越接近于0越好交互验证的校正标准偏差(stand-ard error of cross validation,SECV)越小越好,且同一模型的SECV与SEC两者相差不多
异常样本(outliers,也称界外样本、奇异点或异常点等)会对近红外模型产生很大的影响,不仅会误导近红外光谱变量的选择,而且这些异常点还会给模型的参数估计产生偏离影响,影响模型的预测准确性与稳健性。在近红外模型的实际构建过程中,有很多情况会产生异常样本,大体上分为理化值的异常与近红外光谱的异常[17-19]。
2.1.1 理化值异常点检查
对水分、淀粉理化值进行箱线图(boxplot)分析,结果见图1。定义异常值为超出箱线图上下须(Q1-1.5IQR或Q3+1.5IQR)的样本,对其进行剔除,其中水分须触线区间为9.63~11.33,淀粉触线区间为61.7~69.89,共剔除20个异常样本点。
a-水分箱线图分析;b-淀粉箱线图分析
图1 理化值异常点箱线图分析
Fig.1 Box plot analysis of abnormal points in physical and chemical values
2.1.2 光谱异常点检查
本研究在850~249 8 nm波长对样品进行近红外光谱扫描,在建模之前,对全部样品的近红外光谱数据建立PCA模型(图2),采用Hotelling T2检验检查光谱数据,剔除99.9%置信区间之外的样本点,即共计剔除掉41个异常样本点。
图2 高粱近红外PCA得分图
Fig.2 Near-infrared PCA score map of sorghum
2.1.3 分组
对剔除异常点后的样品光谱数据以SPXY算法按4∶1分组,校正集652个,验证集163个(表2)。
表2 样品分组信息
Table 2 Sample grouping information
指标样本组最小值/%最大值/%平均值/%标准差水分校正集9.6112.0110.510.61验证集9.6211.0410.481.68淀粉校正集60.8768.8365.913.57验证集61.8368.3565.823.44
近红外光谱图能够较好地反映高粱样品中相关化合物的近红外信号组成,在对样品进行分组后,对样品光谱进行预处理。预处理前样品的光谱图如图3所示,可知样品光谱图曲线趋势大体一致,呈现类似的光谱轮廓,表明样品具有聚类性;同时,样品曲线吸收峰高低不同,表明样品存在个体差异性,原因可能是样品内部有机化学成分含量不同[20]。从图中可以看到,在波长850~1 100 nm时,高粱样品吸光度较低且噪音干扰较大,不利于样品有效信息的提取,不宜选择此波段建立模型。一方面,不同组分的特征吸收峰出现重叠且信号强度较弱,直接影响定量结果的准确性;另一方面,测量过程中不可避免会引入随机噪声和基线漂移等干扰因素。这些因素导致从原始光谱中提取有效信息变得困难。因此,必须通过科学的光谱预处理手段消除干扰、增强特征信号,才能为后续建立高精度的定量分析模型奠定基础。光谱预处理不仅是必要的分析步骤,更是确保模型可靠性的关键环节[21]。
图3 高粱样品原始光谱图
Fig.3 The original spectrum of sorghum samples
近红外光谱分析的核心是从复杂的光谱信息中提取对建模具有显著贡献的特征变量。实际采集的光谱数据不仅包含目标组分的有效信息,还混杂着多种干扰因素和无关变量。这些非目标信号会掩盖关键特征,降低模型的预测性能。因此,采用系统化的光谱预处理方法来消除干扰、增强有效信息,是建立稳健分析模型的必要前提[22]。
本研究对样品光谱图进行了多种单一或者组合的光谱预处理方式的对比,以对模型进行优化处理,各预处理方式模型参数结果如图4所示,最终确定最优建模波段为1 100~2 498 nm,最佳预处理方法为一阶导数、SNV、Detrend相结合(表3),预处理后的光谱图如图5所示,经过预处理之后的光谱图更简化,特征吸收峰显著,有助于确定定标样品集边界、定标建模和评估定标升级。
a-不同处理方式下模型1-VR;b-不同处理方式下模型RSQ;c-不同处理方式下模型SEC d-不同处理方式下模型SECV
图4 不同光谱预处理方法的水分及淀粉模型参数
Fig.4 Moisture and starch model parameters for different spectral preprocessing methods
图5 高粱样品预处理后光谱图
Fig.5 Spectral graph of sorghum samples after pretreatment
表3 最佳光谱预处理方法及对应模型参数
Table 3 The optimal spectral preprocessing method and corresponding model parameters
模型指标光谱范围/nm光谱预处理方法1-VRRSQSECSECV水分850~249 8一阶导数+SNV+Detrend0.812 0 0.857 9 0.109 6 0.113 7淀粉850~249 9一阶导数+SNV+Detrend0.793 4 0.831 9 0.469 7 0.592 6
利用WinISI软件,采用PCA将光谱数据转化为主成分数据,并与化学分析数据相结合进行定标建模,采用改进偏最小二乘法(modified PLS)对得分文件建模,采用一阶导数结合Detrend的数学处理方法[23],并结合SNV进行光学校正消除固体颗粒大小、表面散射以及光程变化对光谱的影响[24]。最终建立起高粱水分、淀粉含量快速无损测定的近红外预测模型,所建模型对高粱样品水分、淀粉含量的预测值与化学值的相关图见图6,可知预测值与化学值的相关性强,表明模型预测效果良好。其中,水分模型和淀粉模型的相关系数RSQ分别为0.857 9、0.831 9,交叉验证集的相关系数1-VR分别为0.812 0、0.793 4,说明模型的线性关系较好;同时,水分、淀粉模型的SEC分别为0.109 6、0.469 7,SECV分别为0.113 7、0.592 6 同时,模型内部参数值较小且相近,说明模型的质量较好。
a-水分预测模型图;b-淀粉预测模型图
图6 高粱样品水分、淀粉预测模型图
Fig.6 Prediction model diagram of moisture and starch in sorghum samples
模型建立后需对所建模型进行内外部验证来评价模型质量,利用模型自身参数SEC、SECV来评价模型质量为内部验证法,利用盲样样品对所建模型进行验证为外部验证法[25]。本研究对所建模型进行了准确性及重复性的外部验证。
2.4.1 准确性验证
随机取30份高粱样品作为盲样进行外部验证,利用理化常规方法和所建模型分别对其进行检测分析,得出高粱水分、淀粉含量的参考值和预测值如表4所示,通过比较发现,所选高粱盲样水分、淀粉指标模型的预测值和参考值的绝对误差均较小,水分的绝对误差范围为0~0.12、淀粉为0.01~0.61,说明模型预测能力良好,具有较高的准确性和可靠性。
表4 模型盲样验证结果
Table 4 Results of blind sample validation of models
样品编号水分淀粉理化参考值光谱预测值差值绝对值理化参考值光谱预测值差值绝对值110.40 10.40 0.00 66.42 66.11 0.31 29.50 9.39 0.11 68.36 68.12 0.24 310.67 10.71 0.04 63.14 63.26 0.12 410.37 10.43 0.06 65.84 65.44 0.40 510.03 10.04 0.01 66.02 65.79 0.23 610.73 10.75 0.02 66.92 66.76 0.16 710.33 10.25 0.08 64.94 64.70 0.24 810.50 10.40 0.10 67.28 67.02 0.26 910.17 10.14 0.03 66.87 66.58 0.29 1010.60 10.54 0.06 65.66 65.76 0.10 1110.80 10.69 0.11 65.97 66.34 0.37 129.90 9.96 0.06 64.26 64.58 0.32 1310.60 10.58 0.02 65.61 65.85 0.24 1410.43 10.42 0.01 66.83 66.38 0.45 1510.23 10.28 0.05 65.23 65.42 0.19 1610.33 10.36 0.03 64.71 64.70 0.01 1710.47 10.53 0.06 66.51 66.93 0.42 1810.13 10.17 0.04 67.05 67.08 0.03 1910.37 10.42 0.05 65.30 65.62 0.32 2010.43 10.41 0.02 65.72 65.29 0.43 2111.01 10.89 0.12 65.25 65.47 0.22 2210.63 10.59 0.04 65.75 65.86 0.11 2310.70 10.66 0.04 65.52 65.23 0.29 2410.60 10.57 0.03 65.39 65.46 0.07 2510.40 10.37 0.03 65.34 65.33 0.01 2610.50 10.60 0.10 67.19 67.67 0.48 2710.60 10.64 0.04 66.87 66.83 0.04 2810.63 10.65 0.02 67.01 67.62 0.61 2910.57 10.53 0.04 68.90 68.99 0.09 3010.80 10.76 0.04 66.60 66.31 0.29
2.4.2 重复性
随机选取6份高粱样品,利用所建模型重复扫描10次,以验证模型重复性,所得结果如表5所示。通过对比6组重复性实验结果发现,利用该模型预测高粱样品水分、淀粉指标的标准偏差分别为0.03和0.11,表明该模型重复性良好,预测结果具有较高的精密度。
表5 重复性验证结果
Table 5 Repeatability verification results
样品编号123456水分淀粉水分淀粉水分淀粉水分淀粉水分淀粉水分淀粉110.19 68.17 10.16 68.23 10.11 68.46 10.12 68.47 10.19 68.22 10.19 68.17 210.24 68.35 10.17 68.21 10.20 68.34 10.17 68.16 10.19 68.19 10.24 68.35 310.22 68.34 10.14 68.20 10.13 68.34 10.15 68.44 10.16 68.26 10.22 68.14 410.20 68.28 10.19 68.40 10.17 68.33 10.13 68.34 10.17 68.30 10.20 68.28 510.18 68.18 10.13 68.33 10.20 68.35 10.18 68.15 10.13 68.24 10.18 68.18 610.19 68.23 10.20 68.23 10.19 68.38 10.16 68.27 10.14 68.46 10.19 68.43 710.16 68.39 10.16 68.41 10.20 68.38 10.12 68.28 10.12 68.49 10.16 68.39 810.13 68.49 10.15 68.25 10.18 68.18 10.19 68.47 10.16 68.16 10.15 68.49 910.15 68.29 10.13 68.31 10.15 68.38 10.12 68.39 10.14 68.19 10.13 68.29 1010.16 68.19 10.15 68.19 10.18 68.15 10.18 68.31 10.14 68.49 10.13 68.29 标准差水分0.03淀粉0.11平均值水分10.17淀粉68.30
本研究利用近红外光谱技术建立了红缨子糯高粱水分、淀粉含量的快速预测模型,模型线性指标RSQ均在0.8以上,模型内部参数SEC、SECV均较小且接近,说明该模型的质量较好。利用所建模型对外部盲样所开展的准确性和重复性验证表明,预测模型的准确度和精密度均较好,可在生产实际中可用于红缨子糯高粱的水分、淀粉含量的快速检测,能及时反馈数据,对指导白酒生产具有重要意义。
[1] 倪德让, 孔祥礼, 孙崇德, 等.红缨子高粱淀粉分子结构及糊化特性研究[J].中国酿造, 2019, 38(12):75-79.NI D R, KONG X L, SUN C D, et al.Molecular structure and gelatinization characteristics of starch from Hongyingzi sorghum[J].China Brewing, 2019, 38(12):75-79.
[2] 陈定崑, 李巧玉, 胡宇佳, 等.近红外光谱技术在茅台酒酒醅检测中的应用[J].酿酒科技, 2021(1):55-58.CHEN D K, LI Q Y, HU Y J, et al.Application of near infrared spectroscopy in the detection of fermented grains of maotai liquor[J].Liquor-Making Science &Technology, 2021(1):55-58.
[3] 杜伯会, 滕江波, 邹惠玲.现代近红外光谱分析在食品检测中的应用[J].中国食品工业, 2022(22):30-31.DU B H, TENG J B, ZOU H L.Application of modern near-infrared spectral analysis in food testing[J].China Food Industry, 2022(22):30-31.
[4] 袁颉, 毛育志, 姚翠萍, 等.近红外光谱技术在酱香型大曲糖化力快速检测中的应用[J].酿酒科技, 2023(12):110-113.YUAN J, MAO Y Z, YAO C P, et al.Application of near infrared spectroscopy in rapid detection of saccharification power of Jiangxiang Daqu[J].Liquor-Making Science &Technology, 2023(12):110-113.
[5] 余松柏, 黄张君, 吴奇霄, 等.基于近红外光谱构建酒用高粱主要理化指标的快速无损分析模型[J].食品工业科技, 2023, 44(10):311-319.YU S B, HUANG Z J, WU Q X, et al.Constructing rapid and undamaged detection models for main physicochemical indexes of brewing sorghum based on near infrared spectrum[J].Science and Technology of Food Industry, 2023, 44(10):311-319.
[6] 苏鹏飞, 刘丽丽, 闫宗科, 等.基于近红外高粱水分的快速分析研究[J].酿酒, 2021,48(1):87-90.SU P F, LIU L L, YAN Z K, et al.Study on NIR rapid analysis of water content in the sorghum[J].Liquor Making, 2021, 48(1):87-90.
[7] 苏鹏飞, 张武岗.基于NIR高粱淀粉含量快检技术的开发研究[J].酿酒科技, 2022(2):107-110.SU P F, ZHANG W G.Development of rapid detection technology for starch in sorghum based on NIR[J].Liquor-Making Science &Technology, 2022(2):107-110.
[8] 张北举, 陈松树, 李魁印, 等.基于近红外光谱的高粱籽粒直链淀粉、支链淀粉含量检测模型的构建与应用[J].中国农业科学, 2022, 55(1):26-35.ZHANG B J, CHEN S S, LI K Y, et al.Construction and application of detection model for amylose and amylopectin content in sorghum grains based on near infrared spectroscopy[J].Scientia Agricultura Sinica, 2022, 55(1):26-35.
[9] CEN H Y, HE Y.Theory and application of near infrared reflectance spectroscopy in determination of food quality[J].Trends in Food Science &Technology, 2007, 18(2):72-83.[10] CHEN Q S, LIN H, ZHAO J W.Near-Infrared Spectroscopy Technology in Food[M].Singapore:Springer Singapore, 2021:23-58.
[11] 褚小立, 史云颖, 陈瀑, 等.近五年我国近红外光谱分析技术研究与应用进展[J].分析测试学报, 2019, 38(5):603-611.CHU X L, SHI Y Y, CHEN P, et al.Research and application progresses of near infrared spectroscopy analytical technique in China in past five years[J].Journal of Instrumental Analysis, 2019, 38(5):603-611.
[12] SCHWERTMAN N C, OWENS M A, ADNAN R.A simple more general boxplot method for identifying outliers[J].Computational Statistics &Data Analysis, 2004, 47(1):165-174.
[13] WILLIAMS J D, WOODALL W H, BIRCH J B, et al.Distribution of Hotelling’s T2 statistic based on the successive differences estimator[J].Journal of Quality Technology, 2006, 38(3):217-229.
[14] APINANTANAKON W, SUNAT K, KINMOND J A.Optimal data division for empowering artificial neural network models employing a modified M-SPXY algorithm[J].Engineering &Applied Science Research, 2019, 46(4):276-284.
[15] WANG G, YIN S.Quality-related fault detection approach based on orthogonal signal correction and modified PLS[J].IEEE Transactions on Industrial Informatics, 2015, 11(2):398-405.
[16] 蒙秋霞, 牛宇, 张丽珍, 等.近红外透射光谱技术测定黍稷蛋白含量的研究[J].中国农学通报, 2011, 27(33):243-247.MENG Q X, NIU Y, ZHANG L Z, et al.Analysis of protein contents in Panicum miliaceum L.by near infrared transmittance spectroscopy[J].Chinese Agricultural Science Bulletin, 2011, 27(33):243-247.
[17] FERN
NDEZ PIERNA J A, WAHL F, DE NOORD O E, et al.Methods for outlier detection in prediction[J].Chemometrics and Intelligent Laboratory Systems, 2002, 63(1):27-39.
[18] 刘蓉, 陈文亮, 徐可欣, 等.奇异点快速检测在牛奶成分近红外光谱测量中的应用[J].光谱学与光谱分析, 2005, 25(2):207-210.LIU R, CHEN W L, XU K X, et al.Fast outlier detection for milk near-infrared spectroscopy analysis[J].Spectroscopy and Spectral Analysis, 2005, 25(2):207-210.
[19] 闵顺耕, 李宁, 张明祥.近红外光谱分析中异常值的判别与定量模型优化[J].光谱学与光谱分析, 2004, 24(10):1205-1209.MIN S G, LI N, ZHANG M X.Outlier diagnosis and calibration model optimization for near infrared spectroscopy analysis[J].Spectroscopy and Spectral Analysis, 2004, 24(10):1205-1209.
[20] LIU M D, FU R, LIU J C, et al.Quantitative analysis of amorphous form in indomethacin by near infrared spectroscopy combined with partial least squares regression analysis[J].Molecules, 2024, 29(22):5290.
[21] 迟雅丽, 赵亚红, 杨丽, 等.近红外技术用于白砂糖色值检测模型的建立[J].现代食品, 2020, 26(10):195-199.CHI Y L, ZHAO Y H, YANG L, et al.Near-infrared technology for the establishment of detection model for color of white granulated sugar[J].Modern Food, 2020, 26(10):195-199.
[22] THOMAS E V, HAALAND D M.Comparison of multivariate calibration methods for quantitative spectral analysis[J].Analytical Chemistry, 1990, 62(10):1091-1099.
[23] ZHANG Y, CONG Q, XIE Y F, et al.Quantitative analysis of routine chemical constituents in tobacco by near-infrared spectroscopy and support vector machine[J].Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2008, 71(4):1408-1413.
[24] SUN J Q, YANG X L, ZHOU H X, et al.Rapid quantitative analysis of natural indigo dye content using near-infrared spectroscopy[J].Textile Research Journal, 2024, 94(17-18):1887-1896.
[25] LUO R M, TAN S M, ZHOU Y P, et al.Quantitative analysis of tea using ytterbium-based internal standard near-infrared spectroscopy coupled with boosting least-squares support vector regression[J].Journal of Chemometrics, 2013, 27(7-8):198-206.