酒精饮料食品安全合规风险信息的自动检测方法

当前的全球粮食系统受到食品供应链日益复杂的挑战,其中食品安全的保证已成为发达国家和发展中国家最关心的问题[1]。公共和私营部门制定了各种食品安全标准、法律和法规,明确食品企业实施食品安全措施的责任,确保从农场到餐桌的食品安全。同时,企业战略性地利用食品安全法规作为竞争优势[2]。监管合规性和市场定位之间错综复杂的关系突显出企业必须在违规成本很高的环境中保持竞争[3]。然而,为避免违规,一是要符合国际和地区标准,遵守跨越多个司法管辖区的法规,如果没有一个实时系统来跟踪、分析和提醒监管变化,这是不可能的。因此,食品企业倾向于寻找大数据和人工智能等创新解决方案,以制定有效措施,降低合规风险,提高食品安全。

强制性和自愿性法规和标准是国际要求中最关键的部分,以确保采用综合的、积极的、基于风险的方法,并促进食品安全管理体系的持续改进[4]。然而,目前的研究方法主要依靠人工收集和人工判断这些法规和标准的变化。手动提取此类数据是一项耗时的任务,需要定期重复以确保持续的准确性[5],此外,手动跟踪在线数据也带来了一些问题,例如效率低、缺乏系统性、成本高。基于人类经验的信息摘要在很大程度上取决于专家的判断[6]。鉴于与食品安全相关的重大责任,及时获取风险信息和采取后续行动对于最大限度地减少对企业的不利影响至关重要[7]。因此,人们对一种更智能的食品安全风险预测机制的需求很高,该机制可以基于人类的认知和经验来改进该机制,以降低成本并提高效率。最近,信息技术和数据科学的融合成为一个潜在的游戏规则改变者,数据挖掘、机器学习和人工智能等工具为利益相关者开发高效且响应迅速的食品安全管理系统提供了新的机会[8]。这些技术进步有望彻底改变全球互联和动态食品系统中确保食品安全的方法。利用技术解决方案对特定类别的食品安全相关监管变化进行自动警报,提供了1种方法,不仅可以确保企业跟上不断发展的法规,还可以培养强大的合规文化,从而降低风险并维护食品的安全性和完整性。

在中国,食品安全风险监测和预警系统已在全国和省级各级实施[9]。然而,以行业为重点的系统或方法在早期发现与特定食品类别相关的监管变化方面存在显著差距。认识到在线信息在检测这些变化方面的重要性,这项工作旨在创建一种智能的新闻筛选方法。目标是识别特定食品类别的监管变化,并提取与新闻相关的关键实体,最终提供及时警告,以减轻企业的合规风险。

2017年,PANG等[10]介绍了酒精饮料的食品安全原则和质量标准,对酒精饮料的主要污染物的“最高水平”进行讨论并提出对酒精饮料潜在危害的控制措施;2019年,胡康等[11]通过对全国蒸馏酒抽检数据的研究对白酒的风险进行了定量和定性的分析,结果表明乡村抽检的不合格率高于城市,生产环节的不合格率占比最高,出现最多的问题是滥用食品添加剂(如甜味剂)。2020年,HE等[12]针对酒精饮料中显著的污染物进行了概述,并考虑潜在污染源(包括农药、环境污染物、霉菌毒素、过程污染物,残留食品接触材料和非法添加剂);B width=11,height=11,dpi=110

ASZCZYK[13]对饮料行业的食品安全管理进行研究,其中总结了包含氨基甲酸乙酯在内的多种风险因子的限量要求以及提出相关安全管理措施。2023年,WANG等[14]测定了中国普通人群中日常酒精饮料的氨基甲酸乙酯水平,可以为中国酒精政策和法规的制定以及风险评估模型的建立提供数据。

1 相关工作

1.1 食品安全信息系统

全球各地的各种举措都利用互联网的力量,将其作为早期检测食品安全风险的关键数据源[15]。通过从新闻中提取食品、物质和不良健康影响之间的语义关系,利用网站上发布的新闻等公共数据来检测潜在食品安全风险的早期信号[16]。2005年,一个日本团体通过在谷歌网页上搜索关键词建立了一个危险数据库,从而启动了使用互联网建立数据库的进程[17]。他们可视化了文档交互,并创建了风险路径查找器系统,允许个人识别大量文档中隐藏的风险事件。新加坡国家环境局建立了食品安全信息系统,利用互联网上的相关内容积极监测新加坡新出现的食品安全问题[18]。2016年,中国根据媒体和政府网站的新闻建立了食品安全信息数据库,旨在有效评估食品安全问题[19]。强调新闻媒体在中国食品安全监测中的作用,特别关注中国乳制品行业[20]。利用欧洲媒体监测组织收集全球媒体报道的MeDISys基础设施,一个系统解决了食品欺诈问题[21]。在这一按时间顺序排列的过程中,这些不同的努力突显了人们越来越依赖基于互联网的数据检索和文本挖掘来预警和积极监测食品安全和欺诈危害[22]。语义网已被广泛认为是食品安全信息的丰富数据源。然而,以一种既快速又易于管理的格式提取相关的定量信息仍是一大挑战。

1.2 文本挖掘

语义网中的食品安全信息主要以非结构化文本格式呈现,这给分析带来了挑战。在我们处理少量文本数据的时候,手动处理在提高生产力方面发挥了至关重要的实际作用。然而,随着数字文本信息的快速增长,特别是在时间敏感的应用中,手动处理变得不切实际[23]。人工智能的一个分支——文本挖掘和自然语言处理(natural language processing,NLP)的进步,使文本数据的处理能够用于各种任务,如信息提取、文本分类、摘要和聚类[24]。在食品安全领域,支持向量机、朴素贝叶斯和决策树等监督分类器主要用于先前的研究,具有unigram和bigram等文本内容特征,以识别与食品安全主题相关的信号[25]。近年来,BERT(Bidirectional Encoder Representations from Transformers)是谷歌基于Transformer架构开发的一种机器学习技术,专门用于自然语言处理的预训练。这项技术擅长文本分类和命名实体提取等任务,使其成为自然语言处理领域的前沿机器学习技术。RoBERTa和BERTweet等BERT模型的变体以及微调模型已被设计用于从社交媒体数据中对食源性疾病发病率进行分类[6,26]。预训练的BERT模型在文本分类任务和实体提取任务中都表现出了良好的性能。

1.3 情报监管

来自真实世界场景的经验数据已经证明了其改善食品安全的能力。鉴于人工智能擅长分析广泛的数据集并为食品安全应用提供预测分析,人工智能通过提供自动化水平来改善行业,可以大幅减少用于评估食品安全风险的现有手动读取程序[27]。在制药行业,监管情报方法,如跟踪最近的监管变化,发现其被用来帮助制药公司了解和预测美国食品药品监督管理局和欧洲药品管理局等[28]。虽然每个人都希望及时访问监管信息,但当前监管机构共享的信息通常可以在单独的、孤立的、不可互操作的网页上获得,这些网页要求用户导航到不同的网站以获取信息[29]。因此,制药行业一直在寻找人工智能解决方案,以降低复杂性并提高监管合规性,从而构建更高效的监管风险管理系统[30]。同样,食品行业的监管情报是指对影响食品开发、制造和分销的法规和合规标准相关信息的系统收集、分析和解释。它包括随时了解卫生当局和监管机构制定的监管要求、指导方针和政策的变化和更新。通过积极管理监管情报,食品行业的公司可以根据适用的法律和标准加强合规性,降低风险,确保产品的安全和质量。

2 材料与方法

2.1 数据来源

本文利用北京中国食品发酵工业研究院提供的2022年3月至2023年10月的内部数据,构建了食品安全风险评估的语言模型。数据主要以中文文本格式表示,与中国白酒相关的监管变化有关,这些数据定期从包括政府网站和新闻媒体在内的各种在线来源收集,包括国际、国家和地区网站来源用于监测与监管风险相关的法规、标准和法律的变化。进行了必要的机器翻译,然后对许多食品安全专家进行了评估,以确定特定食品的监管变化。为了便于监测,本文使用所提供的数据(酒类行业,特别是中国白酒的监管变化)作为采样数据,构建了能够自动识别监管变化的机器学习分类器。

2.2 专家标注

专家对新闻文章与特定食品类别的监管变化以及新闻文章中指出的关键要素(如组织、食物、污染物和监管)的相关性进行了注释(如图1所示)。通过培训过程设计并向食品安全专家提供的指导,其中每条数据分配给3名专家,并采用多数投票方式汇总标签结果。具体来说,专家们首先要阅读新闻文章,包括标题和正文,然后决定它是否与中国白酒的监管变化有关,并强调属于标签的元素。组织是指在监管法规涵盖的管辖范围内运营的任何国家、政府机构、机构、企业或任何实体。食物是指供人类食用的任何物质,无论是加工的、半加工的还是生的。污染物是指食品中存在的任何可能对人体健康构成威胁的物质(风险)。监管是指监管机构或政府机构为管理和控制食品行业的各个方面而制定的标准、规则、指令或指南。

2.3 语言模型和数据处理

BERT是第一个在文本分类任务和实体检测任务中都具有高性能的公开(公共)大规模预训练语言模型[6]。本文旨在微调为汉语设计的预训练的BERT模型用于2项任务:(1)如果句子/新闻标题表明与中国白酒相关的监管变化,则进行分类;(2)从句子中提取实体(组织、食物、污染物、监管)。在输入模型之前,新闻首先被标记化,并在句子中添加特殊的标记。例如,[CLS]是添加在每个输入句子前面的一个特殊符号。[SEP]是在每个输入句子的末尾添加的一个特殊分隔符。

2.4 模型训练

样本数据包括3 294篇与中国白酒监管变化有关的新闻文章,得到3 000个标记数据和其余294个未标记数据。收集3 000个标记数据的汇总结果用于机器学习,包括训练、验证和测试,其中训练集用于学习最能描述数据集的微调模型,验证集用于推广模型,测试集用于评估训练模型的性能。训练后的数据集被输入到模型中,当引入验证集时,模型被泛化。基于预训练的模型应用于测试集来评估模型的性能。

2.5 性能评估

专家标记的数据经过一系列文本处理步骤,然后导入机器学习模型进行文本分类和实体检测。BERT对于不同的数据类型有不同的变体,并且广泛适用,还为中文开发了可调用库。在本文中,我们使用最先进的BERT技术建立了微调模型,用于对与食品合规风险相关的新闻文章进行分类,并从中提取关键元素。为了评估拟议的食品安全目标信息过滤和风险水平预测模型的有效性,将使用标准指标来衡量分类和预测性能,包括准确率(accuracy)、精确度(precision)、召回率(recall)和F1分数(F1-score)[6]。准确率是在所有预测中正确预测的比率,精确度是指预测正确的正例数与正预测总数的比率(是真实阳性预测占阳性预测总数的比例),召回率是所有正例中被正确预测出来的比例,F1分数是精确度和召回率的一个调和平均数,具体计算如公式(1)～公式(4)所示,其中TP为真阳性,FP为假阳性,TN为真阴性,FN为假阴性。

2.6 实验设计

网络是检测食品安全监管变化的主要数据来源,这些变化主要以自然语言文本的形式表示。为了实现从大量网络文本数据中快速识别与监管变化相关信息的功能,本研究旨在建立了2个模型:一个模型旨在从文本信息中提取与食品安全相关的新闻;另一个模型旨在从文本信息中识别关键元素(组织、食品、污染物和法规)。首先,该过程使用网络爬虫软件模拟手动数据收集,从目标网页获取大量原始信息。随后,食品安全专家对这些原始信息的相关性进行了注释(相关/不相关,表示为1/0)。此外,食品安全专家在目标信息中注释与风险因素相关的实体。这些实体包括“组织”“食物”“污染物”和“规定”。最后,收集并汇总注释信息,形成一个基础数据库。然后基于注释数据来训练自然语言文本分类模型和实体检测模型。

3 结果与讨论

3.1 带注释的数据集的构造

研究中首先介绍了一个精心策划的数据集,该数据集由食品安全专家设计,通过与特定食品类别——中国白酒相关的监管变化的多层次信息来支持这2项任务。在我们之前的研究中,众包作为专家给定标签的一种具有成本效益和时效性的替代解决方案,被用于检测食源性疾病的发病率[26]。为了开发更高质量的数据集,内部食品安全专家从各种网站检索食品安全新闻文章,并在这项工作中执行标签任务。对于每条新闻的句子,食品安全专家都被要求完成2个子任务:对句子进行分类(相关/不相关),并在句子中标记所有相关的实体类型。表1显示了实体定义,用作培训标签过程专家的标准实体,如图2所示,该数据集提供具有多个标签的新闻,这些标签可以用于训练上述句子分类任务和实体检测任务的模型。使用多数投票构建了每个句子的聚合类标签。与之前众包研究中使用的方法一样,对于句子分类,使用相关/不相关标签上的简单多数投票策略来做出最终决定。对于实体类型,3个专家给定标签的并集作为最终标签。在句子分类任务中,专家给出的42个新闻句子标签(约1.5%)不一致,而在实体检测任务中,发现专家给出的174个新闻语句标签(约6%)不一致。这表明大多数情况下专家对标签有很强的一致性。由于其语言的复杂性和长词的存在,许多冲突标签来自符合规定的实体类型。

3.2 句子分类初效果

在许多应用中,标记数据是乏味而繁琐的,并且阴性样本可能被错误标记。因此,提出了正样本和无标签 (positive and unlabeled, PU) 学习,使分类器能够直接从有限的正样本和大量未标记样本中学习[31]。在本文中,内部机构提供的第一批数据(310个阳性样本)都是与中国白酒的监管变化有关。对于这种情况,PU学习已被证明在对所有阳性数据进行分类方面是有效的,它被用于这个小数据集。从各种食品安全网站收集的未标记数据,引入1 000个阳性或阴性样本,与所有阳性数据相结合,作为输入PU学习模型的训练数据,进行专家标记[31]。然后将典型的监督学习模型[如支持向量机、Naïve贝叶斯(朴素贝叶斯)、决策树和随机森林]应用于1 310个标记数据集(346个正样本和964个负样本),与PU学习的性能进行比较,如表2所示,PU学习在句子分类任务上的F1得分(0.83)显著高于所有典型的监督学习。与完全监督学习不同,PU学习将未标记的数据明确地结合到学习过程中,更像是一种专门的半监督学习,其中所有类的标记数据通常被输入到模型中。然而,在现实生活中,与食品安全新闻的总数相比,与中国白酒相关的监管变化数量相对较少,换句话说,“相关”和“不相关”之间的样本量比例是有偏差的,因此不能代表现实生活中面对许多嘈杂数据的信息过滤问题。因此,有必要在训练数据集中引入更多“不相关”的数据,以构建一个能够检测现实世界中与中国白酒相关的监管变化的模型,同时,由于相关(积极)数据的稀缺性,数据失衡是另一个需要注意的问题。如果分类模型倾向于将所有数据标记为属于多数类(负),则检测相关信号(正)违背了核心目标。

3.3 微调BERT模型的性能评估

如表3所示,F1分数被广泛用作评估机器学习模型性能的流行指标。该模型在句子分类任务和实体检测任务上分别获得0.88和0.60的F1分数(见表3)。该模型在句子分类任务上的性能是基于该模型预测的句子数量,而在实体检测任务上的表现基于该模型所预测的实体数量。给定一个新闻句子,句子分类模型给出“相关”或“不相关”的结果,以确定该新闻是否表明与特定食品类别——中国白酒相关的监管变化。为了从新闻中提取关键实体,另一个模型给出了新闻中每个元素的序列注释,包括预测实体。

如表4所示, 一则新闻标题为《国家卫生健康委员会发布GB 9685〈食品接触材料及制品添加剂使用标准〉征求意见稿,禁止在酒精饮料接触材料中含量超过20%的材料中使用邻苯二甲酸酯》,微调后的BERT模型将句子分类任务的结果定为“相关”,将实体检测任务定为[组织]:“国家卫生健康委员会”,[食物]:“酒精饮料”,[污染物]:“邻苯二甲酸酯”,[法规]:“GB 9685《食品接触材料及制品用添加剂使用标准》”。基于这些例子,该模型可以捕捉到与中国白酒监管变化相关的大多数重要实体,使我们能够收集关键信息,否则,当数据集很大时,如果使用人工标记是不可能的。对于句子分类,使用新闻标题、内容以及标题和内容的组合作为抽样数据来评估分类模型的性能。基于结果,与仅标题和仅内容相比,该模型在预测标题和内容组合中存在的数据方面具有略高的F1分数。

4 结论

合规风险包括违反与食品安全、标签以及食品行业中的其他各关键方面相关的法律、法规或标准。不合规可能导致严重后果,如法律诉讼、财务损失、声誉受损,最为关键的是对消费者造成伤害。本文提出了一种针对特定食品类别——中国白酒,通过实施基于专家标记数据的预训练语言模型来检测监管变化的积极(主动)策略。使用BERT作为预训练NLP模型在辨别相关监管新闻和从文本数据中提取组织、食品类别、污染物(风险)和法规等关键实体方面表现出高效性。本研究的结果突显了所提方法在显著减少监测监管变化的手动工作量的同时,提高了影响食品安全合规性变化的准确性。提出的自动检测系统将使企业能够迅速有效地应对新兴风险。更先进的NLP技术,如ChatGPT之类的大型语言模型以及领域特定的GPT应用的构建,将有助于克服专家注释的局限性,同时实现监管变化的自动检测。随着监管环境的不断演变,我们相信将这些计算技术纳入监管事务中,通过早期发现与企业业务相关的监管变化,可以降低食品企业的合规风险。

[1] HENSON S, CASWELL J.Food safety regulation:An overview of contemporary issues[J].Food Policy, 1999, 24(6):589-603.

[2] KOTSANOPOULOS K V, ARVANITOYANNIS I S.The role of auditing, food safety, and food quality standards in the food industry:A review[J].Comprehensive Reviews in Food Science and Food Safety, 2017, 16(5):760-775.

[3] MENSAH L D, JULIEN D.Implementation of food safety management systems in the UK[J].Food Control, 2011, 22(8):1216-1225.

[4] NGUYEN T T B, LI D.A systematic literature review of food safety management system implementation in global supply chains[J].British Food Journal, 2022, 124(10):3014-3031.

[5] HIGNETTE G, BUCHE P, COUVERT O, et al.Semantic annotation of Web data applied to risk in food[J].International Journal of Food Microbiology, 2008, 128(1):174-180.

[6] TAO D D, ZHANG D Y, HU R F, et al.Crowdsourcing and machine learning approaches for extracting entities indicating potential foodborne outbreaks from social media[J].Scientific Reports, 2021, 11(1):21678.

[7] WANG J, YUE H L.Food safety pre-warning system based on data mining for a sustainable food supply chain[J].Food Control, 2017, 73:223-229.

[8] NYCHAS G J E, PANAGOU E Z, MOHAREB F.Novel approaches for food safety management and communication[J].Current Opinion in Food Science, 2016, 12:13-20.

[9] WU Y N, CHEN J S.Food safety monitoring and surveillance in China:Past, present and future[J].Food Control, 2018, 90:429-439.[10] PANG X N, LI Z J, CHEN J Y, et al.A comprehensive review of spirit drink safety standards and regulations from an international perspective[J].Journal of Food Protection, 2017, 80(3):431-442.

[11] 胡康, 王雅洁, 杨冰, 等.白酒质量安全风险分析与防范[J].中国酿造, 2019, 38(8):216-223.HU K, WANG Y J, YANG B, et al.Risk analysis and prevention of Baijiu quality safety[J].China Brewing, 2019, 38(8):216-223.

[12] HE N X, BAYEN S.An overview of chemical contaminants and other undesirable chemicals in alcoholic beverages and strategies for analysis[J].Comprehensive Reviews in Food Science and Food Safety, 2020, 19(6):3916-3950.

[13] B

ASZCZYK I.The management of food safety in beverage industry[M]//Safety Issues in Beverage Production.Amsterdam:Elsevier, 2020:1-38.

[14] WANG Z F, QU P F, ZHAO Y F, et al.A nationwide survey and risk assessment of ethyl carbamate exposure due to daily intake of alcoholic beverages in the Chinese general population[J].Foods, 2023, 12(16):3129.

[15] WALDNER C.Big data for infectious diseases surveillance and the potential contribution to the investigation of foodborne disease in Canada[D].Winnipeg, Canada:National Collaborating Centre for Infectious Diseases, 2018.

[16] VAN DE BRUG F J, LUCAS LUIJCKX N B, CNOSSEN H J, et al.Early signals for emerging food safety risks:From past cases to future identification[J].Food Control, 2014, 39:75-86.

[17] MAEDA Y, KURITA N, IKEDA S.An early warning support system for food safety risks[M]//New Frontiers in Artificial Intelligence.Berlin, Heidelberg:Springer Berlin Heidelberg, 2006:446-457.

[18] KATE K, CHAUDHARI S, PRAPANCA A, et al.FoodSIS:A text mining system to improve the state of food safety in Singapore[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM, 2014:1709-1718.

[19] CHEN S Q, HUANG D D, NONG W Y, et al.Development of a food safety information database for Greater China[J].Food Control, 2016, 65:54-62.

[20] ZHU X Y, HUANG I Y, MANNING L.The role of media reporting in food safety governance in China:A dairy case study[J].Food Control, 2019, 96:165-179.

[21] BOUZEMBRAK Y, STEEN B, NESLO R, et al.Development of food fraud media monitoring system based on text mining[J].Food Control, 2018, 93:283-296.

[22] MARVIN H J P, HOENDERDAAL W, GAVAI A K, et al.Global media as an early warning tool for food fraud;an assessment of MedISys-FF[J].Food Control, 2022, 137:108961.

[23] TAO D D, YANG P K, FENG H.Utilization of text mining as a big data analysis tool for food science and nutrition[J].Comprehensive Reviews in Food Science and Food Safety, 2020, 19(2):875-894.

[24] ZHAI C X, MASSUNG S.Text Data Management and Analysis:A Practical Introduction to Information Retrieval and Text Mining[M]. New York:Association for Computing Machinery, 2016.

[25] OLDROYD R A, MORRIS M A, BIRKIN M.Identifying methods for monitoring foodborne illness:Review of existing public health surveillance techniques[J].JMIR Public Health and Surveillance, 2018, 4(2):e57.

[26] HU R, ZHANG D, TAO D, et al.TWEET-FID:An annotated dataset for multiple foodborne illness detection tasks[J].arXiv preprint arXiv, 2022, 2205.10726.

[27] QIAN C, MURPHY S I, ORSI R H, et al.How can AI help improve food safety?[J].Annual Review of Food Science and Technology, 2023, 14:517-538.

[28] ROBERTSON A S, REISIN MILLER A, DOLZ F.Supporting a data-driven approach to regulatory intelligence[J].Nature Reviews.Drug Discovery, 2021, 20(3):161-162.

[29] ROBERTS K, THAKKAR R, ALJUBURI L, et al.A vision for integrated publicly available information on regulated medical products[J].Clinical and Translational Science, 2022, 15(6):1321-1327.

[30] PATIL R S, KULKARNI S B, GAIKWAD V L.Artificial intelligence in pharmaceutical regulatory affairs[J].Drug Discovery Today, 2023, 28(9):103700.

[31] LI F Y, DONG S Y, LEIER A, et al.Positive-unlabeled learning in bioinformatics and computational biology:A brief review[J].Briefings in Bioinformatics, 2022, 23(1):bbab461.