詹氏乳杆菌CRISPR/Cas系统生物信息学分析

胡琪1,廖彩羽1,唐佳晨2,汤科1,程道梅1,赵长菘1,余美艳1,韩云蕾3*

1(成都医学院 公共卫生学院,四川 成都,610500)

2(成都医学院 大健康与智能工程学院,四川 成都,610500)

3(成都医学院 基础医学院,四川 成都,610500)

摘 要 规律成簇间隔短回文重复序列(clustered regularly interspaced short palindromic repeats, CRISPR)及其相关蛋白(Cas)系统近年来被广泛应用于基因编辑及分子检测等领域。为开发基于詹氏乳杆菌(Lactobacillus jensenii)CRISPR/Cas系统的基因编辑工具,该研究通过生物信息学方法对L.jensenii菌株的CRISPR/Cas系统的结构及作用机制进行分析。从GenBank数据库收集了177株L.jensenii全基因组序列,使用CRISPRViz鉴定CRISPR位点,CRISPROne预测Cas蛋白类型及tracrRNA位置,MEGA X构建系统发育树,RNAfold分析重复序列的二级结构,CRISPRTarget进行间隔序列同源性分析及原间隔区邻近基序(protospacer adjacent motif, PAM)预测。结果显示,在177株菌的基因组中有146株(82.49%)携带CRISPR序列,共包含152个CRISPR位点,其重复序列大小为27~40 nt,间隔序列长度为28~40 nt,数量为3~44个。144株菌含有Cas9蛋白编码基因,其中128株(88.89%)属于部分Ⅱ-A亚型,15株(10.42%)为Ⅱ-A亚型,另有1株菌同时携带2种亚型的Cas蛋白编码基因。86株菌含有1个tracrRNA基因,位于cas1cas9基因之间的非编码区。在769个独特的间隔序列中,219个靶向噬菌体,59个靶向质粒,其余靶向物种未知。L.jensenii Cas9蛋白识别的PAM序列是5′-CCA-3′。该研究结果可为后续开发基于CRISPR/Cas9的L.jensenii基因编辑工具提供参考。

关键词 詹氏乳杆菌;CRISPR/Cas;重复序列;间隔序列;tracrRNA;原间隔区邻近基序

规律成簇间隔短回文重复序列(clustered regularly interspaced short palindromic repeats, CRISPR)/Cas(CRISPR-associated genes)系统作为广泛存在于原核生物内的一种适应性免疫机制,能够有效识别并清除诸如噬菌体或质粒等外源遗传物质的入侵[1]。该系统由CRISPR序列和Cas蛋白编码基因组成,其中CRISPR序列由重复序列(repeat)和间隔序列(spacer)交替排列构成[2]。Cas蛋白与前体crRNA(pre-crRNA)及反式小RNA(tracrRNA)配对后,形成成熟的功能性核酸蛋白复合体,以精确识别并切割靶DNA[3]。根据Cas蛋白效应复合体的组织模式,CRISPR/Cas系统可分为两大类:Class 1(Ⅰ、Ⅲ、Ⅳ型)依赖多亚基复合体实现靶DNA识别与降解,Class 2(Ⅱ、Ⅴ、Ⅵ型)则利用单一多功能Cas蛋白实现该过程,其中Ⅱ型系统(CRISPR/Cas9)因其高效性和易于工程改造,已成为广泛应用的基因组编辑工具[4]。近年来,通过Cas蛋白工程化、gRNA设计优化及纳米颗粒或病毒载体等递送策略的不断创新,CRISPR/Cas技术在基因治疗、作物改良与微生物工程等领域取得了显著进展,但其脱靶效应与潜在免疫原性等挑战仍需深入研究与优化[5]

詹氏乳杆菌(Lactobacillus jensenii)是一种广泛存在于人体泌尿生殖道和肠道等部位的有益微生物,它在阴道微生态的早期建立和稳定维持中扮演着至关重要的角色[6]。定植于阴道的L.jensenii通过分泌多种抗菌活性物如有机酸、过氧化氢、短链脂肪酸和细菌素等,抑制病原微生物的增殖,从而维系阴道菌群稳态与微环境平衡[7]L.jensenii已被证实可用于预防和治疗细菌性阴道病(bacterial vaginosis, BV)和需氧菌性阴道炎(aerobic vaginitis, AV)等妇科疾病[8]。部分L.jensenii菌株还具有调节肠道菌群的功能,它可与肠道内其他有益菌协同作用,以增强肠道屏障功能,促进营养物质的吸收,从而起到降低肠道疾病风险,提高机体免疫力的作用[9]。凭借L.jensenii的诸多有益特性,它已被广泛应用于食品发酵、膳食补充剂及抗菌制剂等领域[10]。然而,在其生产与应用过程中,噬菌体污染始终是亟待解决的难题,制约了相关产业的发展。如何通过精准的基因编辑技术,构建对噬菌体具有广谱抵御能力的优良L.jensenii菌株,已成为学术界与工业界亟需攻克的关键问题[11]

近年来,生物信息学分析已成为挖掘和解析细菌基因组数据中CRISPR/Cas系统信息的强大工具,可高效地识别CRISPR重复序列、间隔序列以及相关的cas基因等特征。目前,仅有少量关于L.jensenii的CRISPR/Cas系统的研究,且并不系统[12]。得益于测序技术的不断进步,NCBI GenBank数据库中已收录逾百株L.jensenii全基因组序列,为对其CRISPR/Cas系统的结构特征与作用机制展开系统而深入的探讨提供了重要数据支持,由此获得的研究成果将为构建适用于L.jensenii菌株的基因编辑工具提供参考[13]

本研究致力于运用生物信息学技术,对从NCBI GenBank数据库中收集到的177株L.jensenii完整基因组数据进行分析,以系统性地揭示其CRISPR/Cas系统的分布及类别归属,并预测tracrRNA的定位特征与转录调控过程。通过深入探讨间隔序列的多样性和来源,解析Cas9蛋白识别原间隔区邻近基序(protospacer adjacent motif, PAM)和前导序列。本研究结果可为后续开发基于CRISPR/Cas9的L.jensenii基因编辑工具提供参考。

1 材料与方法

1.1 材料

本研究所分析的177株L.jensenii菌株完整基因组数据,均于2025年2月通过NCBI GenBank(https://www.ncbi.nlm.nih.gov/)数据库采集(NCBI Taxonomy ID:109790)。

1.2 实验方法

1.2.1 CRISPR/Cas系统鉴定

应用CRISPRViz(https://github.com/CRISPRlab/CRISPRviz)对177株L.jensenii的全基因组进行分析,以鉴定其CRISPR序列,详见电子版增强出版附表1(https://doi.org/10.13995/j.cnki.11-1802/ts.043897,下同)。随后应用CRISPROne(https://omics.informatics.indiana.edu/CRISPRone/)平台鉴定Cas蛋白编码基因及其位点,并据此确定其CRISPR/Cas系统类型。

表1 CRISPR重复序列相关结构指标的相关性分析

Table 1 Correlation analysis of CRISPR repeat sequence-related structural indicators

Pearson’s rMFE值“G—C”碱基对茎长茎的“GC”含量MFE值1.000-0.534∗-0.885∗∗-0.601∗∗“G-C”碱基对-0.534∗1.0000.671∗∗0.619∗∗茎长-0.885∗∗0.671∗∗1.0000.626∗∗茎的“GC”含量-0.601∗∗0.619∗∗0.626∗∗1.000

注:**,P<0.01(双端检验),*,P<0.05(双端检验),差异具有统计学意义。

1.2.2 系统发育树构建

从注释完善的基因组中提取146株携带CRISPR位点菌株的cas1cas9基因序列,使用MEGA X软件进行多序列比对,比对算法选用ClustalW,其参数设为默认。系统发育树的构建采用最大似然法(maximum likelihood, ML),并设置1 000次bootstrap重采样以评估树枝的置信度。最终生成的系统发育树在MEGA中导出Newick文件,上传至iTOL(https://itol.embl.de)平台进行可视化。

1.2.3 重复序列的二级结构预测

鉴于CRISPR重复序列普遍存在反向互补特性,其转录产物可通过分子内碱基配对形成稳定的茎环构象。为系统解析此类结构特征,本研究基于最小自由能(minimum free energy, MFE)热力学模型,在默认参数下利用RNAfold在线计算平台(http://rna.tbi.univie.ac.at/cgi-bin/RNAWebSuite/RNAfold.cgi)对目标序列的RNA二级结构进行预测并生成可视化图谱。

1.2.4 TracrRNA定位及转录机制的预测分析

在CRISPR/Cas9基因系统中,tracrRNA的定位特征呈现高度保守性,其主要分布于基因座的3个典型区域:CRISPR序列前侧区、cas9基因编码区前段及cas9cas1基因之间的间隔区域。参照CHYLINSKI等[14]的方法,首先运用CRISPROne平台对L.jensenii菌株的tracrRNA进行区域性扫描定位,继而通过SnapGene软件对Cas操纵子实施可视化解析,重点截取cas9基因外延区域(±500 bp范围)的基因序列。为精确界定tracrRNA边界,利用BPROM在线工具(http://www.softberry.com/berry.phtml topic=bprom&group=programs&subgroup=gfindb)对启动子调控元件进行预测,同时配合ARNold(http://rssf.i2bc.paris-saclay.fr/toolbox/arnold/index.php)完成终止子序列的识别验证。最终通过RNAfold热力学模拟平台,构建tracrRNA的二级结构模型。

1.2.5 间隔序列多样性及其同源性分析

基于CRISPRViz对菌株的CRISPR间隔序列实施同源相似度计算并进行可视化分析。针对146株携带CRISPR位点的目标菌株,通过CRISPRTarget在线工具(http://crispr.otago.ac.nz/CRISPRTarget/crispr_analysis.html)提取独特间隔序列,并与数据库GenBank-Phage(默认噬菌体库)及RefSeq-Plasmid(默认质粒库)进行原间隔序列(protospacer)同源性比对。该过程设置严格匹配参数:允许最大错配阈值为3个碱基错配。最终将比对所得结果导入R软件借助Pheatmap程序包执行层次聚类分析[15]

1.2.6 PAM序列的预测分析

针对已鉴定的具有靶向活性的原间隔序列,借助CRISPRTarget工具对其5′端与3′端双向延伸各10 bp范围的候选调控区域进行重新搜索,筛选可能存在的PAM序列区域。随后,采用WebLogo平台(https://weblogo.berkeley.edu/logo.cgi)对提取的序列进行保守性分析并进行图形化展示,从而预测L.jensenii cas9基因所识别的PAM序列特征。

1.2.7 前导序列预测

前导序列通常位于CRISPR重复-间隔阵列(CRISPR array)的上游,长度在150~400 bp[16]。参照SANTIAGO-FRANGOS等[17]的方法,从含有CRISPR位点的L.jensenii菌株中,截取CRISPR阵列上游200 bp区段作为预测区域,通过WebLogo平台(https://weblogo.berkeley.edu/logo.cgi),对所提取的序列进行保守性分析,并以图形方式呈现其保守性特征。

2 结果与分析

2.1 詹氏乳杆菌CRISPR基因座结构特征

177株L.jensenii菌株的CRISPR位点分析结果显示,146株(82.49%)被鉴定出携带总计152个确定的CRISPR位点(附表1)。其中,140株仅包含单一CRISPR位点,而6株菌株则存在2个独立的CRISPR位点(附图1-a)。144株菌含有Cas9蛋白编码基因(附图1-b),包括88.89%(128/144)为部分Ⅱ-A亚型(含cas1cas9csn2),10.42%(15/144)为Ⅱ-A亚型(含cas1cas2cas9csn2),以及1株同时携带Ⅱ-A亚型和部分Ⅱ-A亚型2种类型CRISPR系统的菌株MHKL_MAG_00270(附图1-b)。

图1 L.jensenii菌株27-2-CHN的tracrRNA在CRISPR基因座中的定位及其二级结构预测

Fig.1 Localization of tracrRNA and predicted secondary structure in L.jensenii strain 27-2-CHN

本研究分别基于cas1cas9 2个核心功能基因构建系统发育树(附图2)。结果表明,在cas1基因系统发育树(附图2-a)中,绝大多数菌株按照CRISPR/Cas系统亚型聚类。Ⅱ-A亚型菌株聚集于同一分支,提示该类cas1基因在进化过程中表现出较高的序列保守性。部分Ⅱ-A亚型菌株在系统发育树中分布较为分散,表明其在结构或功能层面可能存在一定程度的变异。还有部分菌株同时携带部分Ⅱ-A与Ⅱ-A亚型特征,表明此部分菌株可能经历了CRISPR/Cas系统的重组事件或水平基因转移。

a-L.jensenii CRISPR阵列中21个独特重复序列的系统发育树;b-各亚型中重复序列的核苷酸数;c-部分重复序列的二级结构示意图和MFE值

图2 CRISPR重复序列分析

Fig.2 Analysis of CRISPR repeat sequences

基于cas9基因构建的系统发育树(附图2-b)与cas1系统发育树有相似的聚类特征。Ⅱ-A亚型菌株同样聚集于同一分支,表明其所编码的cas9基因序列具有较高度保守性。然而,与cas1系统发育树相比,部分菌株在cas9系统发育树中的聚类位置发生偏移,表明两者在进化路径上可能存在差异。值得注意的是,个别菌株在2种系统发育树中的分类归属不完全一致,此差异可能与其所携带的CRISPR基因座结构复杂性相关。

2.2 TracrRNA的位置及转录预测

在146株含有CRISPR/Cas系统的L.jensenii菌株中,86株预测出tracrRNA序列,位于cas1cas9基因之间(图1),该位置特征与CHYLINSKI等[14]的研究高度吻合,提示tracrRNA在乳杆菌中的分布可能具有遗传保守性。然而,其余60株菌未能观察到tracrRNA基因,这一现象可能源于序列结构变异或预测工具的检测灵敏度不足。TracrRNA的转录极性通常与cas基因相反,且其典型结构区域涵盖anti-repeat、nexus以及hairpin组件。以菌株27-2-CHN为例(图1),该菌株的tracrRNA起始于5′端,包含一个与repeat部分互补结合的anti-repeat区段,随后衔接nexus区段,最终形成部分折叠的hairpin结构,此特征与乳杆菌物种中已有文献报道的tracrRNA构型一致[18]

2.3 重复序列的多样性及其二级结构稳定性

对177株L.jensenii菌株所包含的152个CRISPR位点进行分析,共鉴定出21种不同的直接重复序列(direct repeat, DR)。所含DR的数量为1~4个,其长度分布于27~40 nt,显示出显著的结构多态性。同一CRISPR亚型内部的DR序列具有高度保守性,在系统发育树中Ⅱ-A亚型和部分Ⅱ-A亚型的DR序列分别聚为一支(图2-a),其平均长度分别为38 nt和37 nt(图2-b)。所有21种DR序列均能形成具有2个环状结构域和一个茎干区的特征性二级结构(图2-c)。通过MFE评估发现,MFE值越低,对应的RNA二级结构稳定性越高。具体而言,茎干长度与结构稳定性呈现显著正相关性(r=-0.885)。此外,序列的GC碱基组成以及茎干区“G—C”碱基对的数量也是影响稳定性的关键因素。在控制茎干长度一致的条件下,GC含量及“G—C”碱基对数量均与DR序列的稳定性呈显著正相关(r=-0.601、-0.534)(表1),这一发现与已有研究中关于原核生物CRISPR结构稳定性的结论相符[19]

2.4 间隔序列多样性与同源性分析

2.4.1 间隔序列多样性分析

177株L.jensenii菌株中共识别到769个独特的间隔序列,每个CRISPR位点携带的间隔序列数量存在显著差异,范围为3~44个,序列长度分布在28~40 nt。值得注意的是,部分菌株间存在间隔序列完全相同或高度相似的现象(附图3),提示这些菌株可能经历了相似的选择压力环境或源于共同的、涉及特定移动遗传元件(mobile genetic elements, MGE)的攻击事件[20]

图3 L.jensenii type-Ⅱ型CRISPR/Cas系统的PAM预测

Fig.3 PAM prediction of L.jensenii type-Ⅱ CRISPR/Cas systems

2.4.2 间隔序列同源性分析

在769个独特间隔序列中,28.48%(219/769)的序列与链球菌属(Streptococcus)或乳杆菌属(Lactobacillus spp.)中噬菌体存在高度相似性,而7.67%(59/769)的序列则与乳杆菌属(Lactobacillus spp.)质粒序列匹配(附图4),其中1.04%(8/769)的序列同时针对噬菌体和质粒2种目标。对146株含有CRISPR位点的L.jensenii菌株进一步分析发现,其中有122株携带至少一个可靶向噬菌体的间隔序列(附图4-a),而86株则检测到至少一个靶向质粒的间隔序列(附图4-b)。具体而言,菌株SRR16916889_bin.3_metaWRAP_v1.3_MAG的44个间隔序列与多达5种噬菌体源序列相匹配,而菌株LJ4的32个间隔序列与11种质粒源序列相匹配。深入分析表明,在122株菌中,212个间隔序列与乳酸菌噬菌体Lv-1的序列高度一致,同时在86株菌中,66个间隔序列与L.gasseri HL20质粒序列对应。但仍有65.41%(503/769)的独特间隔序列未发现其来源,这可能是由于噬菌体和质粒序列数据库不完整或目标序列变异所致。

图4 L.jensenii前导序列weblogo图

Fig.4 WebLogo of the leader sequence of L.jensenii

2.5 PAM序列的预测

在Type-Ⅱ型CRISPR/Cas系统中,PAM序列通常位于原间隔子的5′端侧翼区域[21]。在146株携带Type-Ⅱ系统的菌株中,共有233个原间隔序列,对其5′端侧翼序列进行系统分析,L.jensenii PAM序列的8~10号位碱基偏好分别为C/A/T、C/A/T和A/T,推测L.jensenii CRISPR/Cas系统识别效率最高的PAM序列为5′-CCA-3′,与Ⅱ型CRISPR-Cas系统的PAM序列5′-CCN-3′相似[22](图3)。

2.6 前导序列分析

本研究对146株携带CRISPR位点的L.jensenii的前导序列进行了系统分析。结果表明,前导序列中包含多个高度保守位点(接近2 bits)(图4)[23],提示其可能包含CRISPR阵列转录所需的启动子以及其他转录调控元件,以L.jensenii菌株27-2-CHN为例,其前导序列中预测到典型的原核启动子元件,包括-35区(AACTTA)与-10区(GGAATTTTA)(图5)。与此同时,前导序列中也存在信息量较低(<1 bit)的可变区域,表明在不同菌株或生态环境中,这些区域的序列具有较高的多样性。

图5 L.jensenii菌株27-2-CHN前导序列启动子预测

Fig.5 Promoter prediction in the leader sequence of L.jensenii strain 27-2-CHN

3 结论

本研究对177株L.jensenii菌株的全基因组序列的CRISPR/Cas系统结构进行了深入分析,共识别出146株(82.49%)携带了152个确定的CRISPR位点,检出率显著高于MILLER-ENSMINGER等[24]报道的54.55%(6/11)。相比以往研究,本研究样本量显著增加,结果更具可靠性和代表性,进一步完善了L.jensenii CRISPR/Cas系统的数据信息。CRISPR/Cas系统在L.jensenii中的高检出率可能与其基因组结构特征相关。

对CRISPR/Cas系统进行分型的主要依据是Cas蛋白家族的种类、结构、排列顺序以及功能机制。目前国际上通用的分类系统将CRISPR/Cas系统分为2大类(classes),6个类型(types)和33个亚型(subtypes)[25]。Type Ⅱ CRISPR/Cas系统主要分为3种亚型,即Ⅱ-A、Ⅱ-B和Ⅱ-C。本研究结果表明,L.jensenii的CRISPR/Cas系统主要属于Type-Ⅱ型的部分Ⅱ-A亚型和Ⅱ-A亚型。其可能原因在于L.jensenii具有一种尚未被识别的内在调节机制,用于减轻Cas9蛋白的潜在毒性效应,同时,Ⅱ-A亚型CRISPR系统在多数菌株细胞内自然活跃,从而有效防御外源噬菌体及质粒DNA的入侵过程[26]。值得注意的是,1株L.jensenii菌中同时含有部分Ⅱ-A亚型和Ⅱ-A亚型2种CRISPR/Cas系统,表明其具备更加复杂的免疫防御策略。

重复序列是CRISPR阵列的核心结构,不仅在crRNA生成过程中提供结构模板,同时在维持CRISPR阵列的完整性上也起到重要作用。本研究中观察到大多数L.jensenii菌株的CRISPR重复序列在长度、碱基组成和序列结构上高度保守,说明其CRISPR重复序列没有发生显著突变或退化。可见,在L.jensenii中CRISPR/Cas系统仍处于功能活跃状态,且在持续的进化选择压力作用下,其结构和功能得以持续保留[27]。典型的Ⅱ-A亚型系统包括Cas1、Cas2、Csn2和Cas9等4个蛋白,Cas2主要作为Cas1的辅助因子,可形成Cas1-Cas2复合物,在适应过程中捕获入侵者的DNA片段[28]。在本研究中,128例样本缺失Cas2蛋白编码基因,仅含有cas9cas1csn2编码基因,属于不完整的Ⅱ-A亚型系统。有研究发现,在某些菌株中,Cas1蛋白可独立捕获和整合外源DNA片段,Csn2也能在一定程度上参与其DNA末端识别与保护,从而减少对Cas2的依赖性,但仅仅基于Cas1和Csn2的适应过程效率较低[29]

CRISPR/Cas系统中每类包含多个亚型,其进化路径复杂且多样[25]。为深入解析L.jensenii中CRISPR/Cas系统的分子进化特征,本研究基于146株携带CRISPR位点的菌株,分别以cas1cas9 2个关键核心基因构建系统发育树。结果显示,尽管cas1cas9的进化路径在部分菌株中存在轻微差异,但整体聚类趋势高度一致,表明L.jensenii CRISPR/Cas系统在进化过程中具备“保守性与多样性并存”的特征。其中,Ⅱ-A亚型菌株在2种系统发育树中均聚于同一分支,表明其相关基因在进化过程中维持了较高的序列保守性。而部分Ⅱ-A亚型菌株及具备多亚型特征的菌株则在系统发育树中表现为分散或独立分支,反映其可能经历了频繁的基因重组、结构变异或水平转移事件。以上进化特征分析不仅揭示了L.jensenii CRISPR/Cas系统的动态演化过程,也为后续探讨其结构功能关联性及潜在应用价值(如新型Cas9变体的筛选)提供了重要线索。

TracrRNA是典型II型CRISPR/Cas系统中重要的非编码RNA分子,它与crRNA共同作用以引导Cas9蛋白识别并切割靶向DNA序列[30-33]。TracrRNA的长度约在200 bp,通常位于CRISPR阵列与cas基因附近,但其实际长度和具体位置在不同物种及同一物种不同亚种中可能存在差异[33]L.jensenii菌株的tracrRNA主要分布于cas1cas9基因之间非编码区,但也有部分菌株的启动子位于cas1基因内部,且其反重复序列(anti-repeat)与cas9cas1基因序列存在重叠,甚至部分位于其开放阅读框(open reading frame, ORF)内。但本研究所预测的L.jensenii菌株的tracrRNA序列仍需通过实验加以验证。

在典型Ⅱ型CRISPR/Cas系统中,tracrRNA作为反式激活RNA具有关键功能。其anti-repeat区域通过与pre-crRNA的重复序列互补配对以形成RNA双链结构。该双链结构可被RNA特异性核酸酶(RNase Ⅲ)识别并切割,产生成熟的crRNA-tracrRNA杂合体,随后该杂合体可进一步与Cas9蛋白结合成三元复合物,最终介导Cas9蛋白对外源核酸序列的特异性识别和切割,从而完成适应性免疫防御[34]。本研究以菌株27-2-CHN为例,其tracrRNA的结构包括anti-repeat功能域、具有茎环构象的nexus模块以及部分折叠的hairpin区域。该结构与既往文献中乳酸杆菌属tracrRNA的报道高度吻合[33]

L.jensenii广泛存在于女性泌尿生殖道,具有抑制病原菌生长和维持泌尿生殖道微生态平衡的功能[35]。本研究发现,在L.jensenii菌株的CRISPR间隔序列中,近30%的序列特异性地针对与其共享生态位的链球菌属和乳杆菌属内的噬菌体或质粒,表明该菌可通过CRISPR/Cas系统主动防御同生态位细菌及病毒入侵,从而起到维持泌尿生殖道局部微生态平衡的作用[36]。然而,仍有65.41%的间隔序列未能在现有数据库中找到其同源序列,这可能是由于相关的噬菌体或者质粒尚未被发现,也可能是病毒基因组快速变异所致。

PAM序列是一段短且保守的DNA序列,其序列的准确性直接决定了基因编辑的效率和成功率。crRNA-tracrRNA与Cas9蛋白形成的三元复合物只有在识别到正确的PAM序列后才能与目标DNA结合。通过对233段CRISPR系统中的原间隔区邻近序列的系统性分析,本研究预测出L.jensenii的PAM序列为5′-CCA-3′。与常用的化脓性链球菌SpCas9的典型PAM序列5′-NGG-3′存在明显差异,但与植物乳植杆菌中的PAM序列5′-CCN-3′相近[22, 37]。但L.jensenii中cas9识别的精准PAM序列仍需通过实验加以验证。

在CRISPR/Cas基因座中,前导序列位于重复-间隔序列阵列上游,通常长度在150~400 bp,包含CRISPR阵列的特异启动子及多个转录调控元件[38]。LEE等[39]研究表明,在原核生物中,前导序列的碱基组成通常与整个基因组的GC含量相似。L.jensenii的基因组整体GC含量约为34%,推测其前导序列也富含腺嘌呤(A)和胸腺嘧啶(T)。除此之外,部分L.jensenii菌株的CRISPR基因座可能存在一种复合操纵子结构,即同一前导序列区域上游可能存在多个启动子,分别调控cas基因簇与CRISPR阵列的转录表达。这种结构布局有助于实现Cas蛋白和crRNA表达之间的平衡,促进CRISPR/Cas系统更有效的抵御外源DNA入侵[40]。可见,L.jensenii在长期进化过程中为适应复杂生态环境压力,可能通过调控基因表达模式以增强其生态位和生存竞争能力。

综上所述,本研究基于177株L.jensenii的全基因组序列,实施了系统性CRISPR/Cas结构解析。146株L.jensenii被鉴定出含有CRISPR序列,共识别出152个明确的CRISPR位点。这些位点所包含的重复序列长度介于27~40 nt,间隔序列长度为28~40 nt。144株菌含有Cas9蛋白编码基因,包括部分Ⅱ-A亚型(128株,88.89%)、Ⅱ-A亚型(15株,10.42%)和1株菌同时携带部分Ⅱ-A亚型和Ⅱ-A亚型。86株L.jensenii菌株中均含有一个tracrRNA基因,位于cas1与cas9基因之间的非编码区,且其转录方向与相邻cas基因呈反向互补关系。在已鉴定的间隔序列中,检测出219个独特的间隔序列靶向噬菌体,59个靶向质粒。预测L.jensenii的Cas9蛋白高效识别的PAM序列是5′-CCA-3′,这为未来利用该系统开展功能研究与基因编辑工具的开发提供了重要参考。

参考文献

[1] STERN A, MICK E, TIROSH I, et al.CRISPR targeting reveals a reservoir of common phages associated with the human gut microbiome[J].Genome Research, 2012, 22(10):1985-1994.

[2] ZHANG Q, YE Y Z.Not all predicted CRISPR-Cas systems are equal:Isolated cas genes and classes of CRISPR like elements[J].BMC Bioinformatics, 2017, 18(1):92.

[3] KARVELIS T, GASIUNAS G, MIKSYS A, et al.crRNA and tracrRNA guide Cas9-mediated DNA interference in Streptococcus thermophilus[J].RNA Biology, 2013, 10(5):841-851.

[4] LIU G W, LIN Q P, JIN S, et al.The CRISPR-Cas toolbox and gene editing technologies[J].Molecular Cell, 2022, 82(2):333-347.

[5] LI T X, YANG Y Y, QI H Z, et al.CRISPR/Cas9 therapeutics:Progress and prospects[J].Signal Transduction and Targeted Therapy, 2023, 8:36.

[6] HUANG J, ZHOU Y T, LI J, et al.CRISPR/Cas systems:Delivery and application in gene therapy[J].Frontiers in Bioengineering and Biotechnology, 2022, 10:942325.

[7] MEI Z J, LI D D.The role of probiotics in vaginal health[J].Frontiers in Cellular and Infection Microbiology, 2022, 12:963868.

[8] CHEE W J Y, CHEW S Y, THAN L T L.Vaginal microbiota and the potential of Lactobacillus derivatives in maintaining vaginal health[J].Microbial Cell Factories, 2020, 19(1):203.

[9] ANGLENIUS H, MKIVUOKKO H, AHONEN I, et al.In vitro screen of Lactobacilli strains for gastrointestinal and vaginal benefits[J].Microorganisms, 2023, 11(2):329.

[10] LI C X, PENG K X, XIAO S Q, et al.The role of Lactobacillus in inflammatory bowel disease:From actualities to prospects[J].Cell Death Discovery, 2023, 9:361.

[11] GARNEAU J E, MOINEAU S.Bacteriophages of lactic acid bacteria and their impact on milk fermentations[J].Microbial Cell Factories, 2011, 10(Suppl 1):S20.

[12] PUTONTI C, AHMAD A, BADDOO G, et al.Draft genome sequences of 11 Lactobacillus jensenii strains isolated from the female bladder[J].Microbiology Resource Announcements, 2019, 8(35)

[13] CRAWLEY A B, HENRIKSEN E D, STOUT E, et al.Characterizing the activity of abundant, diverse and active CRISPR-Cas systems in Lactobacilli[J].Scientific Reports, 2018, 8:11544.

[14] CHYLINSKI K, LE RHUN A, CHARPENTIER E. The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems[J]. RNA Biology, 2013, 10(5): 726-737.

[15] YANG L, LI W X, UJIROGHENE O J, et al.Occurrence and diversity of CRISPR loci in Lactobacillus casei group[J].Frontiers in Microbiology, 2020, 11:624.

[16] ALKHNASHI O S, SHAH S A, GARRETT R A, et al. Characterizing leader sequences of CRISPR loci[J]. Bioinformatics, 2016, 32(17): i576-i585.

[17] SANTIAGO-FRANGOS A, BUYUKYORUK M, WIEGAND T, et al.Distribution and phasing of sequence motifs that facilitate CRISPR adaptation[J].Current Biology, 2021, 31(16):3515-3524.e6.

[18] CHYOU T Y, BROWN C M.Prediction and diversity of tracrRNAs from type II CRISPR-Cas systems[J].RNA Biology, 2019, 16(4):423-434.

[19] WANG Y, MAO T T, LI Y X, et al.Characterization of 67 confirmed clustered regularly interspaced short palindromic repeats loci in 52 strains of staphylococci[J].Frontiers in Microbiology, 2021, 12:736565.

[20] LONG J Z, XU Y K, OU L Y, et al.Diversity of CRISPR/cas system in Clostridium perfringens[J].Molecular Genetics and Genomics, 2019, 294(5):1263-1275.

[21] JINEK M, CHYLINSKI K, FONFARA I, et al.A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity[J].Science, 2012, 337(6096):816-821.

[22] ROSTAMPOUR M, PANAHI B, MASOUMI JAHANDIZI R.The CRISPR-Cas system in Lactiplantibacillus plantarum strains:Identification and characterization using a genome mining approach[J].Frontiers in Microbiology, 2024, 15:1394756.

[23] KIM J G, GARRETT S, WEI Y Z, et al.CRISPR DNA elements controlling site-specific spacer integration and proper repeat length by a Type II CRISPR-Cas system[J].Nucleic Acids Research, 2019, 47(16):8632-8648.

[24] MILLER-ENSMINGER T, MORMANDO R, MASKERI L, et al.Introducing Lu-1, a novel Lactobacillus jensenii phage abundant in the urogenital tract[J].PLoS One, 2020, 15(6):e0234159.

[25] MAKAROVA K S, WOLF Y I, IRANZO J, et al.Evolutionary classification of CRISPR-Cas systems:A burst of class 2 and derived variants[J].Nature Reviews Microbiology, 2020, 18(2):67-83.

[26] HAN X, ZHOU X Y, PEI Z M, et al.Characterization of CRISPR-cas systems in Bifidobacterium breve[J].Microbial Genomics, 2022, 8(4):000812.

[27] KUNIN V, SOREK R, HUGENHOLTZ P.Evolutionary conservation of sequence and secondary structures in CRISPR repeats[J].Genome Biology, 2007, 8(4):R61.

[28] WILKINSON M, DRABAVICIUS G, SILANSKAS A, et al.Structure of the DNA-bound spacer capture complex of a type II CRISPR-cas system[J].Molecular Cell, 2019, 75(1):90-101.e5.

[29] JAKHANWAL S, CRESS B F, MAGUIN P, et al.A CRISPR-Cas9-integrase complex generates precise DNA fragments for genome integration[J].Nucleic Acids Research, 2021, 49(6):3546-3556.

[30] LIAO C Y, BEISEL C L.The tracrRNA in CRISPR biology and technologies[J].Annual Review of Genetics, 2021, 55:161-181.

[31] GONÇALVES O S, CAMPOS K F, DE ASSIS J C S, et al.Transposable elements contribute to the genome plasticity of Ralstonia solanacearum species complex[J].Microbial Genomics, 2020, 6(5):e000374.

[32] DOOLEY S K, BAKEN E K, MOSS W N, et al.Identification and evolution of Cas9 tracrRNAs[J].The CRISPR Journal, 2021, 4(3):438-447.

[33] CHYLINSKI K, LE RHUN A, CHARPENTIER E.The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems[J].RNA Biology, 2013, 10(5):726-737.

[34] DELTCHEVA E, CHYLINSKI K, SHARMA C M, et al.CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III[J].Nature, 2011, 471(7340):602-607.

[35] COCOMAZZI G, DE STEFANI S, DEL PUP L, et al.The impact of the female genital microbiota on the outcome of assisted reproduction treatments[J].Microorganisms, 2023, 11(6):1443.

[36] MARTN R, ESCOBEDO S, SUREZ J E.Induction, structural characterization, and genome sequence of Lv1, a prophage from a human vaginal Lactobacillus jensenii strain[J].International Microbiology, 2010, 13(3):113-121.

[37] GLOBYTE V, LEE S H, BAE T, et al.CRISPR/Cas9 searches for a protospacer adjacent motif by lateral diffusion[J].The EMBO Journal, 2018, 38(4):EMBJ201899466.

[38] BERNAL-BERNAL D, ABELLN-RUIZ J, INIESTA A A, et al.Multifactorial control of the expression of a CRISPR-Cas system by an extracytoplasmic function σ/anti-σ pair and a global regulatory complex[J].Nucleic Acids Research, 2018, 46(13):6726-6745.

[39] LEE S, YOU H J, KWON B, et al.Complete genome sequence of Lactobacillus jensenii strain SNUV360, a probiotic for treatment of bacterial vaginosis isolated from the vagina of a healthy Korean woman[J].Genome Announcements, 2017, 5(10):e01757-16.

[40] ZAKRZEWSKA M, BURMISTRZ M.Mechanisms regulating the CRISPR-cas systems[J].Frontiers in Microbiology, 2023, 14:1060337.

Bioinformatic analysis of CRISPR/Cas system in Lactobacillus jensenii

HU Qi1, LIAO Caiyu1, TANG Jiachen2, TANG Ke1, CHENG Daomei1, ZHAO Changsong1, YU Meiyan1, HAN Yunlei3*

1(School of Public Health, Chengdu Medical College, Chengdu 610500, China)

2(School of Health and Intelligent Engineering, Chengdu Medical College, Chengdu 610500, China)

3(School of Basic Medical Sciences, Chengdu Medical College, Chengdu 610500, China)

ABSTRACT Clustered regularly interspaced short palindromic repeats (CRISPR) and associated proteins (Cas) have been widely applied in genome editing and molecular diagnostics.To develop genome editing tools based on the Lactobacillus jensenii CRISPR/Cas system, this study performed a bioinformatic analysis of its structural features and potential mechanisms of action. A total of 177 L.jensenii genomes from the GenBank database were analyzed.Using CRISPRViz to identify CRISPR loci.CRISPROne predicted Cas protein types and tracrRNA positions.MEGA X was employed to construct phylogenetic trees.RNAfold analyzed the secondary structures of repeat sequences.CRISPRTarget performed spacer homology analysis and protospacer adjacent motif (PAM) prediction.Among the 177 genomes, 146 (82.49%) contained CRISPR loci, comprising 152 confirmed arrays.The CRISPR repeats ranged from 27 to 40 nucleotides, while spacer ranged from 28 to 40 nucleotides, with 3 to 44 spacers per array.A total of 144 strains carried cas9 genes, predominantly of partial subtype Ⅱ-A (128 strains, 88.89%), and subtype Ⅱ-A genes were detected in 15 strains (10.42%).One strain harbored cas genes from both subtypes.Additionally, 86 strains contained one tracrRNA gene, located in the non-coding region between cas1 and cas9 genes.Of the 769 unique spacers, 219 targeted phages, 59 targeted plasmids, and the remainder had unknown targets.The predicted PAM sequence recognized by L.jensenii Cas9 was 5′-CCA-3′.These findings provide a reference for developing CRISPR/Cas9-based gene editing tools for L.jensenii.

Key words Lactobacillus jensenii;CRISPR/Cas;repeats;spacer;tracrRNA;protospacer adjacent motif

DOI:10.13995/j.cnki.11-1802/ts.043897

引用格式:胡琪,廖彩羽,唐佳晨,等.詹氏乳杆菌CRISPR/Cas系统生物信息学分析[J].食品与发酵工业,2026,52(9):1-9.HU Qi, LIAO Caiyu, TANG Jiachen, et al.Bioinformatic analysis of CRISPR/Cas system in Lactobacillus jensenii[J].Food and Fermentation Industries,2026,52(9):1-9.

第一作者:硕士研究生(韩云蕾讲师为通信作者,E-mail:1042210976@qq.com)

基金项目:国家自然科学基金项目(31800070);四川省自然科学基金项目(2022NSFSC1679);成都医学院研究生教育教学改革项目(YJG202415)

收稿日期:2025-07-14,改回日期:2025-09-28