张万祥,刘 浩,王 龙,张水寒

(1.湖南中医药大学,湖南 长沙 410208;2.湖南省中医药研究院,湖南 长沙 410013;3.中国药科大学,江苏 南京 210009)

楝叶吴萸Euodia glabrifolia(Champ. ex Benth.)Huang与臭辣吴萸Euodia fargesiiDode为芸香科吴茱萸属Euodia植物,两者在药用存在明显的不同[1-2]。臭辣吴萸果实在广西和湖北是吴茱萸的地方习用品,但研究[3-4]表明臭辣吴萸药材品质略低于吴茱萸,而楝叶吴萸的果实则是吴茱萸药材的常见伪品。Flora of China[5]将楝叶吴萸Euodia glabrifolia(Champ. ex Benth.)Huang与臭辣吴萸Euodia fargesiiDode合并为Tetradium glabrifolium(Champion ex Bentham)T. G. Hartley。可见,植物分类与药用情况存在差异。上述现象的主要原因是吴茱萸属植物形态极其相似,同种形态变化较大,根据其外观形态很难准确区分。且现代分子鉴定方面研究使用的通用DNA条形码(ITS2和psbA-trnH)对吴茱萸属植物鉴别也不理想[6-7]。因此,亟待阐明吴茱萸属药用植物的种间亲缘关系并寻找更适合吴茱萸属药用植物种质资源鉴定的方法。

植物的叶绿体基因组以其单亲本遗传、序列长度适中和进化速度较慢等特征[8-9],不仅成功应用在诸多鉴定困难的药用植物中,同时在确定系统发育位置、近缘物种间的亲缘关系和揭示物种起源等方面作出了重要贡献,例如中药材赤芍、大黄的基原鉴定和川贝母及其近缘种亲缘关系的确定[10-12]。近年来,已有部分吴茱萸属物种完成了叶绿体基因组测序,如吴茱萸Euodia rutaecarpa(Juss.) Benth.、石虎Euodia rutaecarpavar.officinalis(Dode) Huang等物种,但是关于楝叶吴萸和臭辣吴萸的叶绿体基因组测序与系统发育关系分析的研究还未见报道。因此,本研究利用Illumina高通量测序技术,对楝叶吴萸和臭辣吴萸的叶绿体基因组序列进行了测序、组装和分析,并与吴茱萸药材正品基原吴茱萸Euodia rutaecarpa(Juss.)Benth.、石虎Euodia rutaecarpavar.officinalis(Dode) Huang叶绿体基因组比较,筛选出种间高变异位点,以期为确定楝叶吴萸Euodia glabrifolia(Champ. ex Benth.)Huang与臭辣吴萸Euodia fargesiiDode分类学地位提供分子生物学证据,并且为吴茱萸药材分子鉴定提供参考。

1 材料、仪器与软件

1.1 材料 本研究所用的实验材料为楝叶吴萸和臭辣吴萸的健康新鲜嫩叶,分别采自广州市、长沙市与黄山市,并经湖南省中医药研究院刘浩副研究员鉴定。楝叶吴萸与臭辣吴萸样品各两份,对应凭证标本保存于湖南省中医药研究院药用植物标本馆(HUTM)。所测叶绿体基因组数据已上传至美国国家生物技术信息中心(NCBI)数据库,登录号分别为OP974489,OP974490[楝叶吴萸Euodia glabrifolia(Champ. ex Benth.)Huang]和OP974487,OP974488(臭辣吴萸Euodia fargesiiDode)。用于比较分析的叶绿体基因组均从NCBI的GenBank数据库下载,分别为吴茱萸[Euodia rutaecarpa(Juss.)Benth.,NC_052830][13]和石虎(Euodia rutaecarpavar.officinalis(Dode) Huang,MT134114)[14]。

1.2 仪器与软件

1.2.1 仪器 赛默飞75002440高速离心机(赛默飞世尔科技公司);JXFSTPRP-CL冷冻研磨仪(上海净信实业发展有限公司);伯乐T100 PCR仪(伯乐生物科技有限公司);天能HE-120凝胶电泳仪(上海天能科技有限公司);Nano-300微量分光光度计(杭州奥盛仪器有限公司);Covaris DNA打断仪器(Covaris, USA);NEBNextUltraTMⅡDNA Library Prep Kit for Illumina (NEB, USA);Qubit3.0 Flurometer (Life Technologies, CA, USA);Agilent Bioanalyzer 2100 system (Agilent Technologies, CA, USA);NovaSeq 6000 (Illumina, USA)

1.2.2 软件 SOAPnuke (v.1.3.0);SPAdes (v.3.15);Bandage;MPI-MP CHLOROBOX;condonW (v.1.4.2);MAFFT (v.7.490);REPuter;Tandem Repeats Finder;Misa.pl;mVISTA;IRscope;DnaSP (v.6.12.03);IQ-TREE 2;Chiplot Online。

2 方法

2.1 基因组DNA提取与测序 取新鲜健康嫩叶,使用CTAB法提取总基因组DNA[15]。DNA经检测合格后,用Covaris超声波破碎仪随机打断成350 bp左右大小片段,使用NEB NextUltraTMⅡDNA for Illumina文库准备试剂盒构建用于测序的150 bp双末端测序文库。建好的文库先使用Qubit 2.0进行初步定量,稀释文库,随后使用Agilent 2100对文库的插入片段进行检测,插入片段大小符合预期后,使用Q-PCR方法对文库的有效浓度进行准确定量,质量检测合格的文库在Illumina NovaSeq 6000(北京擎科生物科技有限公司)平台上进行测序,下机后采用SOAPnuke v.1.3.0软件对原始数据进行过滤,获得的高质量序列(clean reads)以FASTQ格式保存[16]。

2.2 叶绿体基因组的组装与注释 过滤后的数据使用SPAdes v.3.15软件[17]进行叶绿体基因组从头组装,组装参数k-mer大小为55 105 127。组装的contigs序列文件,使用Bandage软件[18]除去冗余序列,并以吴茱萸叶绿体基因组(Gen-Bank登录号NC_052830)为参考,手动校正每个contig的方向与位置,最终获得一条环状的叶绿体基因组序列。使用MPIMP CHLOROBOX(https://chlorobox.mpimp-golm.mpg.de/index.html)在线注释程序对完成组装的叶绿体基因组序列进行注释[19],以NC_052830注释信息为参考,必要时手动纠正密码子的起始和终止边界。叶绿体基因组可视化圈图利用OGDRAW在线程序绘制[20]。

2.3 密码子偏好性分析与重复序列检测 使用condonW v.1.4.2软件[21]对4种吴茱萸属植物的叶绿体基因组密码子偏好性进行分析,包括GC含量、密码子使用频率和相对同义密码子使用度(relative synonymous codon usage,RSCU)。在分析之前需对蛋白编码基因进行处理:(1)去除非ATG开头的蛋白编码基因;(2)删除重复的蛋白编码基因;(3)删除小于300 bp的蛋白编码基因。最后将获得的52条蛋白编码基因拼接成一条,所有序列保存在一个文件中,并使用MAFFT v.7.490软件[22]进行多序列比对。

REPuter与Tandem Repeats Finder在线程序[23-24]被用于叶绿体基因组的长重复序列分析,包括正向重复(Forward repeats,F)、反向重复(Reverse repeats,R)、回文重复(Palindromic repeats,P)和串联重复(Tandem repeats,T);参数:海明距离(Hamming distance)为3,最小重复片段大小(minimal repeat size)为30 bp,最大计算重复次数(maximum computed repeats)为5 000 bp。Misa.pl脚本[25]被用于识别叶绿体基因组的简单重复序列(SSRs),使用以下参数设置:最小重复数单核苷酸为10 bp,二核苷酸为5 bp,三核苷酸为4 bp,四、五和六核苷酸为3 bp,两个SSRs之间最小间距为-6 bp。

2.4 叶绿体基因组比较分析 利用mVISTA(Shuffle-LAGAN模式)软件[26]以吴茱萸叶绿体基因组为参照,将新测叶绿体基因组与吴茱萸和石虎(NC_052830和MT134114)叶绿体基因组进行全局比对分析;使用IRscope在线程序[27]绘制上述6个叶绿体基因组的反向重复区(IR)边界图,并根据边界上的基因位置差异分析其收缩与扩张情况;使用DnaSP v.6.12.03软件[28]分析4种吴茱萸属药用植物的序列多态性,根据核苷酸多样性值(Pi)与mVISTA结果筛选高变异区,滑动窗口长度设置为600 bp,步长设置为200 bp。

2.5 系统发育分析 为明确4种吴茱萸属药用植物的种间亲缘关系及系统发育位置。本研究选择以臭辣吴萸和楝叶吴萸在内的31条叶绿体基因组的共有蛋白编码基因序列构建系统进化树,鸦胆子Brucea javanica (L.) Merr.(NC_063730)为外类群。建树前利用MAFFT v.7.490软件进行多重比对,完成比对的序列使用IQ-TREE软件包[29]中的ModelFinder确定最佳模型,并在IQ-TREE软件中基于最大似然法(maximum likelihood,ML)构建系统进化树,设置自展值(Bootstrap value)为1 000;最佳拟合模型为GTR+F+R2。系统进化树结果使用Chiplot Online(https://www.chiplot.online/tvbot.html)在线程序查看。

3 结果与分析

3.1 吴茱萸属叶绿体基因组特征 4种吴茱萸属植物的叶绿体基因组均为典型的四分体结构,包括一对反向重复区(inverted repeats,IRs)分别被一个大单拷贝区(large single copy,LSC)和一个小单拷贝区(small single copy,SSC)分开。(见图1)叶绿体基因组大小为158 563(E. glabrifolia)~158 762 bp(E.rutaecarpa),LSC区大小为86 104(E. glabrifolia)~86 299 bp(E.rutaecarpa var. officinalis),SSC区大小为18 212(E. fargesii)~18 265 bp(E. rutaecarpa var. officinalis),IR区大小为27 101(E. rutaecarpa var. officinalis)~27 127 bp(E. fargesii)。基因组的GC含量是判断物种亲缘关系的重要指标,吴茱萸属叶绿体基因组总GC含量为38.34%~38.37%,LSC、SSC、IR区的GC含量相似(见表1),可见吴茱萸属植物叶绿体基因组大小和GC含量存在一定差异,但差异不明显。

表1 叶绿体基因组特征统计

图1 楝叶吴萸与臭辣吴萸叶绿体基因组圈图

叶绿体基因组注释结果表明,楝叶吴萸与臭辣吴萸叶绿体基因组在基因大小、位置与数量上高度一致,均检测到134个基因,包括蛋白质编码基因(PCGs)89个,tRNA基因37个,rRNA基因8个。共有19个编码基因在IR区重复,包括4个rRNA、7个tRNA、8个PCGs。在这两个物种的叶绿体基因组中,均检测到18个基因含有内含子,其中3个基因(rps12、ycf3和clpP)含有2个内含子,其余15个基因(petB、petD、atpF、ndhA、ndhB、rpoC1、rps16、rpl2、rpl16、trnA、trnG、trnI、trnK、trnL和trnV)含有1个内含子。(见表2)

表2 吴茱萸属叶绿体基因组基因构成

3.2 密码子使用偏性分析 在4种吴茱萸属植物的叶绿体蛋白编码基因中共发现64种密码子(见图2)。密码子使用偏性分析发现,编码楝叶吴萸与臭辣吴萸的叶绿体基因组密码子均为20 845个,比石虎(20 836个)和吴茱萸(20 831个)稍多。在这些密码子编码的氨基酸中,亮氨酸(Leu)的使用频率最高,而半胱氨酸(Cys)最低。编码亮氨酸的UUA密码子和编码酪氨酸的UAC密码子的RSCU值分别为最高和最低。共有30个密码子的RSCU值大于1,其中29个是A/U结尾的密码子,表明这些同义密码子使用频率较高;共有32个密码子的RSCU值小于1,其中28个是G/C结尾的密码子,表明这些同义密码子使用频率较低。编码蛋氨酸(AUG)和色氨酸(UGG)的密码子只有1个,而且RSCU值为1,表明这些同义密码子没有偏好性。使用频率高的密码子几乎都以A/U结尾,表明4种吴茱萸属植物均偏好使用A/U结尾密码子。终止密码子的使用偏向于UAA密码子,臭辣吴萸与其他物种相比主要在终止密码子偏好上表现出差异,终止密码子UAA的偏好性略低。

图2 4 种吴茱萸属植物的RSCU 值热图

3.3 长重复序列与简单重复序列(SSR)分析 从4个吴茱萸属植物叶绿体基因组中共鉴定出149个长重复序列(30~90 bp)(见图3)。其中正向重复序列67个,回文重复序列59个,反向重复序列21个,互补重复序列2个。在吴茱萸中检测到41个长重复序列,石虎中检测到37个长重复序列,楝叶吴萸中检测到35个长重复序列,臭辣吴萸中检测到36个长重复序列。此外,还检测到串联重复序列141个(9~90 bp)。4个物种的长重复序列在类型上相近,但是在数量上有差异。臭辣吴萸相较于其余物种在串联重复序列数量上的差异尤为突出。

图3 长重复序列鉴定结果统计图

利用Misa.pl脚本从4种吴茱萸属植物的叶绿体基因组中共鉴定出350个SSR,在吴茱萸植物中共检测到98个SSR,石虎植物中共检测到91个SSR,楝叶吴萸植物中共检测到79个SSR,臭辣吴萸植物中共检测到82个SSR。共检出5种类型核苷酸重复序列,分别为单核苷酸(mononucleotide)、二核苷酸(dinucleotide)、三核苷酸(trinucleotide)、四核苷酸(tetranucleotide)和五核苷酸(pentanucleotide)重复序列,没有检测到六核苷酸(hexanucleotide)重复序列(见图4)。以单核苷酸重复序列最多(59~78个),占SSR总数的74%~80%,其次为三或四核苷酸SSR,五核苷酸SSR最少。在所有核苷酸重复序列中以A/T重复序列最多。此外,就分布位置而言,这些位点在叶绿体基因组中分布是不均匀的,76% SSR位点分布于LSC区,11% SSR分布于SSC区,13% SSR分布于IRs区。

图4 简单重复序列鉴定结果统计图

3.4 叶绿体基因组比较与序列多样性分析 为了明确6个吴茱萸属叶绿体基因组序列之间的差异程度,使用mVISTA对序列进行了比对(见图5)。结果表明,6个序列之间的分化程度较低,具有高度的相似性。其中IR区变异程度比SC区低,非编码区变异程度明显比编码区的高。存在较高差异的序列为trnS-trnG、atpF-atpH、psbZ-trnG、ycf4-cemA、rpl22和ycf1-ndhF。使用DNAsp软件分析了4种吴茱萸属植物的叶绿体基因组核苷酸多样性(Pi)(见图6),结果共检测到298个多态性(分离)位点,Pi值变化范围为0~0.01,平均Pi值为0.001 06。此外,通过Pi值的比较筛选了5个多样性较高的点,分别是psbM-trnA、psbCtrnS、ycf4-cemA、clpP和rpl32-trnL,它们的核苷酸多态性均大于0.008。其中4个位点位于LSC区,1个位于SSC区,基因间隔区psbM-trnA的核苷酸多态性最高。这些位点的筛选对于吴茱萸属植物分子标记的开发具有潜在价值。

图5 6 个吴茱萸属植物的叶绿体基因组序列比对图

图6 滑动窗口分析图

将4个吴茱萸属物种的叶绿体基因组的IR区边界进行比较分析(见图7),结果表明这些叶绿体基因组高度保守,但也存在一定差异。LSC/IRb(JLB)、IRb/SSC(JSB)、SSC/IRa(JSA)边界分别位于rpl22、ycf1假基因与ycf1基因之中,IRa/LSC(JLA)边界则位于rpl22与trnH基因之间。其中rpl22基因跨越JLB边界至IRb区246~260 bp,ycf1假基因跨越JSB边界至IRb区1183~1196bp,ycf1基因跨越JSA边界至IRa区1 183~1 196 bp,rpl22基因距离JLA边界1 bp。吴茱萸与石虎的边界跨越结果较为一致,但rpl22基因跨越距离有差异。

图7 吴茱萸属6 个植物叶绿体基因组IR 边界比较分析

3.5 亲缘关系研究 为了明确4种吴茱萸属植物之间的亲缘关系,本研究采用最大似然法(ML)研究了芸香科的系统发育关系,其中包括30个芸香科植物和1个苦木科植物的叶绿体基因组(见图8)。结果显示以共有蛋白编码基因序列构建的系统发育树具有较高的支持度,同属物种均聚集在同一分支中。在整个芸香科植物系统发育关系上,与吴茱萸属植物亲缘关系最近的属是黄檗属植物。在吴茱萸属内,吴茱萸与石虎以100%的支持度聚为一支,楝叶吴萸与臭辣吴萸以75%的支持度聚为一支,且这两支互为姐妹关系。蜜楝吴萸早于其余两支吴茱萸属物种分化出来并且遗传距离较远。

图8 基于叶绿体基因组共有蛋白编码基因构建的最大似然(ML)系统发育树

4 讨论

本研究完成了药用植物楝叶吴萸与臭辣吴萸叶绿体基因组的测序、组装与注释,并进行了比较分析。基因组特征分析结果表明吴茱萸属的叶绿体基因组在进化过程中高度保守。密码子使用偏好性是叶绿体基因组中一个重要进化特征,能在一定程度上反映物种的亲缘关系[30-31]。从RSCU值热图可看出4种吴茱萸属植物的亲缘关系很近,且以吴茱萸与石虎最近。此外,吴茱萸属植物密码子的碱基使用偏好A/U,这与其他芸香科植物的密码子使用偏性结果一致[32]。

重复序列的检测对植物的遗传多样性分析和种质资源的分子标记鉴定具有重要意义。与其他被子植物研究结果一致,SSR位点在叶绿体基因组中分布是不均匀的,大部分位于LSC区,A/T单核苷酸重复类型最为常见[33]。吴茱萸属4个物种的长重复序列在类型上相近,但是在数量上有差异,例如长重复序列的主要组成类型正向重复与回文重复序列,吴茱萸与石虎的数量相近,楝叶吴萸与臭辣吴萸的数量相近。臭辣吴萸与其余物种的差异主要体现在串联重复序列数量的差异。这表明4种吴茱萸属植物的突变频率存在一定差异。

通过分析,本研究发现吴茱萸属的叶绿体基因组IR区较LSC区和SSC区更为保守,且基因间区的多样性明显高于基因编码区。筛选出的高变区与通用DNA条形码(psbA-trnH、rbcL、matK等)相比表现出更高的变异性,因此可作为鉴别吴茱萸及其混伪品的潜在分子标记,但需要进一步实验验证。吴茱萸属物种的IR区边界存在差异,种间差异主要表现在JLB与JSA边界,在叶绿体基因组进化中起重要作用的rpl22与ycf1表现出较高的差异。

基于共有蛋白编码基因构建了系统进化树。吴茱萸与石虎为姊妹类群,支持率为100%,表明两者亲缘关系最近;楝叶吴萸与臭辣吴萸为姊妹类群,支持率为75%,亲缘关系较近。臭辣吴萸和楝叶吴萸在吴茱萸属分支中最先分化出来,且与其余吴茱萸属物种亲缘都较远。之前的研究显示对于蛋白编码基因鉴定效果不理想的物种,可以利用叶绿体全基因组作为超级条形码有效鉴定分类困难物种[34],这有助于重建高分辨率的吴茱萸属系统发育树。

本研究首次报道了芸香科药用植物楝叶吴萸与臭辣吴萸的叶绿体全基因组,明确了4种吴茱萸属植物的叶绿体基因组特征,筛选了一批用于吴茱萸药材真伪鉴定的DNA条形码潜在位点,阐明了芸香科植物种属之间的亲缘关系,为我国吴茱萸药材正品和混伪品基原物种的分子鉴定研究提供了科学依据,也为芸香科植物的分类、育种和遗传多样性研究提供了亟需的分子遗传信息。