李 珂,王宇龙,李 栋,史新娥,杨公社,于太永

(西北农林科技大学动物科技学院,杨凌 712100)

自1990年“人类基因组计划”(Human Genome Project)[1]提出以来,基因组学得到了迅速发展,为生命科学的多个领域提供了重要的研究基础。随着越来越多物种的基因组被测序和组装,研究人员发现,同一物种的不同个体间基因组信息具有较大差异,单一参考基因组并不能完整涵盖其所有的遗传信息,这可能会阻碍物种基因组变异的精准鉴定。2005年,Tettelin等[2]首次提出了泛基因组的概念,开启了泛基因组学研究的新时代。随后,泛基因组学逐渐应用于细菌、真菌及动植物等研究领域。本文对泛基因组学的发展历程、构建策略及其在畜禽上的研究现状进行综述,以期为畜禽泛基因组的深入研究提供参考。

1 泛基因组的概念和发展

1.1 泛基因组的概念

2005年,Tettelin等[2]在研究无乳链球菌菌株的基因组时,首次提出了微生物泛基因组(或超基因组supragenomes)的概念[3-4]。在这项研究中,他们发现不同菌株之间的基因组存在明显差异,平均每检测1个新的菌株会出现33个新基因,这表明单一菌株的遗传信息并不能完全代表该菌种的所有遗传信息。泛基因组是指一个生物进化支(如物种)的全部个体基因序列的集合,它不但能够更为全面的涵盖物种的遗传信息,同时为物种多样性和进化适应性的研究提供了新的视野[5]。泛基因组在不同类型的物种中定义有所不同。在原核生物的研究中,由于细菌等原核生物的DNA序列大多具有功能,且基因序列中几乎不含内含子,因此,在原核生物的研究领域,泛基因组通常代表着该物种的基因序列而非全部的基因组(genome)序列。真核生物的基因组是由编码蛋白的序列(外显子)、基因间区和内含子等非编码序列组成。因此,真核生物的泛基因组定义的一般是物种所有的DNA序列总集合[6-7]。

泛基因组由核心基因组和可变基因组组成(图1)。核心基因组是同一物种的所有个体中都存在的基因集合或序列,对生命活动和表型性状至关重要;可变基因组则只存在于一个或多个个体中,这些基因序列并不在所有个体中出现[8-10],一般与通讯、毒性和防御反应有关[11-14]。可变基因组又可细分为单一个体的特有基因和两个或两个以上个体中的附属基因[8-9]。在另一种分类方法中,可变基因组又可分为壳基因组(shell,占全部个体基因组的5%~95%)和云基因组(cloud,仅存在约少于5%的个体基因组中)[15]。在动植物的研究领域,可变基因与物种在特定环境的适应性或特有的生物学特征有关,如抗寒性[16]和抗病性[17]等。泛序列(pan-sequence)也被用来描述存在于其他个体基因组但不存在于参考基因组中的序列。概括地说,核心基因组可以反映物种的遗传稳定性及本质,而可变基因组与个体适应环境的特征相关[18-19]。

图1 泛基因组的概念Fig.1 The concept of pan-genome

1.2 泛基因组的发展

DNA测序技术在测序速度和准确性等方面的进步,推动了泛基因组学的迅速发展[20-22]。2005年,Tettelin等[2]在细菌上首次引入“泛基因组”的概念。研究人员发现,细菌中广泛存在基因损失和基因水平转移[23],在不同菌株之间会发现新的可变基因。Read等[24]对遍布全球海洋的真核生物赫氏圆石藻进行基因组学研究,发现其基因组之间具有差异性,这为泛基因组在真核生物领域的发展提供了参考。2007年,Morgante等[25]首次在植物上引入泛基因组的概念,发现可变基因中的转座子具有重要的作用。2010年,Li等[26]和Goodwin等[27]利用第二代测序技术构建了人类的首个泛基因组,该研究结果补充了人类基因组序列并首次发现了主要存在于亚洲人群内特有的基因序列。2013年,泛基因组学研究开始较为广泛地应用于动植物研究领域[28-29]。2014年,研究人员成功构建了首个大豆的泛基因组,突破了大豆单一参考基因组研究的局限性,开启了植物泛基因组研究历程[30]。2019年,Chen等[31]提出园艺植物基因组计划,构建了多个园艺植物的泛基因组,为未来园艺植物基因组遗传变异信息的破译提供了重要参考。

然而,由于测序技术的局限性,使用第二代全基因组测序技术得到的短序列组装基因组仍然非常困难,这主要是由于基因组组装需要大量的计算资源,不能很好地扩展到数十到数百个连续的基因组。随着测序技术的成熟和测序成本的降低,光学图谱[32]、遗传图谱[33]和染色体构象捕获技术(Hi-C)[34-35]等得到了迅速的发展,增加了从千碱基大小的contigs到全染色体的序列连续性。近年来,泛基因组学的研究方法引入了第三代测序技术,不但提高了泛基因组的质量,同时缩短了泛基因组构建的时间。2020年,Song等[36]利用三代测序技术构建油菜泛基因组,为系统挖掘和揭示油菜的复杂遗传变异提供了数据基础。随着多个物种高质量泛基因组的陆续发表,如蝙蝠[37]、狗尾草[38]、贻贝[39]、水稻[40]、草莓[41]、棉花[42-44]、马铃薯[45-46]、蚕[47]等,利用泛基因组学解析物种的复杂遗传变异逐渐成为了基因组研究领域的热点。

2 泛基因组的组装策略

泛基因组的构建策略主要分为迭代组装泛基因组、从头组装泛基因组以及图形泛基因组这三种方式[48-49](图2)。迭代组装使用“map-to-pan”策略,用大规模的重测序数据构建泛基因组;从头组装泛基因组使用“assemble-to-pan”策略,对较少数量的个体进行高深度测序构建泛基因组;图形泛基因组是在从头组装泛基因组基础上,通过构建数学和计算机中被称为图(graph)的数据结构来展示一个物种所有的基因序列排列和结构,突破了传统线性基因组的存储形式,具有重要的理论意义和应用价值。

图2 泛基因组的组装策略Fig.2 Schematic of the pan-genome assembly approaches

2.1 迭代组装泛基因组(iterative assembly)

迭代组装泛基因组(iterative assembly or map-to-pan)的方法是通过对大量个体进行全基因组重测序,在从头组装单个基因组后再映射到参考基因组,将所有未比对上的新序列集与参考基因组合并,构建泛基因组参考序列[50-52]。2018年,Wang等[53]对3 010份水稻测序运用“map-to-pan”策略,从重测序个体中组装出 268 Mb 的非冗余序列,补充到日本晴水稻参考基因组,为后续遗传变异检测和功能分析提供了数据支撑。2019年,研究人员对493份向日葵重测序数据进行分析,通过构建向日葵泛基因组,分析了基因渗入对向日葵疾病抗性的影响[54]。2020年,Alonge等[55]利用迭代组装方式构建了100个番茄的PanSV基因组,发现sb1 loci 对于解决 QTL 背后的复杂单体型至关重要,为培育具有高产、优质、抗病虫害等优良性状的番茄新品种奠定了坚实的基础。然而,迭代组装泛基因组也存在着一定的问题。由于泛序列补充到参考基因组上顺序具有不确定性,不但会导致无法真实反映新基因在泛参考基因组上的位置信息,在进行多拷贝基因的研究中也容易降低检测效率。同时,在一些具有高度重复性和SVs普遍存在的作物基因组中,易出现组装错误[56]。

2.2 从头组装泛基因组(de novo assembly)

从头组装并注释个体基因组,通过个体基因组间的相互比较鉴定出核心与可变基因,去除冗余序列后构建泛基因组的方式被称为从头组装泛基因组,多用SOAPdenovo[57]软件进行组装,是运用较为广泛的方法,如人类[26]、玉米[58]、大豆[30]、大麦[59]和小麦[60]的泛基因组都是基于这种方法组装的。其中,大豆的泛基因组研究发现,组装大豆野生近缘种Glycinesoja能够覆盖94%的栽培大豆Glycinemax基因,鉴定出338个存在/缺失变异(presence/absence variation, PAV)、1 978个拷贝数变异(copy number variations, CNV)和一系列位于高度差异基因区域的单核苷酸多态性(single nucleotide polymorphisms, SNP)和小于50 bp的片段插入或缺失片段(INDELs)。基于大豆泛基因组检测到的基因组变异信息有着重要的育种和生产价值,为大豆的研究提供了重要的数据基础。在动物泛基因组的研究上,长颈鹿[61]、果蝇[62]和熊蜂[63]等是从头组装泛基因组的经典之作,为解析物种的遗传差异和进化关系提供了重要的参考价值。从头组装泛基因组可以提供所有个体的基因组信息、基因和其他基因组的物理位置,能够高效识别重复区域和拷贝数变异。然而,由于组装基因组需要大量的测序数据和计算资源,相对来说成本较高[64]。

2.3 构建图形泛基因组(graph-based genome/varia-tion gragh)

图形泛基因组最早用于微生物泛基因组的构建,近年来在动植物基因组中逐渐崭露头角[65]。图形基因组是一种较为理想的构建策略[66],基于从头组装基因组后将不同个体的基因组比对到线性参考基因组后提取变异信息。变异信息去冗余后与线性基因组整合通过多条路径的方式来展示各种变异。这种方法不但能够保留变异序列在染色体上的位置信息,还可以较为完整的展现物种基因组的多样性。Vg[67]、Minigraph[68]、Cactus[69]等软件是近年来研究人员开发的用于图形基因组构建的工具,能够帮助学者更好、更直观地理解基因组的结构变异信息。2020 年发表的大豆泛基因组,是构建的首个作物高质量图形泛基因组。研究人员使用第三代测序数据从头组装了26个大豆的基因组,平均 contig N50 达到了 22.6 Mb[70]。此研究挖掘到了大量利用单个参考基因组不能鉴定到的基因变异,为解析大豆种皮的亮度、颜色变化等重要农艺性状的调控机制奠定了基础。2021年Qin等[40]首次构建了水稻图形泛基因组,促进了水稻功能基因组学的研究,为深度挖掘水稻基因组变异和培育突破性的水稻新品种提供了重要依据。萝卜[71]、白菜[72]、番茄[73]、鹰嘴豆[74]、棉花[43]、马铃薯[46]等多个物种的泛基因组图谱相继被研究人员构建,为基因组功能研究和分子育种提供了重要的数据支撑。

3 畜禽泛基因组学研究

泛基因组近年来已广泛应用于微生物、植物及动物研究中,在探究物种起源驯化以及改良遗传育种体系等方面展现出巨大潜力。以下总结了泛基因组在畜禽领域中的最新研究成果。

3.1 泛基因组在猪上的研究

猪是农业上重要的家畜,也是生物研究和应用的重要医学模型。随着基因组测序组装技术的不断革新,猪的基因组被不断完善。目前,猪的参考基因组是2017年公布的基于第三代测序技术组装的杜洛克猪基因组(Sscrofa11.1),contig N50达到了48.23 Mb,与人和其他模式动物基因组组装质量不相上下。然而,由于猪的起源驯化及其群体间表型和基因型的巨大差异[75-76],使用杜洛克猪参考基因组对世界范围内不同猪种进行遗传变异的研究具有很大的局限性。2017年,四川农业大学Li等[77]使用10只来自欧亚大陆的猪的基因组构建了猪的泛基因组,挖掘到了大量新的猪基因组变异信息。研究发现了猪参考基因组中不存在的137.02 Mb的缺失片段,弥补了单一参考基因组涵盖遗传信息有限的问题,为后续猪的基因组研究提供了新的分析思路及宝贵的遗传资源。

2020年,西北农林科技大学Tian等[78]基于猪参考基因组(Sscrofa11.1)和11个世界范围内具有地理和表型代表性的猪种构建了猪泛基因组,研究发现了72.5 Mb 的非冗余泛序列,其中约9 Mb的泛序列在亚洲猪基因组中的频率显着高于欧洲猪。转录组分析发现,亚洲猪中特有的TIG3基因可能是亚洲猪脂质代谢过程中的关键基因。同时,研究人员通过构建猪泛基因组数据库,将泛基因组和转录组等数据整合,为后续研究提供重要的数据资源。

2023年,中国农业大学Jiang等[79]整合了11个猪品种构建了中西方猪的图形泛基因组。该研究利用长读长测序在藏猪上鉴定了7 568个特异性SVs,通过结合22头藏猪和98头低海拔猪的重测序数据,并与先前的研究结果比较分析得到了12个与高海拔适应性有关的候选基因。通过后续试验鉴定出SOD1、SEMA5A、REV1、SGCD是与高海拔低氧适应性有关的候选基因,为猪遗传育种提供了丰富的基因组变异信息。

3.2 泛基因组在牛上的研究

牛作为重要的经济动物在许多国家都有广泛的用途,可以为人类提供牛奶、肉类、皮革和肥料等。来自全世界的研究人员在牛泛基因组的研究领域上做出了杰出贡献,如苏黎世联邦理工学院Hubert Pausch实验室聚焦牛基因组学研究、美国农业部建立了牛泛基因组联盟、中国研究人员结合本土黄牛构建牛泛基因组等。2020年,苏黎世联邦理工学院Crysnanto和Pausch[80]利用vg构建了首个牛的图形泛基因组,显着提高了序列比对和基因分型的准确性。随后,该团队结合PacBio CLR和PacBio HiFi测序技术,利用minigraph将6个高质量牛基因组整合到一个图结构泛基因组框架中,鉴定出70 Mb的非参考序列并构建了包含新序列及变异位点的牛的图形泛基因组,为后续多物种泛基因组的研究提供了思路和图结构框架[81]。西北农林科技大学Gong等[82]利用12个牛属个体从头组装泛基因组,发现了36.3 Mb非参考序列,为研究牛的优良遗传性状提供了理论基础;爱丁堡大学Talenti等[83]利用组装的两头非洲牛染色体水平基因组,并结合294头不同牛品种的重测序数据构建了一个包含全球牛多样性的基因组图并鉴定出116.1 Mb的非参考序列。上述研究完善了现有牛的参考基因组(ARS-UCD1.2)并为进一步挖掘牛的遗传多样性提供了新的变异位点。

随着第三代长读长测序的迅速发展,越来越多的研究人员聚焦于研究结构变异(structural variation, SV)对复杂性状的影响。2022年,来自瑞士、美国的牛泛基因组联盟(Bovine Pangenome Consortium,BPC)实验室共同构建了基于结构变异的牛泛基因组,并使用不同的测序平台、覆盖深度和组装算法对泛基因组构建的潜在影响进行了探究,研究表明,20X 覆盖度的PacBio HiFi数据可以完成牛单倍型基因组组装,且具有较好的连续性与准确性[84]。华中农业大学Zhou等[85]构建的含57个品种898头牛的泛基因组是目前规模最大的牛泛基因组研究,通过研究SV对基因组功能元件和QTL的影响,为牛基因组演化提供了深刻理解。

3.3 泛基因组在羊上的研究

目前,泛基因组学研究在山羊和绵羊上均有报道。2019年,Li等[86]从9个山羊denovo基因组中鉴定出38.3 Mb山羊参考基因组(ARS1)中缺失的泛序列(占基因组的1.4%),并构建了山羊泛基因组,显着提高了山羊重测序数据的变异检测效率。2022年,西北农林科技大学以及新疆农垦科学院研究团队组装了13只绵羊的单倍型基因组,构建了首个图形化的绵羊泛基因组图谱[87]。研究人员基于图形化泛基因组的群体结构变异信息与绵羊尾部表型性状进行SV-GWAS关联分析,结果显示,HOXB13基因与绵羊尾长性状高度相关。结合PBS选择信号分析,发现SVs和SNPs在基因BMP2、HAO1和PDGFD上都受到强烈的选择信号,这为探究绵羊重要经济性状的内在调控机制提供了宝贵资源。

3.4 泛基因组在鸡上的研究

鸡是目前世界上数量最多的家养动物,在畜牧业中占有重要地位。已有多项研究表明,鸟类的基因数量和进化速度远低于哺乳动物,且对其的驯化和育种会影响鸡的基因组结构[88-89]。然而,鸟类基因数量少且进化速率低背后的机制尚未有定论,因而构建泛基因组解析鸡基因组遗传信息是研究鸡重要经济性状的有力手段。2021年,河南农业大学和西澳大学构建了首个鸡的泛基因组,发现了鸡参考基因组(GRCg6a)中未被组装的约66.5 Mb序列[90]。通过PAV-GWAS分析鉴定出许多与鸡生长、胴体成分、肉质或生理特征相关的候选突变。研究人员发现,IGF2BP1的33个启动子区域的缺失影响了鸡的体型大小,这有助于未来设计具有特定性状的鸡品种。

2022年,西北农林科技大学和中国农业大学通过20只鸡的全基因组测序数据构建了鸡的泛基因组,并对新鉴定到的159 Mb泛序列进行了分析[91]。研究发现,泛序列中的新基因大多位于染色体亚端粒区和小染色体,具有较多的串联重复序列;非经典的DNA二级结构导致了这些缺失序列难以被捕获,这阻碍了鸡基因组的深入研究。同时,研究人员发现新基因的替代率比已知基因高3倍,这项研究结果打破了已有的研究结论,对鸟类比较基因组学和功能基因组学的研究具有重要意义。

4 总结与展望

泛基因组学经过多年发展已逐渐成熟,是基因组学研究领域的热点。第三代测序技术的落地极大地推动了泛基因组学的快速发展。利用泛基因组挖掘关键的遗传变异信息,结合重要表型性状和多组学数据等,是研究生物重要性状的有力工具。未来,随着测序技术的进一步发展和算法水平的不断提高,实现结合端粒到端粒的基因组组装(telomere-to-telomere, T2T)和精确检测基因组结构变异信息等,对于泛基因组学的发展和应用具有重要意义。海量测序数据的不断产生为构建泛基因组数据库提供了数据基础。通过整合多个代表性个体的基因组信息,结合多组学数据和群体变异信息为进一步挖掘调控重要性状的基因提供基础,也为功能基因组学的研究提供了便利。目前,泛基因组研究由于计算资源等的制约大多集中在“种”水平,但未来“属”水平的超级泛基因组(super-pan genome)会成为泛基因组研究的新热点和新方向。