张秀秀, 喻艳琴, 田 薇, 李 鸣, 王婵娟, 张 婷, 单可人, 朱卫芳, 何 燕*

(1.贵州医科大学 地方病与少数民族疾病教育部重点实验室, 贵州 贵阳 550004; 2.贵州医科大学 贵州省医学分子生物学重点实验室, 贵州 贵阳 550004; 3.宿迁子渊司法鉴定所, 江苏 宿迁 223800)

Y染色体具有遗传非重组和直接由父到子传递的独特特征,子代只能在父辈突变的基础上发生新突变,而不会丢失祖先的突变特征[1],是重建男性谱系的有用标记,因此广泛用于人类学、法医学和遗传学等领域[2-5]。Y染色体上16个单核苷酸多态性(single nucleotide polymorphism,SNP) 在人口和地理区域中非随机分布,能够推断个体的种族来源[6]或地理来源[7],在人类学的背景下,可推断人群进化、迁徙及相关历史活动,能够有效地评估群体的遗传结构[8]。自 1957 年土家族被正式确认为单一民族[9]后,对于土家族的研究才从真正意义上开。土家族属于汉藏语系藏缅语族,土家族的源流问题存在各种假说,比如巴人说、僰人说[10]、土着说、江西说、乌蛮说、氐羌说等[11], 但大部分支持巴人学说[12-13]。本课题对贵州土家族人群16个Y-SNP 位点进行多态性研究,以期获得贵州土家族人群16个Y-SNP 位点等位基因频率、单倍型频率与单倍群频率频率分布情况,并与南方8个少数民族群体进行探讨,从父系遗传的角度为贵州土家族的起源提供遗传学证据。

1 材料和方法

1.1 样本收集及 DNA 标化

从课题组建立的贵州世居少数民族DNA样本库中,根据知情同意原则,筛选出68例无族外通婚史、3 代内无亲缘关系的贵州土家族健康男性样本。每份DNA样本用分光光度法(NanoDrop-Lite)标化为20 mg/L后, -40 ℃保存备用。

1.2 Y染色体基因分型

1.2.116个Y-SNP位点多重PCR扩增及纯化 依照国际遗传谱系学会(international society of genetic genealogy,ISOGG)在网站 https://isogg.org/tree/index.html 上发布的Y单倍群系统进化树,以其基本分支C-O及其亚簇为主, 筛选出M145、RPS4Y711、M89、M9、M175、M119、M95、SRY465、M122、M324、M159、M7、M134、M217、M48及M407共16个Y-SNP为研究靶点,参考文献[14]分成4组(Ⅰ、Ⅱ、Ⅲ、Ⅳ组),按照不同的浓度比例混合各组引物进行多重PCR扩增(浓度、用量、分组情况及引物信息见表1)。PCR扩增体系为25 μL,其中包括20 mg/L的模板DNA 1.5 μL、引物MIX 15 μL、10 nmol/L、dNTP 3.0 μL、10×Buffer 2.5 μL、Taq DNA 聚合酶0.5 μL、1 mmol/L甜菜碱1.0 μL(其作用在于富含GC模板的PCR扩增和提高Taq DNA聚合酶的稳定性)、5 mmol/L MgCl21.0 μL、500 μg/mL牛血清蛋白(BSA)0.5 μL。循环条件:95 ℃ 10 min; 95 ℃ 30 s、58 ℃ 30 s、72 ℃ 30 s,循环 35 次;72 ℃ 7 min,产物4 ℃保存。纯化:第Ⅰ、Ⅱ组PCR产物各取 1 μL 混合、加入 1 000 U/L虾碱酶 (shrimp alkaline phosphatase,SAP)1 μL 和 1 U/μL大肠杆菌核酸外切酶Ⅰ(exonucleaseⅠ,ExoⅠ)1 μL 进行纯化处理以去除多余的引物和dNTP,37 ℃ 70 min 、75 ℃15 min灭活酶,纯化后的多重PCR产物于4 ℃保存、充当单碱基延伸时A组的模板;第Ⅲ、Ⅳ组PCR产物也如法纯化,充当单碱基延伸时 B 组的模板。

1.2.2SNapShot 单碱基延伸及纯化 单碱基延伸引物:单碱基延伸引物其3′ 端对应待测Y-SNP位点的前一个碱基,确保PCR扩增延伸的第一个碱基即对应待测SNP位点;单引物的5′端则加入不同长度的核苷酸(不与基因组任何地方配对)进行修饰,使得不同 SNP 位点对应的单引物的长度不同,有利于根据大小区分不同Y-SNP位点的扩增产物。按照不同的浓度比例混合各组单碱基延伸引物,分A、B两组进行复合引物单碱基延伸反应(浓度、用量、分组情况及引物信息见表2)。使用SNaPshot试剂盒(ABI, 美国)进行单碱基延伸反应,体系包括经ExoⅠ和SAP纯化后PCR产物0.75 μL、SNapShot Mix 1.25 μL、单碱基扩增引物MIX 0.5 μL,循环条件为96 ℃ 10 s、50 ℃ 5 s、60 ℃ 30 s循环28次,产物4 ℃保存。纯化:单碱基扩增产物加入1 000 U/L的SAP0.5 μL,混匀、瞬时离心,37 ℃保温70 min 后75 ℃ 15 min灭活酶,即得纯化后的SNapShot单碱基延伸产物,4 ℃保存。

表1 筛选出的16个Y-SNP位点的多重 PCR 引物信息和分组Tab.1 Multiplex PCR primer sequences for 16 Y-SNP loci

表2 16个Y-SNP位点的SNapShot单碱基扩增引物和分组Tab.2 The primer sequences for Single base amplification of 16 Y-SNPs using SNapSHot kit

注:F为上游引物,R为下游引物

1.2.3ABI 3130 毛细管电泳检测 纯化的单碱基延伸产物0.5 μL、GeneScan-120LIZ Size Standard 0.05 μL和Hi-DiTM甲酰胺9.45 μL,混匀后上样于ABI 3130遗传分析仪进行毛细管电泳分析,ABI 3130 Genetic Analyzer Data Collection Software v 3.0 进行数据收集。

1.3 数据分析

用直接计数法计算16个Y-SNP位点等位基因频率、单倍型频率以及单倍群频率,单倍型多样性(haplotype diversity, HD)值和基因多样性(gene diversity,GD)值根据公式 HD/GD=n(1-ΣPi2)/(n-1)计算(Pi为单倍型频率或等位基因频率,n为样本数)。将贵州土家族的单倍群分布频率与已报道的国内8个少数民族群体进行比较分析,采用IBM SPSS Statistics 24软件进行主成分分析(principle component analysis, PCA),依据各群体“主成分1、2、3”,使用Surfer 12.0软件绘制出等值线图。

2 结果

2.1 Snapshot 分型结果

采用SNapShot法对贵州土家族68份样本16个Y-SNP位点进行基因分型,等位基因频率和GD值见表3 ,单倍型频率结果见表4,所分析的16个Y-SNP位点中,M48、M407、M119、SRY465、M159突变频率均为0,无基因多样性(GD=0),其余11个Y-SNP位点均具有遗传多态性,GD值的范围为0.029~0.497。16个Y-SNP位点的共检测出11种单倍型,其中频率最低为0.015, 最高为0.338;组成单倍型的Y-SNP的顺序为RPS4Y711、M217、M48、M407、M145、M89、M9、M175、M119、M95、SRY465、M122、M324、M159、M7、M134,经计算HD值为0.792。

表3 贵州土家族人群16个Y-SNP的基因频率和GDTab.3 GD values and frequencies of 16 Y-SNPs loci in Guizhou Tujia population

表4 贵州土家族人群16个Y-SNP组成的11种单倍型频率分布(n=68)Tab.4 11 haplotype frequency distributions in the 16 Y-SNPs loci of Tujia population

2.2 贵州土家族与南方8个少数民族的群体遗传学分析

依照国际遗传谱系学会(ISOGG)在网站 https://isogg.org/tree/index.html上发布的Y单倍群系统进化树进行单倍群划分,通过Excel绘制贵州土家族与南方8个少数民族Y染色体单倍群频率热图(见表5),对9个少数民族在不同位点的分布情况进行直观观测,绿色→黄色→红色单倍群频率逐渐增加。

表5 贵州土家族和其他民族Y染色体单倍群频率
Tab.5 Y-SNP haplotype frequencies of Guizhou Tujia and eight minority populations in Southern China

2.2.1贵族土家族与南方8个少数民族的PCA 贵州土家族与已有文献报道的8个人群单倍群(见表5)进行PCA(见图1),前3个成分解释了67.808%的总方差。在PCA三维图上可以看到贵州土家族与湖南土家族、云南彝族、云南景颇族、云南汉族聚为1簇,广西仫佬族与贵州水族聚为1簇,云南佤族与云南纳西族聚为1簇。

图1 贵州土家族与南方8个民族Y染色体单倍群PCA二维图 Fig.1 The principal component analysis of Y chromosome of Guizhou Tujia population and eight minority populations in Southern China

2.2.2贵州土家族与南方其他8个少数民族前3个主成分在等值线图上的分布 根据各个群体单倍群分布频率PCA分析结果中,提取主成分1、2、3作为依据指标(见表6),采用 Surfer 12绘制出等值线图(图 2、3、4)。通过等值线图,可以较清晰显示分布在不同地域人群在发展过程中相互间的关系。主成分 1 等值线图(图2)贡献率为 29.281%,可以看成是几个民族的相互作用,从等值线颜色上观察,贵州土家族受到的影响最小。主成分2等值线图(图 3)贡献率为24.173%,出现2个高峰值,一个是以云南彝族为中心,另一个是以湖南土家族为中心,可以看成是湖南土家族与云南彝族的扩张,在主成分2等值线颜色上看,贵州土家族受到了一定的影响,在云南纳西族聚居的地方有所减弱,对贵州水族与广西仫佬族的影响最弱。主成分3等值线图(图4)贡献率为14.353%,可以理解为贵州土家族与贵州水族、湖南土家族之间的相互影响,从颜色上看,贵州土家族对贵州水族、湖南土家族的影响大于他们对贵州土家族影响。

3 讨论

本研究选择了Y染色体16个SNP位点作为靶点,对68例贵州土家族男性个体进行基因分型,并对结果进行相关统计分析。等位基因频率、GD值见表2、 单倍型频率见表3, GD值的范围为 0.029~0.497,HD值为0.792,GD值和HD值均较低,说明该人群曾出现过较长时间的建立者效应和瓶颈期,出现这种现象的原因可能是长期的战乱导致人口多次急剧下降,例如公元前11世纪,巴人参加武王伐纣战争[21],春秋战国时期,巴楚相争,公元前661 年,巴人灭庸[22],公元前223年秦灭巴国[23]后,其少数后裔进入贵州,在大山的阻隔下,减少了种群间的基因交流,使得遗传多样性非常低。通过 Excel 绘制贵州土家族与南方8个少数民族Y染色体单倍群频率热图对各民族在不同位点的分布情况进行直观观测:(1)9个南方群体中,几乎没有遗传结构相似的群体,体现了南方民族内部遗传结构的多样性;(2)贵州土家族在单倍群C*(0.368)和单倍群 O(0.324)具有高频分布,提示贵州土家族的起源并不单一。ZERJAL 等[24]提出单倍群C*是随着蒙古人的扩张将成吉思汗或者其亲属的Y染色体传到中亚,发展至今在中亚,蒙古和中国北方的部分地区有大约8%的男性为该谱系的Y染色体,C*单倍群在北方的频率高于南方,而本研究贵州土家族C*(0.368)具有高频分布,提示贵州土家族可能与北方民族发生过基因交融;经计算贵州土家族单倍群O*的分布频率为0.588,与文献报道南方民族群体的单倍群 O*频率分布较高相符[25- 26]。

表6 9个群体的经纬度分布及相应的PCA前2主成分值Tab.6 Latitude and longitude of 9 populations and their PCA components

注:PC1、PC2、PC3表示 PCA 中提取信息量最高的主成分1、2、3

注:1~9对应表6中民族地区及经纬度位置图2 主成分1在等值线图上的分布Fig.2 The distribution of PCA component 1 on contour map

注:1~9对应表6民族地区及经纬度位置图3 主成分2在等值线图上的分布Fig.3 The distribution of PCA component 2 on contour map

注:1~9对应表6民族地区及经纬度位置图4 主成分3在等值线图上的分布Fig.4 The distribution of PCA component 3 on contour map

为了探讨贵州土家族与南方其他少数民族间的关系,本研究选取了已有报道的中国南方 8个少数民族与贵州土家族的单倍群频率进行PCA。在主成分三维图上贵州土家族与湖南土家族、云南彝族、云南景颇族、云南汉族为一簇;广西仫佬族与贵州水族聚为一簇;云南佤族与云南纳西族聚为一簇。有趣的是云南纳西族与贵州土家族同为藏缅语族彝语支却没有聚在一起,这与谢选华等[27]对土家族源流的遗传学初探结果相符,提示云南纳西族与其他群体的分离时间较早。

依据PCA的3个主要成分作为指标,采用Surfer 12绘制出等值线图,结果显示,主成分 1 等值线图(图2)贡献率为 29.281%,可以看成是几个民族的相互作用,从等值线颜色上观察,贵州土家族受到的影响最小,可能是因为贵州土家族居住地多在山区,较少与外民族交流,提示贵州土家族保留了其独特的父系遗传结构;主成分2等值线图(图 3)贡献率为24.173%,出现2个高峰值,一个是以云南彝族为中心,另一个是以湖南土家族为中心,可以看成是湖南土家族与云南彝族的扩张,在主成分2等值线颜色上看,贵州土家族受到了一定的影响,在云南纳西族聚居的地方有所减弱,对贵州水族与广西仫佬族的影响最弱,提示贵州土家族与湖南土家族、云南彝族可能发生了基因交流;主成分3等值线图(图4)贡献率为14.353%,可以理解为贵州土家族与贵州水族、湖南土家族之间的相互影响,从颜色上看,贵州土家族对贵州水族、湖南土家族的影响大于他们对贵州土家族影响。从等值线坡度上看湖南土家族对贵州土家族的影响较大,可能是贵州土家族的采样地点(经纬度108.8°N 27.8°E)与湖南土家族的采样地点(经纬度109.7°N 28.3°E)离的特别近的缘故。

综上所述,本文通过对贵州土家族与中国南方的8个少数民族遗传关系的探讨,贵州土家族可能与湖南土家族、云南彝族、云南景颇族、云南汉族、贵州水族发生了基因交融,但又保留了其大部分独特的父系遗传特征。