段晨翰,李寿田

(遵义医科大学 法医学院,贵州 遵义 563099)

人类基因组DNA测序和分析的研究成果表明,基因组中的单核苷酸多态性(single nucleotide polymorphism,SNP)位点含量丰富,分布广泛[1],尤其在种族推断、表型特征刻画中发挥着特殊的作用,在一些高度降解的检材分析中,是短串联重复序列(short tandem repeat,STR)数据结果的重要补充。近年来,SNP在医学、遗传学、人类学、药物分子研究等方面的迅猛发展,使其受到了法医工作者的高度关注,现将从SNP概述、优缺点、分析技术、群体遗传学参数及法医学应用等方面回顾性综述了国内外相关研究进展,为SNP的法医学应用提供参考。

1 SNP概述

单核苷酸多态性(SNP)主要是指在基因组水平上特定部位由单个碱基序列的变异所引起的DNA序列多态性,它是人类可遗传变异中最常见的一种,占所有已知多态性的90%以上[2-4]。其所表现的多态性通常只涉及到单个碱基的变异,多表现为二等位基因,本质上属于DNA序列多态性。研究发现在人类基因组中,SNP的密度很高,多态性丰富,大概每1 000个碱基就包含一个,其在基因组上的总量大概是3 ×106个。因此,SNPs 被认为是继限制性片段长度多态性和微卫星多态性之后的第3代有巨大应用潜力的DNA遗传标记。

2 SNP的优缺点

SNP作为潜在的法医学遗传标记最主要的原因是:①SNP的PCR扩增片段可小于100bp,更适合PCR扩增,可用于高度降解的DNA样本;②突变率非常低,SNP的突变率约为10-8,而STR则约为10-3,SNP的低突变率使得其在亲权鉴定中显得十分重要;③检测方法多样,可做高通量技术分析,并在数据库的建立和自动化分析的实现方面具有积极意义[5];④分型数据中没有人工伪峰,可简化等位基因的分析;⑤SNP大都表现为二等位基因标记,易于分型和确定基因频率, 适于混合样品的分析[6];⑥有些SNP标记可预测种族来源、系谱信息或表型特征。当然,SNP也有一些局限性。研究表明,至少要5~10倍的SNP 位点才可以达到等效STR基因座的个人识别率和混合样本检测能力,这大大超过了目前法医物证专业的多重扩增能力。其次,由于群体遗传数据和检测技术的缺乏,其商品化试剂盒有待进一步开发。目前,将SNP分型技术用于法医学案件的报导比较少,寻找高信息量的SNP位点,实现同时复合扩增足够的SNP标记,仍是一项艰巨的挑战。作为遗传标记SNP也存在一些缺点,如SNP分型前期投资较大,与现有的已成熟的STR数据库相比,成本较高,限制了其广泛应用。

3 SNP的分析技术

SNP 在医学、药学、法医学、遗传学等领域有广泛的应用,其分型技术除了有良好的多位点复合扩增体系、较高的准确度,还应当包含高通量和低成本以及分析是否符合实验的要求[5]。法医SNP网站(http://www.cstl.nist.gov/biotech/strbase/SNP.htm)可为法医学领域的SNP分析提供更多的遗传标记和新技术,便于法医工作者在实际应用中进行参考。

SNP在多个领域都具有巨大的应用前景,用于SNP检测的技术也是与时俱进。1977年,Sanger发明了一种快速测定DNA的方法,称为双脱氧链终止法,又称Sanger测序,自此,人类步入了基因组学时代[7]。从第一代DNA检测技术发展到现在,测序技术已经取得了飞速的发展。与第一代测序技术的低通量和高成本相比,第二代测序技术在速度、通量和成本方面都有较大的提升,同时,在提高检测准确性方面也具有积极意义。但存在引入PCR过程中会增加测序错误率的缺点,从而,产生系统偏向性,并且在序列读长方面比起第一代测序技术则要短很多。与前两代相比,第三代测序具有单分子测序,不需要PCR扩增就可以测序的特点,从而有效地避免了由于PCR偏向性使系统存在错误的弊端,并且提高读长,减少拼接成本,节省内存和计算时间,并且可以应用于RNA序列、甲基化的DNA序列分析。然而第三代测序单读长的错误率偏高、DNA聚合酶活性的依赖性强、生物数据分析软件不够丰富、数据积累少等缺点也限制了其广泛应用。正在开发中的第四代测序技术,又称纳米孔测序技术。纳米孔技术有着超高读长和高通量的特点,使得测序时间变短和数据分析变得更加简单,有望在不久的将来实现商业化,发挥其独特的价值。

4 SNP的法医学应用参数

与STR一样,SNP也需要对基因频率与基因型频率、Hardy-Weinberg平衡、连锁及连锁不平衡和单倍型及单倍型频率进行检验和计算。除了杂合度、个人识别率、非父排除率外,SNP还具有特殊的法医学应用参数:

4.1 Fst(遗传分化系数)值 由于SNPs为二等位基因,具有明显的地域分布和人群特征,在使用SNPs进行个人识别时,Fst值越小说明某位点在不同人群之间的基因频率差异越小,使用范围越广;在使用SNPs进行始祖信息推断时,Fst值越大,说明某位点在不同人群之间的基因频率差异越大,适合区分人群。

4.2 δ值 δ值是指绝对等位基因频率差异,表示来自两个不同地区、民族的群体,某一位点等位基因频率的差值[8]。δ值的大小会影响分析工作的稳定性,进行个体祖先来源推断或者地域来源推断的遗传标记,通常需要δ>0.5,才能发挥更好的分析作用。

5 SNP的法医学应用

2007年的国际法医遗传学会议正式提出了SNP的法医学应用分为以下4种类型:个体识别SNP系统(Individual Identi6cation SNPs,ⅡSNPs),祖先信息SNPs(Ancestry Informative SNPs,AISNPs),系谱信息SNPs(Lineage Informative SNPs,LISNPs),表型信息SNPs(Phenotype Informative SNPs,PISNPs)。SNP的法医学应用具体如下:

5.1 同一认定SNP-补充个人识别 个体识别SNPs是近年来法庭科学中的研究热点之一,对于法医学检验鉴定来说,同样需要联合多个SNP位点的使用,以提高单次检验的信息量和个人识别能力。目前,文献报道了大量的个体识别SNP复合检测体系,筛选的SNP位点由少到多,检测效能由弱到强。其中,高岩松[9]通过电泳检测分型的方法对139例中国北方汉族血液样品进行了GRIN2A基因rs17750303和rs837690位点的遗传多态性检测,计算出rs17750303位点和rs837690位点在中国北方汉族人群的个人识别率(Discrimination Power,DP)分别为0.645和0.661,杂合度(Heterozygosity,H)分别为0.493和0.496,父权排除概率(Excluding probability of paternity,EPP)分别为0.187和0.186。 结果显示它们在中国北方汉族群体隶属高鉴别能力的遗传标记,在法医学个体识别和亲子鉴定中均具有较高的应用价值。Li等[10]对南方125个样本进行了SNP分型,得出125个SNP位点累计个人识别率(Cumulative power of discrimination,CDP)为 1-4.81× 10-34,二联体和三联体的累积非父排除率分别为0.99989 和0.99999992 ,可应用于法医学个人识别与亲子鉴定。Gao等[11]对511个四川汉族筛选的11个四等位基因和8个三等位基因SNP的复合扩增体系,计算出累积匹配概率(Cumulative match probability,CMP)、CDP和累计非父排除概率(Cumulative probability of exclusion,CPE)分别为6.07 × 10-11、0.9999999999393和0.996764。 Li等[12]从360万个SNP标记中选出了175个应用于个人识别。他们优化并验证了使用下一代测序(next-generation sequencing,NGS)技术在法医学中的应用,结果显示在全球的54个群体中平均匹配概率为4.77×10- 71~1.06×10- 64。总之,联合使用多个高信息量的SNP位点,可满足法医学个人识别的要求,并达到与STR相同的检测能力。

5.2 谱系SNP-协助亲缘鉴定 谱系标记就是指在Y染色体和线粒体上的遗传标记,它们具有家族特征,为了可以在办案时缩小侦查的范围,减轻侦查工作量,提高办案效率,就可以利用“谱系标记”的特殊性,建立当地的区域数据库,将嫌疑人和某个特定基因关联的家族联系起来。密集分布的SNP在遗传给子代时不产生重组,即SNP是连锁遗传的。这些连锁的SNP以单倍型组的形式传递到子代,这一单倍型组可提供比单个SNP更多的多态信息,有助于亲缘关系的鉴定。父系遗传的Y染色体具有很多特殊的特点,如:单倍型相对完整、不易突变、比较稳定而且大部分都在非重组区,所以Y-SNP用于法医学遗传标记非常合适,尤其在追溯父子亲属关系以及性犯罪的案件上发挥其独特的作用。而且研究Y-SNP可以进行物种的起源、迁徙等方面的推断。Shen等[13]对中国锡伯族线粒体上54个SNP遗传多态性进行了分析,发现了总共有14个mtDNA SNP位点(nt152、nt709、nt3010、nt4883、nt5178、nt8414、nt10398、nt10400、nt10873、nt12705、nt14668、nt15043、nt16129、nt16362)具有多态性,可作为法医和群体遗传应用的有效遗传标记。Lkhagvasuren等[14]首次在蒙古东部的塔班陶勒盖发现了属于蒙古皇室(金家族)的成员,并利用Y-SNP单倍型R1b-M343证实了这些人是成吉思汗直系或近亲的成员。

5.3 始祖SNP-推断种族来源 由于SNP突变率很低,在人群中具有很高的特异性,因此,与STR相比,SNP是推断种族来源更好的遗传标记[15]。江丽等[16]通过对来自东亚、欧、非洲及其混合人群的1010份样本进行27-plex SNP 种族推断体系检测推断种族来源, 成功的对这些人群进行了区分,证实了祖先信息可以被未知来源的样本所提供。李彩霞等[17]构建的30-plex SNP复合检测体系,很好的实现了三大人群及混合人群的遗传成分的分析和个体的人种来源推断,为法医学未知样本来源提供有效信息,为案件的侦查提供有效的线索。在中国,父系社会的姓氏与Y染色体具有相同的遗传方式。理论上,每一个姓氏应拥有特异性的核心单倍群。在法医案件中,利用现场生物检材、未知名尸体等检测到的Y染色体SNP遗传标记特征来推测嫌疑人或未知名尸体的姓氏来源,对案件的侦破将具有重要意义。在对姓氏的探究中孙亚男等[18]和武建权[19]分别对孔姓和段姓进行了Y染色体与姓氏之间的关联性研究,并认为两者遗传距离较远,有各自的起源和发展历史。张雯[20]对广西地区六个民族(汉族、侗族、京族、苗族、瑶族、壮族)族源谱系进行了SNP分析,认为检测样本可以进行群体区分,C单倍群中瑶族人群占有绝大比例,O1blala-M95在广西壮族、广西苗瑶以及广西京族中有高频分布。韦宝斌等[21]对广西壮族人群rs40837位点多态性进行了研究,并与中国北京人群、日本人群、欧洲人群和非洲人群的SNP分型数据进行比较,认为rs40837的基因型和等位基因型在广西壮族人群中的分布频率与其他种族人群相比可能存在差异。Li等[22]构建的用于区分汉藏维民族的94-Plex SNPs复合检测体系,通过对74个SNP的祖先推断,有望实现探寻全球祖先的目标,并对进一步研究和细分我国人群遗传结构产生积极影响。

5.4 表型信息SNP-预测体貌特征 不同地区的人群之间具有非常显着的表型差异,这些表型的差异在医学、法医学和人类遗传学上具有高度的遗传性和外部可见性,通常与基因的多态性相关。在法医物证检材分析时,当无法找到与证据样本DNA分型结果匹配的个体时,从物证样本本身获得的信息显得尤为重要。在对可见体貌特征的刻画中,发色、肤色、虹膜、身高等特征性表型信息是可以通过孟德尔遗传规律来进行预测的。近年来,利用证据DNA样本信息预测体貌特征的研究越来越多:Norton等[23]研究表明rs387907171 SNP在北岛美拉尼西亚群岛中表现出强烈的等位基因频率差异,它对金发的表型有特殊的意义。Lim等[24]选择了与头发和眼睛颜色、虹膜图等形态相关的20个SNPs,筛选出10个具有多态性的SNPs,并且证实了这10个潜在的SNP标记,可用于鉴定韩国人口的外表特征。Zhao等[25]在研究白癜风的过程中,新发现了rs613791和rs523604两个SNP与皮肤色素具有一定的关联性。Andersen等[26]研究表明除了之前报道的rs12913832、rs1800407、rs74653330和rs121918166三个SNP在虹膜的判断准确度可达75.6%。在对身高的研究中,Lokau[27]和Correa-Rodríguez[28]分别发现了rs4252548和rs2306862、rs599083 rs556442、rs3736228有助于早期的骨质积累,与身高密切相关。葛芸英等[29]研究了中国汉族人群GH1基因启动子区域的SNP多态性及其在中国汉族人群中的分布规律,认为GH1基因启动子区域的序列及单体型与身高存在一定的关系。阿地拉·多力坤[30]研究的LHX3-QSOX2基因rs12338076和IGF1基因rs17032362位点在新疆维吾尔族人群身高中表现出高度多态性,并存在一定的人种差异。在对脸部特征的研究中,Liu等[31]在头部联合二维成像和三维增强核磁共振的技术,对欧洲人群 5 个面部表型特征基因(PRDM16、PAX3、TP63、C5orf50和COL17A1)进行了分析,发现和颧角、鼻根、眉间距、内眦距、鼻高/宽度等与基因内部分SNP的突变密切相关的距离和位置相比,基因PAX3的相关性最高,可影响鼻根的位置,并认为对于颅面部发育的基因来说,DNA的变异对人类面部形态的正常变异的影响是相对较小的。因此,在人类表型特征的预测中运用影像学技术和遗传学方法是行之有效的,三维重建案犯身高、瞳孔、面部特征等,可快速锁定犯罪嫌疑人,对案件分析及侦查方向提供客观有利的依据,为打击违法犯罪、维护社会稳定起到积极的作用。

SNP有着其他遗传标记不具有的特殊应用价值,在应用于其他领域的同时,也必然在法医学领域发挥不可忽略的重要作用。它能依靠现场的生物物证信息,构建现场嫌疑人的人种特征和地域特征,这对案件的侦破十分有利。SNP的法医学研究目前仍处于初级阶段,但是作为STR的重要补充,已逐渐受到重视。随着DNA检测技术的提高、分析方法的改进和更多相关基因的发现,我们相信,SNP将在法医学、遗传学、人类学等拥有巨大的应用潜力,必然引领我们开辟一条新的研究道路。