殷瑞康,李 萍 综述,付振明 审校

(武汉大学人民医院肿瘤中心,武汉 430060)

原发性肝癌是癌症相关死亡的第二大原因,发病率位居第6[1]。肝细胞癌(hepatocellular carcinoma,HCC)是原发性肝癌中最主要的组织学亚型,占85%~90%。HCC主要的致癌因素包括乙型肝炎病毒(hepatitis bvirus,HBV)、丙型肝炎病毒(hepatitis cvirus,HCV)感染、酒精性肝病、烟草、食物污染等。这些致癌因素的内源性或外源性作用过程反映在基因组上的结果称为突变特征。通过分析突变特征可以了解细胞恶变的机制、肿瘤发展的风险因素,有助于更好地理解HCC基因组学发展。目前部分突变特征已得到揭示,较为常见的如年龄与甲基胞嘧啶的脱甲基化相关,烟草中多环芳烃可致碱基C到A的替换,CTNNB1基因突变常见于酒精相关HCC;较为少见的如HBV导致TERT、CCNE1和CcNA2基因的插入突变、错配修复缺陷引起碱基C到T的替换及缺失,马兜铃酸引起三核苷酸中碱基T到A的替换等。近年来随着全基因组测序(whole genome sequencing,WGS)、全外显子组测序(whole exome sequencing,WES)、转录组测序(RNA sequencing,RNA-Seq)等二代测序检测手段不断发展,HCC基因组学得到了进一步揭示及剖析。本文将在HCC基因组研究的大方向之下,回顾及综述近年该领域的进展。

1 肝癌基因组学第二代测序

DNA测序技术的发展已经使生命研究从单一、局部的基因或基因的片段转变成了整个基因组。近年飞速发展的WGS、WES、RNA-Seq等高通量二代测序技术,具有通量高、检测高速、灵敏度高、成本低等特点。高通量测序能够对基因组进行多种分析,如单核苷酸变异(single nucleotide variant,SNV)、基因组的插入及缺失(insertion or deletion,InDel)、染色体结构变异(structural variation,SV)、拷贝数目变异(copy number variant,CNV)、杂合性缺失(loss of heterozygosity,LOH)。目前,WGS和WES应用最为频繁,WGS相较于WES可以检测基因组的完整序列,包括非编码区,尽管较为复杂,对于涉及大型结构基因组的翻译和临床意义至关重要,如CNV和染色体重排。WES则往往针对编码基因组,更易于鉴定影响蛋白质结构和功能的SNV、InDel和SV等。

2 基于测序的重要研究发现

2.1 SNV

SNV可存在于胚系和体细胞中。前者为发生在配子中的突变亦称为遗传突变,后者是不参与遗传的体细胞突变。经典的遗传突变如ATP7B、FAH、HFE和SERPINA1,可以分别产生肝豆状核变性、酪氨酸血症、血色沉着症、α-1抗胰蛋白酶缺乏症,继而增加肝硬化、HCC的发展倾向;HSD17B13 rs72613567、PNPLA3 rs738409、TM6SF2 rs58542926等位点的不稳定性则直接与肝硬化和HCC阶段相关[2-4]。体细胞突变中,目前研究发现较为确切的基因有TERT启动子、ACVR2A、ARID1A、ARID2、AXIN1、CTNNB1和FGF19等基因[5-6]。

SNV作为HCC中最普遍的的基因组学改变,常存在于HCC中最为熟知的突变基因如CTNNB1、TP53及TERT启动子[5]。细数SNV的分类,C:G>T:A和鸟嘌呤转化是最多见的[7]。近年新发现了Ash1、NCOR1和MACROD2等HCC驱动基因的突变,及RPS6KA3、RB1、LZTR1、EEF1A1和SF3B1等频繁发生而缺少研究的体细胞突变[6]。按HCC病因、环境风险因素分类,AXIN1、TP53突变常见于HBV阳性病例中,ARID1A突变更常见于非病毒病例中。按肿瘤分期分,TERT启动子突变常见于早期HCC,FGF3、FGF4、FGF19或CCND1扩增,TP53和CDKN2A改变出现在较晚期[5]。按肿瘤来源分,多中心来源的HCC一般分别起源于独立的突变,尽管体细胞突变存在差异,但它们的全基因组替换模式是相似的。按相关信号通路及机制分,新发现的LZTR1、EEF1A1分别编码含CUL3的E3连接酶复合物接头、翻译延伸因子基因;而如AZIN1、RP1L1、GPATCH4、CREB3L3、AHCTF1和HIST1H1等显着突变基因暂时未得到相关研究[6]。

在预测HCC发展和预后方面,LAMA2突变预示着复发和较差生存;TP53突变与微血管浸润独立相关,CTNNB1突变与AFP独立相关,暗示它们可能是通过调节p53通路和端粒修复通路来促进HCC的发生和发展的[7]。MACROD2的缺失则通过激活GSK-3β/β-Catenin通路促进肿瘤的生长[8]。

2.2 InDel

InDel是在基因组的某个位置上所发生的小片段序列的插入或者缺失,长度通常在2~50 bp。近年,大型研究确定了非编码区InDel可以将细胞谱系与肿瘤紧密联系起来,无论在HCC还是他肿瘤类型中,谱系决定基因具有非编码区InDel热点,而InDel热点与AAT AAT D序列和特殊的染色质内容相关联[9]。比如,HCC中与HCV阳性相关的ARID1A和与酒精摄入相关的ARID2属于染色质内容突变,均以InDel为主,ARID家族基因的下调促进了细胞增殖,其中ARID2的敲除影响DNA修复过程,继而引起更多潜在的突变。另外,三磷酸腺苷(ATP)结合盒蛋白亚家族B成员5被发现存在终止密码子和影响mRNA剪接的非编码区InDel[10]。既往该蛋白过表达被认为能够增强肿瘤干细胞特性,在黑色素瘤中影响肿瘤生长和化疗耐药,目前在HCC中同样有所发现。这些InDel对于细胞蛋白质功能是不利的。

2.3 SV

SV是指基因组中一种较大的结构性的染色体变异,包括大片段丢失、插入、重复,以及拷贝数的变异、倒位、易位。HCC中受SV影响最大的基因是MACROD2[8]。MACROD2因发生SV呈现低表达状态,继而抑制糖原合成酶激酶-3β活性,激活β-Catenin通路,明显促进上皮间充质转化和肿瘤增殖、侵袭。SV同样存在于AXIN1、CTNNB1和TERT基因中。TERT启动子的SV主要为HBV整合和非病毒依赖性的易位。HBV整合的SV还存在于MLL4、CCNE1及纤维化相关基因FN1、HS6ST3、KNG1和ROCK1中,可引起CCNE1、HBx-MLL4融合蛋白等的高表达,进一步驱动HCC的发生[11]。预后方面,发生SV的基因组中存在双特异性蛋白激酶这个关键的有丝分裂检查点调节因子,且该调节因子与p53信号通路有关。因此,包含SV的差异表达基因功能富集分析可能有助于揭示HCC的进化、侵袭性等生物学过程。

染色体碎裂是一种灾难性的SV,经过大规模的破坏、重新排布,染色体区域片段会整合成一种新的基因组配置。研究发现,HCC中的染色体碎裂既能够影响染色体臂1q和8q以产生基因扩增及癌基因的高表达,也可以影响肿瘤耐药,它通过驱动环状染色体外DNA的扩增使其不断进化而获得药物耐受性,因此与HCC不良预后也是密切相关的[12]。

2.4 CNV

CNV是一种基因组结构变异,覆盖的核苷酸数量远超SNV,表现为基因组片段的拷贝数增加或者减少。CNV对HCC基因组某些特定区域基因的表达和调控具有极为重要的生物学意义,它引起的基因组片段扩增、缺失可能与癌基因、抑癌基因相关。基于CNV的研究发现,染色体位点15q13.3的低频率重复与HBV相关性HCC的风险密切相关[13]。该区域的小核仁RNA SNORA18L5过表达可抑制p53依赖的细胞周期阻滞和凋亡,从而促进HCC的发生和发展。类似地,MYC、RSPO2、CCND1和FGF19高拷贝扩增可以使p53、Wnt、磷脂酰肌醇3激酶(PIK3)/RAS、细胞周期和染色质重塑通路均发生异常。抑癌基因GATA4的CNV在HCC中也极为常见[14]。GATA4可直接结合并有效地抑制β-Catenin的转录活性,因此,癌基因β-Catenin本身也是抑癌基因。检测循环肿瘤DNA中CNV和SNV水平,较蛋白生物标记物(如甲胎蛋白、去γ-羧基凝血酶原)能更提前预测HCC的发生[15]。但相较于传统的肿瘤标志物,CNV等突变检测的应用成本稍高,其准确性也有待进一步研究。

2.5 LOH

LOH是染色体上某一对具有高度多态性等位基因上一个等位基因的缺失,失去杂合性的改变常造成相应抑癌基因的失活,从而促进HCC的发生。HCC中LOH常存在于1p、4q、6q、8p、9p、10q、16q、17q等染色体臂[16]。其中,8p区域DLC1、CCDC25、ELP3、PROSC、SH2D4A、SORBS3基因的LOH常发生于HCC早期,提示着不良预后。D4S2964区域的ARD1B、SEPT11基因的LOH与较差的总生存期相关,6q26-q27区域甘露糖-6-磷酸/胰岛素样生长因子受体2(M6P/IGF2R)的LOH预示着HCC手术切除患者的不良预后。近来,还发现19p13区域PRKACA的LOH与无慢性肝病或肝硬化的女性相关,它的存在提示病理发展倾向于肝纤维板层癌[17]。LOH、杂合性增益和SNV负载之间存在相关性,这几种突变负荷在肝硬化肝比正常肝中更常见[18]。总之,LOH往往提示着HCC的发展与不良的预后。

3 表观遗传学修饰

不同的表观遗传机制,比如DNA甲基化、组蛋白修饰、染色质重塑和非编码RNA的表达,控制着染色质结构和DNA对转录机制的可及性。DNA启动子甲基化的改变往往发生于在肝硬化和HCC的前期,甚至可能早于遗传突变和基因组不稳定的发生[19]。组蛋白甲基化修饰酶突变主要发生在MLL基因家族,其中最为常见的是MLL4基因的HBV插入[20]。染色质重塑相关的突变基因为ARID1A、ARID2[5]。酗酒者HCC中抑癌基因ARID1A失活明显比其他病因的肿瘤更常见,该突变与CTNNB1突变相关,其引起的PI3K/蛋白激酶B(AKT)通路激活是HCC发生的关键机制之一。ARID2同样参与基因转录激活、抑制,但它的低发生率限制了相关研究。

表观遗传修饰可通过染色质重塑和转录后调节影响非编码RNA的活性,这些RNA包括微小RNA、PIWI关联RNA、短干扰RNA、增强子RNA和长链非编码RNA(lncRNA)。近年,研究发现lncRNA在HCC中存在差异表达,且可通过各种机制影响HCC的发生、发展[21]。lncRNA HAND2-AS1可与染色质重塑子INO80复合体结合,诱导BMPR1A启动子使骨形成蛋白(BMP)信号通路激活而促进肝癌发生[22]。lncRNA牛磺酸上调基因1(TUG1)可使组蛋白发生H3K27三甲基化而发生表达沉默,lncRNA Linc-GALH则可改变DNMT1泛素化水平从而调控Gankyrin启动子的甲基化水平,进而影响HCC的转移[23]。非编码RNA曾被认为不具生物学功能,是转录的“转录噪声”[24]。随着分子生物学的发展,越来越多的研究表明这些分子发挥着重要的调节作用。

4 肝癌转移相关的基因组学

HCC的转移途径包括直接侵犯、肝外播散和区别于其他恶性肿瘤的肝内转移。近年,ARID1A、ARID2、VACM1、CDK14和PIK3CA等基因与HCC转移的关系得到进一步揭示。ARID1A上调可促进10号染色体上缺失的磷酸酶和张力蛋白同源物(PTEN)、p53、磷脂酰肌醇激酶-3催化亚基α(PIK3CA)基因表达上调,基质金属蛋白酶9(MMP9)和表皮生长因子(VEGF)基因表达下调,使HCC细胞的迁移、侵袭、增殖和凋亡能力下降[5]。WNK基因主要发生SNV(5.3%)和CNV(27.2%),它的失活导致细胞外信号调节激酶1/2(ERK1/2)信号激活、肿瘤相关巨噬细胞浸润[25]。肝内转移方面,过去已确定了包括H-ras、MDM2、C-myc、CD44、OPN、hTcf-4、RhoC等一百余个显着相关的基因,而且原发肿瘤与其周围转移肿瘤的基因表达模式相似,这表明促进侵袭的基因激活始于原发性瘤灶。不同患者的所有病灶间共有的突变称为泛突变,泛突变百分比为8%~97%[26]。这暗示肿瘤内存在较大异质性,单个病灶的序列分析不足以描述HCC的基因组特征。血管生成的失调、lncRNA和其他各种分子事件协同作用,同样促进HCC的转移。非编码高表达癌基因lncRNA MCM3AP-AS1,可以促进叉头盒蛋白A1(FOXA1)高表达,与患者预后呈负相关[27]。这种直接或间接地与表观遗传调控因子相互作用,能够调节基因表达,影响HCC的转移。类似地,lncRNA UBE2CP3通过调节血管生成参与HCC的转移,机制为抑制磷酸甘油酸激酶1的分泌来激活肿瘤诱导的血管生成。

转移灶数量方面,既往在肾癌伴肺转移患者中发现不同转移灶数量存在基因的差异表达,随着HCC寡转移概念的提出,类似的猜想支持着基因测序及相关研究的进行,但目前在寡转移与广泛转移之间未发现有意义的基因组学差别的证据。

5 肝癌基因组学相关治疗

目前,HCC分子靶向治疗主要通过抑制VEGF来抑制血管生成和肿瘤生长,但基因测序分析发现Wnt信号、MDM4、MET、MCL1、IDH1、TERT存在抑制剂的潜在治疗靶点[6]。这些潜在靶点值得进一步研究攻克。另外,抗体靶向治疗自若干年前被提出,至今仍无明显进展,仅有某些数据表明抗FGF19抗体1A6可以选择性地抑制携带FGF或细胞周期蛋白D1(CCND1)基因扩增的HCC细胞生长。

免疫治疗则主要通过不断研究攻克包括细胞毒性T淋巴细胞抗原4(CTLA-4)、程序性细胞死亡蛋白1(PD-1)和程序性细胞死亡1配体1(PD-L1)在内的免疫检查点受体或配体,来延缓免疫耐受及肿瘤进展。阻断骨桥蛋白/集落刺激因子1/集落刺激因子1受体(OPN/CSF1/CSF1R)轴可阻止肿瘤相关巨噬细胞转运,从而增强免疫检查点抑制剂疗效[28]。预后方面,某些基因及其产物能够预测免疫治疗的效果,比如低PD-L1表达与免疫治疗效果不佳相关;细胞角蛋白19(CK19)阳性或罗双树样蛋白4(SALL4)阳性的患者预后较好[29]。具有Wnt信号通路突变的HCC对免疫检查点阻滞剂的反应更差,其中位生存时间明显短于无上述突变的患者(9.1个月vs.15.2个月)[30]。这可以用Wnt-CTNNB1突变、CNV和LOH与免疫耐药和肿瘤逃逸密切相关来解释,因为Wnt通路常发生免疫相关基因的突变,免疫事件如树突状细胞的启动和激活、干扰素-γ反应、调节性T淋巴细胞激活均受到影响[31]。而检测患者免疫检查点抑制剂敏感性,需要通过第二代测序技术检测基因组中的肿瘤突变负荷。根据不同基因组特征,或许可以开发出HCC免疫反应的个性化评估,从而实现最佳的个性化免疫治疗。

6 小 结

目前,大多数HCC相关的基因事件仍待揭示,但随着基因测序和数据分析的自动化和跨越发展,更多未知的基因组序列可以转化为有价值的生物学见解。比如,循环肿瘤DNA特定位点甲基化水平的检测,可以对HCC进行准确的早期诊断及疗效和预后预测,具有无创性、实时性、准确性等特点,当前需要在HCC及更多实体瘤中进一步研究测试。与处理成千上万个细胞后得到平均变异水平的传统测序相比,单细胞测序这种新手段可以揭示每个细胞独特的变化,有利于探索各细胞亚群间的联系及相关的基因表达。最近出现的第3代测序,即可以绘制更加完整的人类基因组图谱的长读测序,更是克服了二代测序读数短、无法直接检测天然DNA表观遗传修饰等弱点[32]。但产出如此高质量基因组组装仍需科研及市场的检验。治疗方面,除了既定的HCC治疗模式和方案外,全球范围都在积极进行靶向、免疫药物或全新治疗计划的临床试验,新时代的基因组学研究已为之后的治疗带来了曙光。