吴萌 康宏宇 徐晓巍 侯丽 李姣

摘要:目的 构建一种可溯源的癌症标志知识本体,支持基因突变、癌症标志和细胞系等相关数据整合、标准化和关联,并基于该本体实现新知识发现。方法 基于“七步法”和现阶段本体的构建方法,明确癌症标志本体覆盖范围、框架结构、可复用的术语和新增术语;以结直肠癌为例,利用文本挖掘和文本分类技术对PubMed文献中结直肠癌标志相关知识进行提取,利用癌症标志本体对提取的知识进行规范化表达。结合癌症体细胞突变目录中已有的癌症标志证据和进一步语义检索,实现新知识的发现。结果 最终构建癌症标志本体包含类9910个,实例6138个,实现2310篇涉及结直肠癌标志文献摘要和26个结直肠癌标志相关证据的语义表示。与癌症体细胞突变目录数据集相比,本研究发现与结直肠癌相关的多个基因的癌症标志的新证据。结论 本研究有助于整合癌症分子层面的致病机制,了解基因突变在癌症发生过程中的具体作用,实现癌症标志知识的快速发现。

关键词:结直肠癌;本体;癌症标志

中图分类号: R735.3;Q756文献标志码: A文章编号:1000-503X(2023)04-0618-09

DOI:10.3881/j.issn.1000-503X.15386

Development and Application of Ontology of Cancer Hallmarks

WU Meng,KANG Hongyu,XU Xiaowei,HOU Li,LI Jiao

Center of Medical Information Innovation Research,Institute of Medical Information/Library,

CAMS and PUMC,Beijing 100020,China

Corresponding author:HOU Li Tel:010-52328750,E-mail:hou.li@imicams.ac.cn

ABSTRACT:Objective To develop a traceable cancer hallmark ontology with terminology including gene mutation,cancer hallmark,and cell line for knowledge integration,standardization,correlation,and discovery.Methods The Ontology Development 101 and the current ontology development methods were employed to determine the content coverage,structural layers,reusable terms,and new terms of the cancer hallmark ontology.Taking colorectal cancer as a study case,we extracted the knowledge related with colorectal cancer hallmarks using text mining and text classification technology from PubMed,and then formalized the extracted knowledge into the cancer hallmark ontology.Moreover,we made use of existing cancer hallmark evidence in Catalogue of Somatic Mutations in Cancer and further semantic retrieval to discover new knowledge.Results The established cancer hallmark ontology comprised 9910 classes and 6138 instances,which realized the semantic representation of 2310 article abstracts about colorectal cancer and 26 pieces of evidence about genes and their cancer hallmarks.Compared with the Catalogue of Somatic Mutations in Cancer,new evidence for more genes associated with colorectal cancer hallmarks was found based on cancer hallmark ontology.Conclusion This study is of great significance to the research on the cancer pathogenesis at the molecular level,the revealing of specific roles of genes and mutations in the occurrence of cancer,and the rapid knowledge discovery of cancer hallmarks.

Key words:colorectal cancer;ontology;hallmarks of cancer

Acta Acad Med Sin,2023,45(4):618-626

随着癌症靶向治疗技术的发展和精准医学概念的提出,越来越多的研究关注于癌症发生的内部分子机制,以及其对细胞表型特征变化的影响。其中,癌症标志(hallmarks of cancer,HOC)[1]的提出为癌症发生过程中细胞特征的变化提供了重要标识、分类体系和相关词汇[2-3]。从基本的原理层面捕捉癌症发生的复杂内因,为人们理解和探索癌症的表型与机制提供了清晰易懂的逻辑框架[4]。2011年版的癌症标志包含10大类,分别是持续的增殖信号、逃避生长抑制、抵抗细胞死亡、无限复制、血管新生、侵袭转移、基因组不稳定和突变、能量代谢异常、免疫逃逸、促瘤炎症[5]。有相关研究已将癌症标志作为癌症研究的重要部分。例如癌症体细胞突变目录(Catalogue of Somatic Mutations in Cancer,COSMIC)推出的癌症基因普查项目[6]利用人工的方式从文献中进行HOC相关知识的审编,对癌症相关基因的功能进行描述。LnCeCell[7]对竞争性内源RNA相关的HOC进行标识。Baker等[8]构建了HOC语料库,将HOC的10大标志扩展为37类,借助文本分类技术对1852篇PubMed文献摘要的句子进行分类。并在后续研究中,提供了HOC自动分类工具CHAT[2],以及基于文献的HOC浏览工具LION LBD[9],通过实体识别工具PubTator[10]识别基因和疾病等生物医学实体,展示HOC与基因和疾病的共现关系。此外,随着预训练模型在自然语言处理领域的发展,一些预训练模型在HOC语料库已达到较好的分类效果,如BioLinkBERT[11]、NCBI_BERT[12]、PubMedBERT[13]等。这些方法为HOC的自动审编提供帮助。现阶段还缺乏一种系统的、结构化的、机器可理解的知识表示框架对HOC知识进行梳理,对HOC与其他生物医学实体之间具体关联进行描述。在生物医学领域,本体已经成为多源数据融合、语义表示、标准化和链接的重要技术,广泛用于表示领域数据之间的语义关联[14],为文本挖掘和知识推理提供助力。因此,本研究以结直肠癌为例,提出一种可溯源的HOC本体语义表示框架,实现基因突变、HOC和细胞系等相关数据整合、标准化和关联,并提供相关文献来源,将HOC本体与文本挖掘技术结合,提供更全面更详细的HOC知识,实现进一步的数据发现。

资料和方法

本体构建 基于“七步法”[15]和现阶段本体的构建方法[16-17],设计HOC本体构建方法和知识发现实验流程(图1)。

确定本体范围:本体是一个特定领域的模型,为特殊的目的而构建。HOC本体构建的目的是为基因突变在癌症发生过程中的具体作用提供统一的结构化表示和整合方案。在HOC相关的科学文献表述中,研究人员针对癌症病患的组织样本或相关细胞系做全面的组学数据分析和癌细胞特征检测。探明例如在哪种细胞系中,发生了哪些突变从而引起了哪些HOC的变化。其后,通过专家咨询的方式明确HOC本体需要回答的胜任力问题[18]:(1)在某种癌症中,哪些基因参与了某种癌症特征的发生?(2)在某个癌症中,某个基因参与了哪些癌症特征的发生?(3)哪些文献可能表明,某个突变参与了某个癌症特征的发生?(4)哪些证据表明,某个基因与某种癌症的发生有关?(5)哪些证据表明,某个细胞系中发生了某个癌症特征的改变?(6)在某个癌细胞系中,哪些基因可能参与了癌症特征的发生?

依据HOC本体的构建目标、应用场景及胜任力问题,本研究最终确定HOC本体的范围涵盖癌症、细胞系、基因、突变、HOC、文献、证据等多种类型生物医学实体,并定义这些实体之间的语义关系(图2)。利用中间实体类型证据和引文,对多种生物医学实体进行链接。引文与HOC和各种生物医学实体之间的关系为共现关系。证据表示已确认的证据信息,其与HOC和各种生物医学实体之间的关系为确定的相关关系。此外,一些实体类型可以复用已有的本体,在图2中用曲线表示出子类的关系。

复用本体类和公理:随着语义网技术的发展,在生物医学领域,已经存在一些被研究人员充分认可的本体,复用或引用已有的本体是生物医学领域本体构建的常用方法。在HOC本体的构建过程中,选择OntoFox[19]工具复用相关本体的术语、属性和关系。OntoFox是密西根大学何勇群团队研发的一款在线的本体术语提取工具,可以便捷地对开放生物医学本体仓储中的本体进行获取和复用。

Chen等[3]发现基因本体(gene ontology,GO)[20]、京都基因和基因组百科全书[21]和分子特征数据库[22]等数据库和本体对HOC术语进行了标准化描述。参考Chen等[3]的研究,HOC相关术语主要复用自GO,尽可能选择明确表示正负调控的GO术语与HOC建立映射(表1)。基因突变术语复用自序列本体(sequence ontology,SO)中的gene(SO_0000704)和sequence_alteration(SO_0001059)。疾病术语复用自疾病本体(disease ontology,DO)中的cancer(DOID_162)。细胞系术语复用自细胞系本体(cell line ontology,CLO)的immortal cell line cell(CLO_0000019)。同时复用其上下位术语、相关术语、术语之间的语义关系(对象属性)和术语属性(注释属性)(表2)。

本体对齐:为保障复用不同本体时术语的一致性,本研究选取ROBOT(V1.8.3)[23]工具将这4个本体中抽取的术语进行融合与对齐。ROBOT的Merge工具可以对多个本体进行融合,并对资源标识符相同的术语进行对齐,包括属性和关系。完成融合后,利用ROBOT的Report工具对融合结果进行进一步检验,主要包括:(1)术语缺少名称;(2)1个术语有多个不同的名称、多个不同的定义;(3)不同的类有相同的名称、相同的定义等不一致错误;(4)关系的名称相同但含义和用法不同。其后,借助protégé工具和人工方式,对检验发现的不一致问题进行修正。人工方式通过两名相关领域专家进行轮流修正校对,保证本体对齐的准确性和正确性。

构建关系和属性:在本体复用和融合的基础上,新构建癌症标志和证据等类,包含10个癌症标志子类,对其属性和相关关系进行丰富,新增语义关系相关癌症标志、有引文等12个,标题、年份等属性5个,以上文中确定本体范围部分的语义模型设计为基础,利用protégé本体编辑软件构建新的类和语义关系。

填充实例:结直肠癌作为目前世界上新发癌症发病率第3、死亡率第2的恶性肿瘤,其防治形势十分严峻[24]。本研究以结直肠癌为实例,对构建的HOC本体进行填充和验证。首先,在生物医学文献网站PubMed上搜索结直肠癌和细胞相关的文献,检索语句为“(colorectal cancer[Title/Abstract]) AND (cell[Title/Abstract])”,检索到1975年1月1日至2022年9月2日发表的相关文献共29 986篇。导出文献的PMID,利用PubTator[10]工具的API,获取每篇文献的实体识别结果,包括基因、疾病、化学药品、突变、物种和细胞系。

利用HOC语料库[8]和BioLinkBERT[11]模型,对每篇PubMed文献的摘要进行HOC分类。BioLinkBERT模型是目前已知在HOC数据集上分类效果最佳的预训练模型,其base和large规模在HOC数据集的Micro F1分别达到84.35%和84.87%。本研究利用其在GitHub网站上共享的预训练模型和微调代码[25],在HOC数据集上对base规模的BioLinkBERT模型进行微调,遵循与其原文相同的微调方法和评测指标[11],最终Micro F1达到84.31%。利用微调后的模型对29 986篇结直肠癌相关的摘要进行分类预测。通过模型预测,分类结果中包含10大类HOC的摘要共23 081篇。根据本研究需求,利用PubTator识别结果筛选出包含基因和细胞系,但不包含化学药品的摘要共2355篇,将其作为引文的实例填充进HOC本体中,建立引文与HOC和各种生物医学实体的共现关系。此外,利用COSMIC Cancer Gene Census[6]中与结直肠癌相关的数据对证据的实例进行构建。其提供了多种癌症相关的基因和HOC信息,其中与结直肠癌相关的基因66个,有HOC信息的基因12个,相关文献25篇,证据26个(其中1篇文献有2个证据)。

基于HOC本体的知识发现 基于已构建的HOC本体,通过SPARQL多跳查询,利用已知的HOC证据可以实现新证据和新基因的发现(图3)。图3上半部分表示利用COSMIC中已有结直肠癌HOC的基因,发现其新的HOC;下半部分表示利用COSMIC中已有结直肠癌相关的基因和HOC,发现与其共同出现在文献标题中的新基因。由于实例数据量较大,选择Python的owlready2包,实现实例的填充和SPARQL查询。

新证据发现:COSMIC对癌症相关的基因和HOC进行了人工审编,具有较高的准确性。以AKT1为例,在COSMIC中,其HOC包括抵抗细胞死亡(来源文献PMID:28339062)及侵袭转移(来源文献PMID:24297510)。在HOC本体中,对文献标题包含AKT1的文献和HOC进行SPARQL查询,并对只包含AKT1的文献进行筛选,其中AKT1在HOC本体中ID为gene_8(图4)。

新基因发现:在结直肠癌中,许多基因与经典的通路和基因相互调控,从而引发HOC的发生,因此,选择在文献标题中出现次数最多的几个基因,并找到在文献标题中与这些基因共同出现的其他基因,发现新的癌症靶点及相应证据,对基因在文献标题中的出现情况进行SPARQL查询(图5),对结果进行统计(图6)。

发现与结直肠癌相关并在文献标题中出现的基因共1435个,其中,CTNNB1、AKT1、CD8A为在文献标题中出现数量最多的3个基因。结合COSMIC中这些基因的结直肠癌标志审编结果数量,最终选择CTNNB1(审编HOC证据为2个)和KRAS(审编HOC证据为4个)2个基因,利用SPARQL查询找到与其共同出现在标题中的其他基因,其中CTNNB1在HOC本体的ID为gene_0(图7)。根据COSMIC数据集已知CTNNB1在结直肠癌中的HOC为基因组不稳定和突变、免疫逃逸。KRAS在结直肠癌中的HOC为无限复制、侵袭转移和能量代谢异常。

结果

本体构建结果 最终构建HOC本体包含类9910个,实例6138个,对象属性45个,注释属性36个。其中引文的实例为2310个,证据的实例为26个,序列变异的实例为116个,基因的实例为2913个,疾病的实例为380个,细胞系的实例为345个。例如,利用protégé软件对文献PMID24297510和基于该文献的证据进行语义表示(图8)。图8左半部分表示引文PMID24297510,以及在该引文中出现的HIF1A等基因、出现在标题的AKT1基因、HCT116等细胞系、结直肠癌等疾病和癌症标志侵袭转移;右半部分表示来源于该引文的证据,即在COSMIC中确定的基因、HOC、疾病和细胞系等之间的关联。

知识发现

新证据发现:通过SPARQL检索后,HOC本体中文献标题包含AKT1的文献和HOC,为持续的增殖信号(PMID:18570457、31164794、35860583)、侵袭转移(PMID:24297510、18570457、31164794)。其中,在文献PMID24297510中AKT1基因的HOC为侵袭转移,与COSMIC中数据相符。通过人工审核后,新发现的证据包括:在文献PMID18570457、PMID31164794中AKT1的HOC为侵袭转移。而持续的增殖信号相关的文献经过审核后,未发现AKT1与其描述相关。

新基因发现:利用SPARQL查询找到与CTNNB1和KRAS共同出现在标题中的其他基因,并对结果进行人工审核。最终发现13个基因明确与相应的HOC相关,可以作为结直肠癌标志的新证据,8个基因在相关文献中未明确表明与相关HOC有关(表3)。此外,通过审核PVR(PMID:32727790),发现KRAS基因新的HOC及证据为免疫逃逸(PMID:32727790)。而基于KRAS的另外两个HOC:无限复制和能量代谢异常,未发现新的相关基因。

讨论

本研究提出一种可溯源的HOC本体语义表示框架,有助于整合与分析癌症分子层面的致病机制,了解基因突变在癌症发生过程中的具体作用,助力癌症靶向治疗的研究。本体评估主要有基于金标准的评估、基于应用的评估、数据驱动的评估以及人工评估4种方式[26]。HOC本体的构建过程充分借鉴“七步法”的方法体系,通过复用尽可能满足专业性和行业内认可的标准,并通过一致性检验及专家进一步审核,保证本体的一致性、准确性和正确性。并在后续知识表达和知识发现的具体应用中,验证HOC本体的应用能力。在HOC术语构建过程中,通过明确HOC术语与GO术语的映射关系对HOC术语进行扩展,有助于进一步理解HOC的内涵。此外,HOC本体为人和机器都提供了较强的可解释性,利用中间节点引文和证据有效表达了摘要和句子中多种实体共现的情况。与已有HOC相关工作相比,HOC本体的构建过程更节省人力,利用生物医学实体识别工具和文本分类技术实现癌症标志知识的自动提取,并通过HOC本体为文献中的HOC知识提供结构化的语义表示,其可溯源的框架设计为HOC证据提供了相应的文献来源。基于已构建的HOC本体,本研究提出了一种利用SPARQL检索和已有HOC证据快速发现新HOC证据的方法,为临床和科研工作提供便捷的服务。对知识发现结果进行分析显示,通过初步筛选的几个结直肠癌基因进行检索,与COSMIC数据集人工审编结果相比,发现新的HOC相关文献和基因,证实HOC本体在知识发现方面的有效性。基因和基因之间存在相互调节关系,基因可能不会直接作用于改变HOC。因此,选择与已知HOC相关的基因在标题中共现的其他基因,有助于发现新的基因与HOC。

本研究目前只采用了机器处理的方式,未对处理结果进行大批量人工审核,应考虑PubTator实体识别工具和BioLinkBERT分类模型存在的误差。后续将研究人工和机器结合的方式对HOC证据进行进一步审核和扩充,借鉴证据本体对证据相关的术语进行标准化,提供更高质量的证据服务。此外,充分融合生物医学知识库中已有的关联关系如基因-突变、基因-疾病、疾病-细胞系等,为HOC知识发现提供更多的知识来源,也是本研究后续探索的研究方向。在证据来源方面,本研究只纳入PubMed文献中的HOC信息,未纳入其他HOC信息来源如临床试验等。

参 考 文 献

[1]Hanahan D,Weinberg RA.The hallmarks of cancer[J].Cell,2000,100(1):57-70.DOI:10.1016/S0092-8674(00)81683-9.

[2]Baker S,Ali I,Silins I,et al.Cancer Hallmarks Analytics Tool (CHAT):a text mining approach to organize and evaluate scientific literature on cancer[J].Bioinformatics,2017,33(24):3973-3981.DOI:10.1093/bioinformatics/btx454.

[3]Chen Y,Verbeek FJ,Wolstencroft K.Establishing a consensus for the hallmarks of cancer based on gene ontology and pathway annotations[J].BMC Bioinformatics,2021,22(1):178.DOI:10.1186/s12859-021-04105-8.

[4]陶青,石毓君.解读癌症研究的里程碑:Hallmarks of Cancer[J].中国普外基础与临床杂志,2022,29(4):431-433.DOI:10.7507/1007-9424.202202033.

[5]Hanahan D,Weinberg RA.Hallmarks of cancer:the next generation[J].Cell,2011,144(5):646-674.DOI:10.1016/j.cell.2011.02.013.

[6]Sondka Z,Bamford S,Cole CG,et al.The COSMIC cancer gene census:describing genetic dysfunction across all human cancers[J].Nat Rev Cancer,2018,18(11):696-705.DOI:10.1038/s41568-018-0060-1.

[7]Wang P,Guo Q,Hao Y,et al.LnCeCell:a comprehensive database of predicted lncRNA-associated ceRNA networks at single-cell resolution[J].Nucleic Acids Res,2021,49(D1):D125-D133.DOI:10.1093/nar/gkaa1017.

[8]Baker S,Silins I,Guo Y,et al.Automatic semantic classification of scientific literature according to the hallmarks of cancer[J].Bioinformatics,2016,32(3):432-440.DOI:10.1093/bioinformatics/btv585.

[9]Pyysalo S,Baker S,Ali I,et al.LION LBD:a literature-based discovery system for cancer biology[J].Bioinformatics,2019,35(9):1553-1561.DOI:10.1093/bioinformatics/bty845.

[10]Wei CH,Allot A,Leaman R,et al.PubTator central:automated concept annotation for biomedical full text articles[J].Nucleic Acids Res,2019,47(W1):W587-W593.DOI:10.1093/nar/gkz389.

[11]Michihiro Y,Jure L,Percy L.LinkBERT pretraining language models with document links[EB/OL].[2022-11-11].https://arxiv.org/abs/2203.15827.

[12]Yifan P,Shankai Y,Zhiyong L.Transfer learning in biomedical natural language processing:an evaluation of BERT and ELMo on ten benchmarking datasets[EB/OL].[2022-11-11].https://arxiv.org/abs/1906.05474.

[13]Yu G,Robert T,Hao C,et al.Domain-specific language model pretraining for biomedical natural language processing[EB/OL].[2022-11-11].https://arxiv.org/abs/2007.15779.

[14]Haendel MA,Chute CG,Robinson PN.Classification,ontology,and precision medicine[J].N Engl J Med,2018,379(15):1452-1462.DOI:10.1056/NEJMra1615014.

[15]Natalya FN,Deborah LM.Ontology development 101:a guide to creating your first ontology[EB/OL].[2022-11-11].http://www.ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noy-mcguinness-abstract.html.

[16]Lee JH,Park HA,Song TM.A determinants-of-fertility ontology for detecting future signals of fertility issues from social media data:development of an ontology[J].J Med Internet Res,2021,23(6):e25028.DOI:10.2196/25028.

[17]Reyes-Pe?a C,Tovar M,Bravo M,et al.An ontology network for diabetes mellitus in Mexico[J].J Biomed Semantics,2021,12(1):19.DOI:10.1186/s13326-021-00252-2.

[18]Bravo M,Hoyos Reyes LF,Reyes-Ortiz JA.Methodology for ontology design and construction[J].Contaduría y Administración,2019,64(4):134.DOI:10.22201/fca.24488410e.2020.2368.

[19]Xiang Z,Courtot M,Brinkman RR,et al.OntoFox:web-based support for ontology reuse[J].BMC Res Notes,2010,3:175.DOI:10.1186/1756-0500-3-175.

[20]The Gene Ontology Consortium.The gene ontology resource:20 years and still GOing strong[J].Nucleic Acids Res,2019,47(D1):D330-D338.DOI:10.1093/nar/gky1055.

[21]Kanehisa M,Furumichi M,Sato Y,et al.KEGG:integrating viruses and cellular organisms[J].Nucleic Acids Res,2021,49(D1):D545-D551.DOI:10.1093/nar/gkaa970.

[22]Liberzon A,Birger C,Thorvaldsdóttir H,et al.The Molecular Signatures Database (MSigDB) hallmark gene set collection[J].Cell Syst,2015,1(6):417-425.DOI:10.1016/j.cels.2015.12.004.

[23]Jackson RC,Balhoff JP,Douglass E,et al.ROBOT:a tool for automating ontology workflows[J].BMC Bioinformatics,2019,20(1):407.DOI:10.1186/s12859-019-3002-3.

[24]Sung H,Ferlay J,Siegel RL,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA Cancer J Clin,2021,71(3):209-249.DOI:10.3322/caac.21660.

[25]Michihiro Y,Jure L,Percy L.LinkBERT:a knowledgeable language model pretrained with document links[EB/OL].[2022-11-11].https://github.com/michiyasunaga/LinkBERT.

[26]Brank J,Grobelnik M,Mladenic′ D.A survey of ontology evaluation techniques[EB/OL].[2022-11-11].https://www.researchgate.net/publication/228857266_A_survey_of_ontology_evaluation_techniques.

(收稿日期:2022-11-17)