李 静,郑 光,李 立,展俊平,吕爱平,马超英,何小鹃△

(1.西南交通大学,成都 610031;2.中国中医科学院中医临床基础医学研究所,北京 100700;3.兰州大学信息学院,兰州 730000;4.上海中医药大学,上海 201203;5.中国中医科学院中医基础理论研究所,北京 100700)

雷公藤(Tripterygium wilfordii Hook.f.)系卫矛科雷公藤属植物,味苦、性寒,有大毒,归肝、肾经,药用部位为根,主要功能为祛风除湿、消肿止痛、通经活络、扶正祛邪。其药用最早收载于《神农本草经》,已有近2000年的应用历史。现代研究发现,其有抗炎、免疫抑制、抗肿瘤和抗生育等多种药理作用[1]。早在上世纪80年代末期就已正式应用于临床治疗风湿性疾病,抗风湿疗效显着,随后又用于治疗自身免疫性疾病、器官移植、肾病、哮喘、肿瘤等。近年来,对雷公藤的报道文献大量存在于现有数据库中。本文借助文本挖掘技术[2,3],结合原文献回溯、人工阅读分析等方法,对现有雷公藤中文文献进行挖掘,以探讨雷公藤用药规律。

1 材料与方法

1.1 文本数据收集

方法概述如下:在中国生物医学文献数据库(Chinese BioMedicalLiterature Database,CBM,http://sinomed.cintcm.ac.cn/index.jsp)中,“缺省(智能)”状态下以“雷公藤”为检索词进行检索,共得到文献5406篇(检索日期:2012年7月14日),下载后作为文本数据挖掘的原始数据。

1.2 文本数据处理

将收集来的数据按照下载的先后顺序整合到一个平面文件(后缀 txt)里,以 ANSI编码格式保存。然后,利用专有的文本提取工具(软件着作权,软着登字第0261882号,登记号2010SR073409),对下载非结构化的txt文本数据进行信息提取,保存成格式化的、便于大型关系型数据库(Microsoft SQL Server,以下简称SQL)处理的格式,然后导入 SQL中进行下一步的挖掘分析。假设每一篇文献的贡献度是相同的,1篇文献中重复出现的关键词,只需要计算1次,据此构建算法进行数据清洗工作[2]。清洗完毕后的数据,既可以提取挖掘对象的一维频次,也可以得到挖掘对象的二维关系,进行可视化呈现。抽出不同频次的关键词对,用Cytoscape 2.8软件进行可视化处理,形成可视化的网络图,然后结合专业知识进行解析,一旦发现不合理的结果,即回溯原文献数据集,如果是噪音仍按算法进行噪音清洗,直至噪音降到满意为止。

2 文本挖掘结果

2.1 雷公藤治疗的疾病

图1显示,数据挖掘到的疾病有72种,依据频数高低排序,并选取频数最高的前10项列出。数据显示,雷公藤对肿瘤、肾病、类风湿关节炎等均有较广泛应用。图1列出前10项疾病的频次图。从图中可以看到,雷公藤用于治疗肿瘤的应用最为广泛,文本挖掘到的频数为444,其次是肾病综合征(273)、类风湿关节炎(246)、糖尿病(122),再次是紫癜性肾炎、过敏性紫癜、IgA肾病、糖尿病肾病、慢性肾炎、原发性肾病综合征。

图1 雷公藤治疗疾病前10项频次

2.2 配伍中药及病药关系

图2显示,文本挖掘提取到的雷公藤常见配伍中药有41种,取频数大于15的列出:黄芪、丹参、天冬、白芍、川芎、生地黄、甘草、当归、大黄、茯苓。把雷公藤及其常见配伍中药与肿瘤、肾病综合征、类风湿关节炎三类疾病关联起来挖掘,提取到的结果构建关系网络图。网络中的中药(图中圆形除雷公藤外)为雷公藤配伍药,配伍中药、疾病(图中方形)的显示度和形状大小正相关;其他中药与疾病之间的连线表示雷公藤与其配伍和疾病的相关性。回溯原文献,昆明山海棠为噪音,应予剔除。从图中可以看出,在肿瘤疾病中雷公藤的相关配伍为黄芪、丹参、人参等。在肾病综合征中,雷公藤的相关配伍为黄芪、丹参、人参、川芎、冬虫夏草等,在类风湿关节炎中,雷公藤的相关配伍为黄芪、白芍、川芎、当归、制附子等。图中未与雷公藤连线的圆形为频数小于15的中药。

2.3 联用西药及病药关系

图2 雷公藤配伍中药治疗疾病网络图

文本挖掘提取到的雷公藤常见联用西药有48种,取频数大于10的列出:甲氨喋呤、糖皮质激素、免疫抑制剂、环磷酰胺、地塞米松、免疫球蛋白。把雷公藤及其常见联用西药与肿瘤、肾病综合征、类风湿关节炎三类疾病关联起来挖掘,提取到的结果构建关系网络图(图3)。网络中的西药(图中三角形,除雷公藤外)为与雷公藤联用的药,联用西药、疾病(图中方形)的显示度和形状大小正相关;西药与疾病之间的连线表示雷公藤与其联用和疾病的相关性。回溯原文献,干扰素、免疫球蛋白为噪音,应剔除。从图中可以看出,雷公藤常联用环磷酰胺、顺铂等治疗肿瘤,联用免疫抑制剂、糖皮质激素、环磷酰胺等治疗肾病综合征,联用甲氨喋呤、免疫抑制剂、糖皮质激素及柳氮磺胺吡啶类解热镇痛药治疗风湿关节炎。图中未与雷公藤连线的三角形为频数小于10的西药。

图3 雷公藤联用西药治疗疾病网络图

3 讨论

文本挖掘是数据挖掘的一个方向,它所挖掘的对象是非结构化或半结构化,即从数以百万计的文本数据中寻找潜在规律和趋势[4]。文本挖掘应用于中医药领域,能从海量的中医药文献中发现知识,以促进中医临床研究和中药复方研发等多个方面,为中西医药研究提供新的思路和途径,其结果更加客观,可重复性强[5]。

本研究发现,雷公藤制剂在治疗肿瘤、肾病综合征及类风湿关节炎疾病上有较多应用,这与医家对这3种疾病病因病机的认识和现代研究结果相一致。中医认为,肿瘤的病因病机是痰、湿、气、瘀、毒相互搏结,郁而为患,用药通常为开郁理气、清热解毒、化痰祛湿、活血散瘀等诸法,雷公藤苦寒清热力强,消肿止痛功效显着,正有利于肿瘤治疗;肾病综合征属正虚邪实之证,以脾肾亏虚为本,以风邪、寒湿、湿热、瘀血为标[6]。雷公藤祛风除湿、活血通络功效正可用于该证。类风湿关节炎属痹证,《素问·痹论》指出:“风寒湿三气杂至,合而为痹也。其风气胜者为行痹,寒气胜者为痛痹,湿气胜者为着痹也。”李中梓《医宗必读痹》阐明“治风先治血,血行风自灭”的原则,叶天士对痹久不愈、邪入于络,建议用活血化瘀法治疗。雷公藤较强的活血通络之功,为治风湿顽痹要药,同时现代研究结果也为雷公藤的应用提供了科学数据支持。基于较为成熟的文本挖掘技术,我们转变了从疾病角度探讨用药规律的思路,尝试从中药的角度更深入立体地研究中药的用药规律,并在本研究中成功展示了雷公藤治疗的高频次疾病,同时描绘了在多个疾病中与中药和西药联合应用的情况,是对雷公藤相关病证方药规律的一次比较全面的总结。这一结果不仅得到了前期研究结果的佐证[7,8],且与临床用药实际基本相符,说明该方法应用于中药用药规律研究具有稳定性和准确性,也为中药新药开发和应用提供了有益的参考。

综上,文本挖掘获得的结果真实地反映了临床用药实际,而且系统总结了雷公藤在临床实践中的用药规律,其新的发现拓展了临床用药的范畴和思路,为临床医生提供了参考。以药物名称作为关键词检索文献进行挖掘是文本挖掘的一种新方法,还有待进一步的改善,这为深层次全方位的文本挖掘提供了可能。

[1]邓翠娥,吴斯金.雷公藤医药作用研究进展[J].时珍国医国药,2000,11:370-371.

[2]ZHENG G,JIANG M,HE XJ,et al.Discrete derivative:a data slicing algorithm for exploration of sharing biological networks between rheumatoid arthritis and coronary heart disease[J].BioData Min,2011,4:18.

[3]郭洪涛,郑光,赵静,等.基于文本挖掘分析甲型 H1N1流感的中医药治疗特色[J].世界科学技术-中医药现代化,2011,13(5):772-776.

[4]吕婷,姜友好.文本挖掘在生物医学领域中的应用及其系统工具[J].中华医学图书情报杂志,2010,19(4):56-64.

[5]LI S,ZHANG , WU LJ, et al. Understanding ZHENG in traditional Chinese medicine in the contex of neuro-endocrineimmune network[J].IET Syst Biol,2007,1(1):51-60.

[6]杨倩倩.杨霓芝教授治疗难治性肾病综合征的临床经验[J].中国中西医结合肾病杂志,2003,9(4):500-502.

[7]徐卫东,周奇,郑光.利用文本挖掘技术分析治疗类风湿关节炎中成药和西药使用基本规律[J].辽宁中医杂志,2012,39(3):425-426.

[8]蔡峰,郑光,郭洪涛,等.基于文本挖掘技术的中成药及西药治疗IgA肾病用药规律研究[J].中国中医急症,2011,20(10):1628-1629.