基于证候要素定向文本挖掘类*风湿性关节炎中药配伍规律

王敏智1、2,郭洪涛2、3,郑 光2、4,姜 淼2,吕 诚2,王 兴1,杨 帆5,吕爱平2△
(1.西南交通大学生命科学与工程学院,成都 610031;2.中国中医科学院中医临床基础医学研究所,北京 100700;3.上海中医药大学,上海 201203;4.兰州大学信息学院,兰州 730000;5.九江职业大学护理学院,江西 九江 332000)

目的:以类风湿性关节炎证候要素为关键词,定向文本挖掘中药配伍规律。方法:在数据库中收集治疗类风湿性关节炎文献数据,格式化后,以“寒”、“热”、“虚”、“瘀”为挖掘词挖掘,结合人工降噪,分析配伍规律。结果:寒证、热证用药对比鲜明,虚证、瘀证用药相似,各证型均涉及桂枝芍药知母汤。结论:以证候定向文本挖掘方法,可总结中药配伍规律,为临床提供参考。

类风湿性关节炎;证候要素;文本挖掘;中药配伍

类风湿关节炎(Rheumatoid Arthritis,RA)是一类以关节炎为主要临床表现的系统性自身免疫病。RA属于中医“痹证”范畴,中医认为是由于风、寒、湿、热等外邪侵袭人体、痹阻经络、气血运行不畅所导致的以肌肉、筋骨、关节发生酸痛、麻木、重着、屈伸不利甚或关节肿大灼热等为主要临床表现的疾病。中医药辨证治疗RA疗效肯定,副反应少,其临床报道大量存在于现有数据库,而这些文献可以作为数据挖掘的重要素材。

辨证论治是中医理论的核心,是中医临床医学的精髓。证候体现了中医学理论特色与优势,是中医学认识疾病和处方用药的主要依据[1]。证候要素是指组成证候的主要元素,所有的证候都可以由证候要素组成,复合证候可以分解为病位、病性类等证候要素[2]。RA涉及的主要病位类证候要素有经络、肾、肝、脾;病性类证候要素主要有湿邪、寒邪、热邪、风邪、痰、血瘀、精亏、气虚、血虚、阴虚、阳虚[3],同时参照中医内科学教材中有关痹证的论述[4],归纳 RA的证候要素大致为“寒”、“热”、“风”、“湿”、“虚”、“瘀”、“寒湿”、“湿热”等。结合数据挖掘的特点,本研究选择“寒”、“热”、“虚”、“瘀”4个证候要素作为挖掘词,对RA数据集尝试定向文本挖掘,流程示意图如下。

1 材料与方法

文本挖掘是从非结构化的文本数据中,抽取有意义的数据[5~7]。具体说,文本挖掘应用到生物、医学上可以分为文本数据收集、处理、结构化分析、可视化以及评价5个步骤[8]。

1.1 文本数据收集

首先,登录中国生物医学文献数据库(英文全称:ChineseBioMedical LiteratureDatabase,简 称CBM,网址 http:∥sinomed.cintcm.ac.cn/index.jsp)在缺省状态下检索关键词“类风湿关节炎 OR类风湿性关节炎”。经过检索,出现款目词、主题词、命中文献数,合并检索主题词,共得到文献14435篇(检索日期:2011年9月15日)。为了能看到每篇文献的流水号、标题、摘要、主题词等信息,在显示格式中选择“详细”和“显示全部”。

1.2 文本数据处理

将收集的数据,按照现在的先后顺序整合到一个平面文件(后缀TXT)中,以ANSI编码格式保存。然后,利用专有的文本提取工具(软件着作权,软着登字第0261882号,登记号 2010SR073409),对 1.1中下载的非结构化的TXT文本数据进行信息提取,保存成格式化的、便于数据库(Access)和大型数据库(Microsoft SQL Server,以下简称 SQL)处理的格式。提取出来的信息,主要是机标关键词(包括核心和非核心2种类型,以下简称关键词)。提取出来的数据首先存入Access数据库,作为下一步数据处理的材料,然后导入SQL中进行挖掘分析。

1.3 数据一次清洗

根据1.2中生成的 Access数据库,我们将“结果”数据表导入SQL中,以“Table_Initial”为表名称,针对“序号”和“机标关键词”进行处理。为了方便处理,我们将“序号”和“机标关键词”2个字段分别用 PMID(类似于 PubMed里面的字段名)和DescriptorName(类似于 PubMed里面的字段名)来表示。

经过对原文献的分析发现,相同的关键词在1篇文献的标题和摘要中存在重复出现的问题。对于文本挖掘来说,假设每1篇文献的贡献度是相同的,按照这个假设,对于1篇文献中重复出现的关键词只需要计算1次。据此,进行数据清洗工作。

1.4 数据挖掘以及分析

通过返查原文献,发现在同一篇文章中出现的关键词,在关键词这一抽象层面上部分反映整篇文章的信息。并且就某一篇具体的文献来说,相关的关键词之间存在着“共同出现”这一基本事实。这种共同出现不是随机的,而是蕴含有一定的意义[6、7、9、10],尤其对于高频协同出现的关键词对,在一定的程度上,这些词对反映了科研工作者的重视程度。更重要的是,针对目前的文本挖掘技术来说[5、8、9],这些协同出现的关键词也是很好的分析素材。

基于上面的分析,第一步构造针对每一篇文献共同出现的关键词对并设计算法,经过该计算得到名为DN_pairs的数据表。经过观察发现,数据表DN_pairs存在大量相同的关键词对,这些冗余的数据,对于数据分析来说大部分属于噪音,对此将相同的关键词对进行合并处理,只保留它们出现的频数。针对这一工作,构造了关键词对频数算法来实现。经过频数算法的处理,得到了名为 DN_pairs_frqcy的数据表,在这个数据表内所有的关键词对都只出现1次,并都有1个对应的频数(Frequency)。

1.5 数据二次清洗

经过专业知识对频数数据进行评估,发现针对特定的疾病其中仍存在噪音问题。这些噪音不再是关键词的简单重复,而是相对于专业只是来说的噪音问题。对此,针对特定的问题对数据进行二次清洗。到此为止,可以得到治疗RA中药的配伍规律。然而根据中医理论,RA可以分为不同的证型且证型不同,临床使用的药物也会有相应的调整。因此,设计定向文本挖掘的方法,分析中医治疗RA不同证型的中药配伍规律。

1.6 数据的定向挖掘

基于中医证候要素特点,在1.1中下载的 RA数据集内,按照“寒”、“热”、“虚/补”、“瘀”为关键词对文献的主题词进行检索,将数据集分为寒、热、虚和瘀4个子集。然后,针对这4个数据子集,分别执行1.3、1.4以及 1.5三步的计算。经过这三步的计算,可以得到中医治疗RA寒、热、虚和瘀4个证候要素的中药配伍规律。

1.7 数据的可视化

根据1.3中得到的数据表 DN_pairs_frqcy,我们抽出不同频数的关键词对,用Cytoscape 2.8进行可视化处理,结果如下图 A、B、C、D(各药物之间频数均大于等于2)。

2 定向文本挖掘结果

2.1 RA寒、热证候要素定向挖掘中药结果

图A为“寒”挖掘结果,图中包含桂枝芍药知母汤、麻黄附子细辛汤、乌头汤等方剂的组成成分;图B为“热”挖掘结果,图中包含桂枝芍药知母汤、四妙勇安汤、二妙散加减,回溯原文献,牛黄、三七是中成药新潢片的主要成分。

2.2 RA虚、瘀证候要素定向挖掘中药结果

图C、D分别为“虚”、“瘀”挖掘结果,图中共同包含独活寄生汤的主要成分有独活、桑寄生、秦艽、防风、当归、川芎、地黄等;其中,图 C包含桂枝芍药知母汤成分,图D包含麻黄附子细辛汤。

3 讨论

近年来,随着生物及医学文献数量的急骤增长,通过数据挖掘寻找规律和新知成了生物学和医学研究的热点[11]。运用文本挖掘技术能对海量数据进行整合处理,获得的结果可重复,因此更具有客观性。

本研究中RA数据集包含14435篇文献,如果使用人工分类是难以想象的。定向文本挖掘结果,均由RA数据集文献的关键词、主题词产生,同时选取高频结果,因此具有更高的可信度。定向文本挖掘从RA数据集中挖掘的中药配伍规律,体现了中医临床用药情况。

由以上各图可知,寒证药用麻黄附子细辛汤、乌头汤等以温阳散寒为主,热证药用四妙勇安汤、二妙散加减等,以清热解毒祛湿为主,寒热用药对比泾渭鲜明。虚证、瘀证用药存在很大相似性,以温补活瘀为主,两者均涉及独活寄生汤。独活寄生汤具有益肝肾、补气血、祛风湿的作用,多用于疾病后期肝肾亏虚、气血不足者,这说明虚、瘀可能多发生在 RA后期。寒证、瘀证挖掘结果均涉及麻黄附子细辛汤,该方助阳解表,适用于阳虚感寒者。挖掘结果提示,麻黄附子细辛汤对于RA阳虚寒凝、因寒致瘀者,临床可参考使用。

在“寒”、“热”、“虚”挖掘结果中,均涉及桂枝芍药知母汤,而在“瘀”证低频结果中也涉及桂枝芍药知母汤。桂枝芍药知母汤为张仲景《金匮要略》中所载治疗历节病的名方,清·李彣在《金匮要略广注》中称赞桂枝芍药知母汤:“此一方而数方俱焉,精义备焉,诚治历节病之圣方。”现代医家临床也多有报道。该方通阳行痹、祛风逐湿、和营止痛,具有清热、散寒、通络、活血、补虚之功效。方用桂枝汤去大枣调和营卫、防风祛风,白术健脾除湿,麻黄宣阳通痹而散寒湿,附子温经助阳、祛寒湿痹以止痛;佐以知母,引诸药而达病所,合芍药清热养阴,利溺散肿。从定向挖掘结果来看,桂枝芍药知母汤对各证型的RA均可加减运用,值得进一步深入研究。

综上,结合RA证候要素对现有数据库文献进行定向文本挖掘,其结果反映了RA临床研究现状,是一种新的经验总结方法,它可以快捷、客观、全面系统地总结RA临床实践中的用药情况与规律,为临床医生提供客观参考依据。同时,挖掘结果所形成的药物配伍网络图,可能形成新的组方,为中医临床用药及进一步的科研提供思路和参考。另外,本研究方法也为进一步探索中医药治疗RA机理,并且对治疗其他疾病用药规律的探索有一定的启迪和示范作用。

[1]郭 蕾,张启明,王永炎,等.证候规范化研究的思路和方法探讨[J].中国中西医结合杂志,2006,26(3):258-261.

[2]张志斌,王永炎,吕爱平,等.论证候要素与证候靶点应证组合辨证 [J].中医杂志,2006,47(7):483-485.

[3]杜彩凤,赵 勇,邹小娟.基于现代文献的类风湿性关节炎证候、证候要素分布特点的研究[J].世界中西医结合杂志,2011,6(2):161-163.

[4]周仲瑛主编.中医内科学[M].北京:中国中医药出版社,2009:463-468.

[5]Jeffrey W Seifert(2004)Data mining:An overview.CRS Report RL31798.

[6]Guang Zheng,Miao Jiang,Xiaojuan He,Jing Zhao,Hongtao Guo,Gao Chen,Qinglin Zha,Aiping Lu.Discrete Derivative:A Data Slicing Algorithm for Exploration of Sharing Biological Networks between Rheumatoid Arthritisand CoronaryHeart Disease[J].BioData Mining,2011,4:18 oi:10.1186/1756-0381-4-18.

[7]Nathan Harmston,Wendy Filsell,and Michael P.H.Stumpf.What the papers say:text mining for genomics and systems biology[J].Human Genomics,2010,October:5(1):17-29.

[8]Brigitte Mathiak,and Silke Eckstein(2004)Five steps to text mining in biomedical literature.In Proceedings of the Second European Workshop on DataMiningand TextMiningfor Bioinformatics,held in Conjunction with ECML/PKDD in Pisa,Italy 24:47-50.

[9]Andrea Campagna,Rasmus Pagh(2009)Finding associations and computing similarity via biased pair sampling.2009 Ninth IEEE International Conference on Data Mining:61-70.

[10]Guang Zheng,Miao Jiang,Yusheng Xu,Gao Chen,and Aiping Lu,Discrete Derivative Algorithm of Frequency Analysis in Data Mining for Commonly-existed Biological Networks,CNMT,2010:5-10.

[11]Tari L,Anwar S,Liang S,Cai J,Baral C.Discovering drugdrug interactions:a text-mining and reasoning approach based on properties of drug metabolism[J].Bioinformatics,2010,26(18):1547-1553.

Exploring combing rules of Chinese herbal medicines on rheumatoid arthritis based on syndrome element-directed text mining

WANG Min-zhi1、2,GUO Hong-tao3、2,ZHENG Guang2、4,JIANG Miao2,LV Cheng2,WANG Xing1,YANG Fang5,LV Ai-ping2△
(1.Southwest Jiaotong University,Chengdu,610031;2.China Academy of Chinese Medicine Science,Beijing,100700;3.Shanghai University of T.C.M,Shanghai,201203;4.Lanzhou University,Lanzhou,730000;5.Jiujiang Vocational University,Jiujiang,332000)

Objective:Based on the keywords of patterns in traditional Chinese medicine on rheumatoid arthritis,we applied the syndrome element directed mining algorithm and got the rules of Chinese herbal medicines according to these patterns.Method:The original data set on term“rheumatoid arthritis”was downloaded from SinoMed.Then,the data set was formatted.Based on the keywords of cold,heat,deficiency,and stasis,together with noises taken away manually,we mined the rules of Chinese herbal medicines.Results:Rules of Chinese herbal medicines have significant differences between hot and cold pattern,patterns of deficiency and stasis are similar,another interesting fact is that decoction of guizhi-shaoyao-zhimu is associated with all the syndromes in our mining process.Conclusion:Our approach of patterndirected text mining can get the rules of Chinese herbal medicines.What’s more,the mining results can be taken as references in clinical practices.

rheumatoid arthritis;syndrome element;text mining;Chinese herbal medicine combing

R593.22

A

1006-3250(2012)02-0207-03

“重大新药创制”科技重大专项(2009ZX09502-019);国家自 然 科 学 基 金 资 助 项 目 (30825047,30902000,81072982,81001676)

王敏智(1987-),男,湖南衡阳人,在读硕士,从事病证关联研究。

△通讯作者:吕爱平,Tel:010-64067611,E-mail:lap64067611@126.com。

2011-08-10