李开涛,白云鹏,郭志刚

近些年,有多个针对心脏术后危险因素评分系统相继建立,包括心脏手术风险评分(Parsonnet Score)[1]、欧洲心脏手术风险评分(EuroSCORE)[2]、美国胸外科风险评分(STS)[3]等。其中,以EuroSCORE在全球应用最广。EuroSCORE于1999年建立,研究对象源自1995—1999年8个欧洲国家128个中心接受心脏手术患者[2],在各类文献中被引用多达1 300余次[4]。然而,在近些年的报道中发现,EuroSCORE高估了一些主动脉瓣置换和非停跳冠脉手术患者的病死率[5-6],这可能与心脏手术、麻醉、灌注和术后监护的进步有很大关系。为了保证和提高评分模型的预测性能,EuroSCORE在2012年进行了更新,产生了EuroSCOREⅡ。新版本对年龄、肾功能不全等多项危险因素的定义进行了精简和修改[7]。

在中国,EuroSCORE同样面临着高估心脏手术患者院内死亡率的问题[8],可能与接受心脏手术的中国患者数量急剧增加有关[9]。因此中国学者研制出SinoSCORE用于估测冠状动脉旁路移植术(coronary artery bypass graft,CABG)术后院内病死率。SinoSCORE的建立基于43家医疗机构的9 839例CABG患者。在研究系统的内部检验中,这项评分系统有较好的预测效能[10]。目前国内关于风险评分系统在大样本CABG患者中应用的研究较少,比较不同评分系统预测效能的研究更是少之又少。本研究通过比较EuroSCOREⅡ和SinoSCORE在中国CABG患者中的预测效能,旨在寻找出更适于中国人群的风险评分系统。

1 资料与方法

1.1 资料收集 收集天津市胸科医院2011年1月—2015年4月行CABG手术患者信息,排除信息收集不全者。信息包括术前信息、人口学信息、临床信息、手术信息和院内死亡情况,具体如下:(1)性别、年龄、需胰岛素维持的糖尿病、肾功能不全、慢性阻塞性肺疾病、外周血管病(动脉病变,包含腹主动脉病变,不包含颈动脉病及膈以上动脉病变)、脑血管意外[(脑卒中引起超过24 h的昏迷;或者超过72 h的中枢神经系统障碍(肢体无力、意识障碍、失语、视野丧失等)]、感染性心内膜炎等病史。(2)既往心血管手术情况(不包含膈以下手术操作)、最近一次心肌梗死何时发生、不稳定型心绞痛(术前24 h内)、术前出现心源性休克(且手术时仍处于休克状态)、心肺复苏(术前2周)、持续性室速/室颤(术前2周)、左室射血分数(LVEF)、是否有肺动脉高压、是否使用主动脉内球囊反搏(IABP)、手术紧急状态、是否实行心脏瓣膜手术、是否主动脉瓣手术、是否三尖瓣手术、是否二尖瓣手术、是否施行左房血栓清除术、是否施行左室壁瘤手术、是否施行其他心脏手术(室间隔穿孔修复术、心脏肿瘤切除术、房颤治疗手术、主动脉瘤手术、先天缺损修补手术)。(3)出院状态及术后30 d随访情况,其中院内死亡为首要终点。本研究通过天津市胸科医院伦理委员会认证。

1.2 风险评估 每例患者均应用EuroSCOREⅡ和SinoSCORE计算其预测病死率(EuroSCOREⅡ需登录官网计算,SinoSCORE根据其计分表格计算)。分别根据两种评分系统的预测病死率将全组患者按照四分位法分为Ⅰ、Ⅱ、Ⅲ、Ⅳ组4个不同的危险分组。EuroSCOREⅡ评分如下,Ⅰ组:预测病死率≤0.84%;Ⅱ组:0.84%<预测病死率≤1.16%;Ⅲ组:1.16%<预测病死率≤1.64%;Ⅳ组:预测病死率>1.64%;SinoSCORE评分如下,Ⅰ组:预测病死率≤0;Ⅱ组:预测病死率<2%;Ⅲ组:预测病死率<5%;Ⅳ组:预测病死率>5%。根据手术种类将全组患者分为单一行CABG手术组和CABG联合其他心脏手术组(如瓣膜手术、先心病手术、室间隔穿孔修复术、心脏肿瘤切除术、房颤治疗手术等)。

1.3 模型预测效能评价 评分系统的预测效能应用分辨力和校准度进行分析[11-12]。分辨力是指模型分析院内死亡或生存的能力。模型分辨力用受试者工作特征曲线下面积(AUC)评价。当AUC≥0.7时认为模型可用,AUC≥0.8时模型分辨力优[13]。采用Hosmer-Lemeshow(H-L)拟合优度检验模型的校准度。若P>0.05表明模型有较好的校准度。另外应用实际病死率和预期病死率的校准点进行分析。较理想的校准预测在坐标图对角线上,而曲线在对角线之上为高估(实际病死率/预测病死率<1),在对角线之下为低估(实际病死率/预测病死率>1)[14-15]。

1.4 统计学方法 采用SPSS 19.0软件进行统计分析。连续变量以均数±标准差(±s)表示,连续变量2组间比较应用t检验,多组间比较应用方差分析。分类变量用例(%)表示,二分类变量的比较应用χ2检验,有序分类变量的比较应用Mann-WhitneyU检验。P<0.05为差异有统计学意义。

2 结果

2.1 基本信息 2011年1月—2015年4月在本中心行冠脉搭桥术后治疗的患者共有5 090例。其中583例患者无法获取有效信息计算风险评分,最终入组4 507(88.55%)例患者。患者基本信息见表1。EuroSCOREⅡ不同亚组基本信息比较,除术前90 d内心肌梗死差异无统计学意义外,其余指标差异均有统计学意义,见表2。SinoSCORE不同亚组基本信息比较,除需胰岛素控制的糖尿病、心脏手术史、活动性感染性心内膜炎比例差异无统计学意义外,其余指标差异均有统计学意义,见表3。不同手术方式亚组基本信息比较,除需胰岛素控制的糖尿病、外周动脉疾病、活动差、慢性阻塞性肺疾病(COPD)、严重的术前状态、左室射血分数、手术状态差异无统计学意义外,其余指标差异均有统计学意义,见表4。

Tab.1 Baseline characteristics of patients表1 全组患者基线资料

2.2 全组患者预测效能分析 院内实际病死率为1.35%。EuroSCOREⅡ预测病死率为1.47%(95%CI:1.43~1.50),与 实 际 病 死 率 接 近 。 而SinoSCORE 预测病死率为 2.86%(95%CI:2.76~2.96),高于实际病死率。全组及不同亚组患者实际和预测病死率见表5~7。H-L拟合优度检验提示EuroSCOREⅡ拟合度较差,而SinoSCORE拟合度较好。应用实际病死率/预测病死率比值进行校准度分析,提示EuroSCOREⅡ校准度接近45°线,仅在实际病死率最高的人群中偏离较多。SinoSCORE的曲线整体偏离45°线,见图1。在全部患者中,不论EuroSCORE Ⅱ(AUC=0.728>0.70)还是SinoSCORE(AUC=0.716>0.70)都有较好的辨别力,见图2。

2.3 EuroSCOREⅡ亚组预测效能 在EuroSCOREⅡ不同风险分层亚组中,EuroSCOREⅡ对Ⅰ~Ⅲ组人群病死率预测相对准确,但却低估Ⅳ组人群的病死率,见表5。在不同术式分组中,EuroSCOREⅡ略高估单一CABG组患者病死率,而低估CABG联合其他手术者病死率,见表7。H-L拟合优度检验提示EuroSCOREⅡ在不同亚组间有较好的校准度。在不同危险等级亚组中,EuroSCOREⅡ仅在Ⅰ组患者中获得较好的分辨力(AUC=0.707)。不同术式亚组中,EuroSCOREⅡ仅在联合其他心脏手术中获得较好分辨力(AUC=0.772)。

2.4 SinoSCORE亚组预测效能 SinoSCORE高估了Ⅱ~Ⅳ组人群的病死率,却又低估Ⅰ组患者病死率,见表6。在不同术式分组中,SinoSCORE皆高估两个亚组病死率。H-L拟合优度检验提示SinoSCORE在不同亚组间有较好的校准度。在不同风险分层亚组中,SinoSCORE仅在Ⅱ组患者中获得较好的分辨力(AUC=0.754)。在不同手术组别中,SinoSCORE的AUC均小于0.7,提示分辨力较差。

3 讨论

近些年,不同国家研究者们报道了多个研究,均证明EuroSCORE可能高估了心脏手术患者的死亡率[17-18]。为了解决这一问题,2012年官方更新了最新版本EuroSCOREⅡ[4]。一些研究报道,EuroSCOREⅡ预测能力强于前者[19]。一些学者认为EuroSCOREⅡ较EuroSCORE提高了50%的预测能力[20]。与此同时,由于大多心脏手术风险评估系统发源于欧美国家,对中国人群涉及程度非常有限,因此中国学者也依据中国病患基本信息建立了SinoSCORE。

本研究发现,EuroSCOREⅡ会低估Ⅳ组患者的病死率,对于全组患者和其他亚组患者有较好的预测效度。当患者依手术类型分组时,EuroSCOREⅡ在单一CABG手术组有较好的预测能力,但却会低估合并其他心脏手术患者的病死率,这与以往的研究报道一致[19]。这些发现可能是有以下几点原因:(1)危险模型的形成应用的是国际数据,不能精确预测特定的人群。尽管EuroSCOREⅡ中集合了不同种族,但模型仅收集了两个中国医疗机构,因此不能完全适用于所有中国人群。(2)EuroSCOREⅡ是一个回归模型,排除掉了一些罕见的,但病死率较高的危险因素,例如严重的肝疾病等,这些缺少的危险因素也许会导致预测偏倚。(3)部分学者认为,EuroSCOREⅡ数据收集在5月—7月之间,这一时段患者病死率低于其他季节,因此计算可能低估实际病死率。

Tab.2 Baseline characteristics of the subgroups of patients according to EuroSCOREⅡ表2 EuroSCOREⅡ不同亚组基线资料比较

SinoSCORE除Ⅰ组之外,对全组和其他不同亚组均高估了病死率。而对于Ⅰ组患者可能是由于系统定义体质量指数(BMI)>24定义为-2分,对于Ⅰ组患者总分可能评出0分或甚至负分,因此,Ⅰ组病死率会被低估。此外,SinoSCORE作为一个权重相加模型,一些关键数据会被忽略,因而预测性能受到限制。SinoSCORE的建模人群是收集了国内不同省份不同医疗单位的数据,手术方法、手术质量和医疗能力不尽相同。但是由于在本中心绝大部分患者行不停跳冠脉搭桥术,且技术成熟,因此模型的应用有可能出现偏倚[22]。

Tab.3 Comparison of baseline statistics between the subgroups by SinoSCORE表3 SinoSCORE不同亚组基线资料比较

另外,本研究发现,针对全组患者,应用H-L拟合优度检验发现EuroSCOREⅡ校准度较差,而Sino SCORE校准度尚可。但是在之前的文献中,一些作者对H-L检测危险系统效能产生怀疑,特别是在一些大样本研究中并不适合[23]。因此,本研究应用实际病死率/预测病死率比值可以更加直观地评价系统校准性[24]。

目前风险评分和危险分层已纳入《2014 ESC/EACTS心脏血管重建指南》[25],指南中指出目前尚无一个危险评分能精确地预测单一患者的事件发生情况。同时所有评分系统模型数据都有局限,危险因素的定义和变量都有所不同。因此当风险评分系统在不同人群中应用可能会影响预测效能。但风险评分系统能很好地将病患根据死亡风险分层,对临床工作具有指导作用;因此,其在患者进一步治疗的选择上起着至关重要的作用。

本研究的不足之处:作为一单中心研究,结论具有局限性。尽管单中心研究能最大限度地满足实验条件的依从性和治疗的统一性,但多中心研究可入选大量来自于不同人群和医疗条件的病患来证实研究的结论。其次本研究为回顾性研究,一些临床信

息收集困难,造成信息缺失,并不能完全收集同时期所有患者信息。尽管如此,本研究仍纳入了4 507例行心脏手术治疗的病例,这种大样本病例的研究结论依然具有意义。

Tab.4 Comparison of baseline statistics between the different surgery subgroups表4 不同手术方式亚组基线资料比较

Fig.1 The calibration curves of the actual mortality/predictive mortality of the whole group图1 全组患者实际病死率/预测病死率校准曲线

Fig.2 ROC test curves of the whole group图2 全组患者ROC曲线

Tab.5 Comparison of actual and predicted mortality rates according to EuroSCOREⅡ表5 EuroSCOREⅡ的实际和预测病死率比较

Tab.6 Comparison of actual and predicted mortality rates according to SinoSCORE表6 SinoSCORE的实际和预测病死率比较

Tab.7 Comparison of actual and predicted mortality rates according to different surgical methods表7 不同手术方式的实际和预测病死率的比较

综上所述,EuroSCOREⅡ在全组和Ⅰ、Ⅱ、Ⅲ组的患者中能有好的预测效能,但低估Ⅳ组患者病死率;SinoSCORE高估全组和Ⅱ、Ⅲ、Ⅳ组患者病死率,低估了Ⅰ组患者病死率。本研究显示风险系统应着眼于不同心脏疾病、不同的风险层次;同时建立风险系统统计方法也应当有所改进,完善对预后影响较大但发生率不高的风险因素对预测效能的影响。