林定文, 崔哲哲,赵锦明, 区 进

(广西壮族自治区疾病预防控制中心结核病防制所,南宁 530028)

结核病是由携带结核分枝杆菌的微滴核进入人体引起感染部位病变的慢性传染病。结核病的流行已成为全世界,特别是包括中国在内的发展中国家面临的严重公共卫生问题。2018年全球结核病报告指出,虽然估计发病率在缓慢下降,但中国是估计发病数仅次于印度的结核病高负担国家之一[1]。在全国省级水平,广西壮族自治区是结核病报告发病热点地区,但其传播和发病的特征和影响因素仍然不明。空间流行病学分析,可以有效地掌握疾病聚集的范围和趋势,加之空间计量统计对大气等影响因素的探查,将对卫生决策起到关键作用。本研究通过空间自相关统计量和空间回归技术,对2016广西壮族自治区活动性肺结核患者空间特征和气象影响因素进行分析,为防控决策的制订和卫生资源的分配提供量化依据,现报道如下。

1 资料与方法

1.1一般资料 本研究是基于现住址定位的广西壮族自治区全人群景观流行病学研究。拟用2016年的分析结果阐述广西壮族自治区传染性结核病病例在该时期的空间分布和聚类情况,并运用优化空间回归模型侦测影响结核病发病的气象因素。人口数据来源于2017年广西壮族自治区统计年鉴。PM2.5、PM10、SO2、NO2和O3数据来源于广西壮族自治区环境保护局数据库。年降雨天数、气温和相对湿度数据来源于广西壮族自治区气象局。

1.2方法 研究地区广西壮族自治区位于中国南疆,总人口4 613万,占地236 700平方公里,下辖14个市和所辖的112个县(区)。从国家法定传染病报告系统下载2016年所有确诊的活动性结核病患者资料,共计76 151例。根据每例患者的现住址的地区编码进行归类统计,最小空间统计单元为市,即统计每个市的登记报告数。然后将每个单元的病例按照月和年再次归类,形成2016年活动性结核病数据库。

从“Global Administrative area database” (GADM Inc,California,US) 中获取中国地图(Shape 文件),从中剪取生成广西Shape文件。将病例数据、环境数据与地图文件根据地区编码进行关联,生成结核病及气象信息空间数据库。

1.3统计学处理

1.3.1基本情况描述 对年度报告的活动性结核病患者数据进行总体描述并进行趋势χ2检验;对各市的结核病报告发病率及大气数据进行中位数和均数描述。根据不同地区的结核病报告发病率绘制发病率专题图,了解高发和低发地区分布,为空间自相关分析和空间扫描做准备。

1.3.2空间自相关分析 本研究应用统计学家帕特里克·阿尔弗雷德·皮尔斯·莫兰创建的“Moran′s I”统计理论进行空间相关性分析。该分析分为全局和局部自相关分析。

全局自相关分析通过方差归一化,使研究区域内总体相关系数(或称莫兰指数)取值在-1~1。莫兰指数大于0表示存在空间正相关性,指数值越大,空间相关性越显着,也就是随着相邻的单元在空间上越聚集,相关性越明显;莫兰指数小于0表示存在空间负相关性,指数值越小,空间差异显着,也就是相邻的单元在空间上越离散,反而相关性变得显着了;当莫兰指数等于0,空间呈随机性,相邻研究单位之间没有相关性[2]。本研究将用总体莫兰指数和象限图进行结果描述。象限图将各相邻坐标点之间的相关系数用“high-high,高-高”“low-low,低-低”“high-low,高-低”和“low-high,低-高”在4个象限呈现。全局统计量公式如下:

式中W是空间权重系数,当两个相邻地区(i和j)传染性结核病均为高发(聚集),W=1;若均为低发,W=-1。n为总研究单元数。若有显着差异,W值则为0。S0为总体权重系数。

局部自相关分析是对每个研究个体的自相关分析及分解呈现。其在全局分析的基础上,对局部地区的相邻关系计算统计量,并根据不同的显着性在LISA类聚地图中呈现结果。一般认为具有“高-高”关系的区域是显着性高发类聚区(“热点”地区),而具有“低-低”关系的区域是显着性低发类聚区(“冷点”地区),“高-低”和“低-高”代表与周围明显差异的离群区域。本研究用“GeoDa 1.8.12” (Luc Anselin,University of ILLinois,Urbana-Champaign,US) 空间分析软件进行空间自相关分析。Anselin′s局部公式如下:

全局和局部自相关均用“经验Bayes”标化,以解决比率方差不稳定的问题。

1.3.3空间回归模型分析 结核病是传染性疾病,缺乏空间独立性,从而出现空间维度的播散,即空间计量统计学中提及的溢出效应。用经典线性回归检验影响因素时往往由于忽略了空间依赖性和空间差异效应而出现失真。空间计量模型的基本思路是运用空间距离权重矩阵,对普通的最小二乘法估计进行修正。对于具备了空间属性的变量,距离较近的观察值比距离较远的观察值更容易表现显着的关系。本研究主要用于比较的空间计量模型有空间迟滞模型[3]和空间误差模型[4]。其基本公式如下:

y=ρW1y+βx+μ

μ=λW2μ+ε

ε~N(0,δ2I)

式中的β表示自变量的空间回归系数;μ是空间误差项;ε是白噪声;W1是结核病报告发病率的空间权重矩阵,W2是残差空间权重矩阵;ρ为空间迟滞系数,取值0~1,越接近1,比邻地区因变量值越相似;λ为空间误差系数,取值0~1,越接近1,比邻地区自变量取值越相似。因此,当ρ=0,λ=0时,模型为普通的最小二乘法估计模型,模型中没有空间特征;当ρ≠0,λ=0时,模型为空间迟滞模型(或空间自回归模型),研究区域的因变量不但与本地区的自变量有关,还与比邻区域因变量有关;当ρ=0,λ≠0时,模型为空间误差模型,研究区域的因变量与比邻地区的因变量取值相互独立,但比邻地区同一种自变量残差项不满足独立性,具有空间自相关性。

2 结 果

2.1广西结核病及气象一般情况 2016年广西各医疗卫生机构共报告活动性结核病患者47 701例。用2010-2016年度报告病例数进行趋势检验,结果提示呈逐渐下降趋势(χ2=159.76,P<0.01)。各市平均报告发病率为(109.33±29.46)/10万,提示离散度较大。纳入分析的大气颗粒物中O3含量较高,其余均处于较低水平。年降雨天数,气温和相对湿度均符合湿热地区气候特征,见表1。

表1 广西壮族自治区结核病报告发病和气象基本情况

2.2结核病发病的空间分布和自回归分析 2016年广西壮族自治区以市为单位的结核病报告发病率呈现明显的空间异质性。西北部和西南部高于东部,见图1。通过莫兰空间自相关分析可知,空间发病分布具有正向自相关性(莫兰指数为0.262),提示实施影响因素分析时,考虑空间自相关效应的必要性。比率经过经验贝叶斯标化的局部聚类性分析,东部地区呈现显着的低发聚类,中部地区呈现与周边结核病疫情比较有显着低发的离群态势,未侦测到显着的高发聚类,见图2。

2.3空间影响因素和模型筛选 将2016年PM2.5、PM10、SO2、NO2、O3、年降雨天数、气温和相对湿度数据纳入无空间权重和空间效应的最小二乘法模型和具有空间权重的空间迟滞模型、空间误差模型,按照P<0.05的条件进行结核病报告发病率的潜在影响因素筛选。结果显示,最小二乘法模型未筛选出有统计学意义的影响因素;空间迟滞回归模型筛选出O3、年降雨天数和气温3个有统计学意义的变量;空间误差模型筛选出年降雨天数和气温2个有统计学意义的变量,见表2。表3显示了3种模型的拟合度测试结果。空间误差模型的R2和对数释然比(Log likelihood)最高,赤池信息准则(AIC)统计值和回归标准误(S.E of regression)最低,入选最佳模型。由回归系数可知,该模型中降雨天数及气温与结核病报告发病率呈负相关关系,其中气温的回归效应最大。

图1 2016年广西壮族自治区各市结核病报告发病率空间分布

图2 2016年广西壮族自治区结核病报告发病率的莫兰局部聚类和象限图(比率经验Bayes标化)

表2 3种模型的潜在影响因素筛选结果

表3 3种模型的拟合度比较

3 讨 论

有研究数据表明,广西壮族自治区的活动性结核病报告发病近年来一直处于时空高发聚类区域[5]。广西壮族自治区不同地区间的报告发病率差别迥异[6]。作为结核病高负担省份,广西壮族自治区尽管投入了大量的防控资源,疫情下降仍然缓慢,每年报告的活动性结核病例依然维持在4万左右[7],空间热点地区的结核病疫情仍然持续高于其他地区,而冷点地区依据处于低发态势[6]。作为主要通过空气飞沫传播的疾病,结核病具备一定的空间格局,特别是临近区域的聚集发病,结核病的空间聚集性疫情时有报道。如果不及时控制,很有可能导致更大范围的蔓延,促成突发公共卫生事件等严重后果[8-9]。本研究通过空间描述和自相关分析证明了广西壮族自治区的结核病报告发病同样存在空间异质性(莫兰指数大于0),东部地区出现了显着的低发聚集区。对于广西壮族自治区的这一空间布局,笔者需要探究其因,用以指导防控。防治结核病的关键措施除了针对个体进行早期的诊断、治疗和管理,宏观层面的防控实施也是很有必要的。社会及自然环境在结核病传播和发病驱动力方面起着举足轻重的作用。但此前针对广西壮族自治区的环境影响因素研究尚属空白。因此,本研究主要以空间自相关为出发点,结合回归理论对广西壮族自治区结核病的聚类及其气象影响因素进行分析,以期获得大气环境层面的宏观驱动因子,为结核病精准防控提供量化依据。

本研究主要引用了普通的最小二乘法模型(不考虑空间依赖性)、空间迟滞回归和空间误差模型进行气象相关影响因素的筛选和模型拟合度比较。在近期关于结核病发病影响因素的空间回归模型研究中不同地区和不同的测试变量均有可能选择不同的优化模型。有研究者在对2005-2014年影响北京市结核病发病的社会经济因素进行空间模型拟合时,发现空间误差模型是最优模型[5]。也有学者对2004-2012年四川结核病空间影响因素调查发现,空间迟滞模型拟合度更好[10]。本研究通过实证研究发现,空间误差模型的拟合度优于最小二乘法和空间迟滞模型(R2=0.763,Log likelihood=-59.444;AIC=136.888,S.E of regression=14.334)。因此,将该模型作为最优模型进行因素筛选。

通过气象潜在影响因素筛选,年降雨天数和气温2个变量有统计学意义(P<0.05),与结核病报告发病率呈负相关。降雨量较少而且温度较低的地区,结核病发病风险相对较高。这一结果符合结核分枝杆菌存活的自然优势环境,也与其他的研究结果一致[11]。结核分枝杆菌主要以微滴核的方式在自然环境中存活,一般在干痰中存活6~8个月,如处于3 ℃的低温环境下,可存活1年。若黏附于尘埃上,可以保持传染性8~10 d。降雨可在一定程度上清洗飘浮在空气中的带菌尘埃,从而降低传染和发病的可能性。因此对于广西壮族自治区北部温度和降雨量相对较少的地区应加强结核病的监测和防控,在干旱季节做好人工降雨等工作。由大气颗粒物监测数据可知,广西壮族自治区的PM2.5、PM10、SO2、NO2均处于较低水平,经换算的空气质量指数属于良好的范围[12-13],可正常户外活动,也未对结核病的发病构成危险。但O3在大气中的含量超过了100 μg/m3,空间迟滞回归提示了O3有影响结核病发病的可能。在今后应针对这些颗粒物进一步加强监测和相关性研究。此外,也有研究提示结核分枝杆菌的基因多态性与所处的环境可能存在一定的交互作用,从而导致传播的差异性[14-16]。但目前这一观点仍然缺乏更多的实证研究。结核病在分子维度和宏观环境维度的交互作用及驱动因子研究将是下一步的重点探索方向。