刘 君

研究表明,气象条件对空气主要污染物浓度的扩散有着较大影响[1]。不同气象因子对污染物浓度的影响不同,有的易于扩散,有的却影响较小。比如当低气压下风力较大,对空气质量具有正面影响;无风且晴好的天气,容易形成地面逆温,此时污染物滞留于近地面上空,对空气质量有负面影响。所以空气质量的影响因素对提高预测精度非常重要。

1 空气质量预测研究现状与不足

目前普遍使用的机理分析方法,回归统计、灰色预测等方法进行空气质量评价分析,但通过对污染物浓度数据具有非线性特征,要实现更准确的预测,须采用能够处理非线性数据规律的方法。目前已有学者将神经网络模型应用于污染物预测研究中,相比传统机理分析模型性能更好。而多数神经网络模型的预测模型都是将所有预报因子数据直接作为网络输入,这使网络维数过高,网络训练时间增加,且不同因子之间存在干扰问题。LU[2]等利用主成分分析法改进神网模型预测NOX浓度。本文利用因子分析将多个预报因子转化为少数几个综合指标,消除因子间的交叉干扰,提高模型精度。

2 因子分析与RBF 神经网络模型

2.1 RBF 神经网络

人工神经网络从算法结构而言分为前馈型和反馈型神经网络,由于其自适应能力强等特点,已被广泛应用于非线性复杂数据现象问题[3]。径向基函数神经网络为具有单隐含层的3层前馈型神经网络,数据输入后存储在输入层节点,经隐含层转换运算后与输出层相连。其基本思想是以径向基函数为隐层基,可直接将输入数据映射到隐含层,确定径向基函数中心点,即可确定隐层映射关系。RBF 具备典型的局部逼近特点,在分类和逼近能力、学习速率方面有明显优势。从输入层到隐含层的非线性变换函数常用高斯函数

φ(r)=exp(-r2/2b2),b>0,r∈R

基函数的中心与宽度为可调参数。

2.2 因子分析

因子分析主要用于提取多个指标变量的公共因子的一种统计方法,广泛应用于存在着交叉影响的数据降维处理中。可以通过因子分析法构造k(k

3 数据来源及预处理

3.1 数据来源

研究数据选取2015 年1 月- 2019 年6 月广州市AQI 与主要污染物数据,对有数据缺失的样本进行剔除或补充,选取2015 年1 月- 2019 年6 月的数据因子分析后共1500d 数据作为训练样本,选取2019 年7 月- 12 月份共180d 数据作为测试样本。

3.2 数据的预处理

首先根据实测数据由公式X市均=∑X监测点/N,计算主要污染物的小时平均浓度,对缺失数据采用删除方式进行预处理。由于不同污染物间的量纲不一致会影响模型结果,为了提高网络训练的速度,避免一些离散值影响模型的收敛效果,需要将数据进行归一化。利用matlab 将数据归一化至区间[0,1],公式如下:

归一化:ti=[(xi-ximin)/(ximax- ximin)](0.999- 0.001)+0.001

反归一化:ri=[(yi- 0.001)/(0.999- 0.001)](yimax-yimin)+yimin

上式中,xi为原始数据 x 的第 i 个分量,ximax和 ximin为原始数据峰值,ti与ri为归一化和反归一化后的分量数值。

3.3 主要预报因子筛选

基于因子分析特征值贡献率筛选主要因子,采用日均主要污染物浓度、AQI 值以及温度、气压、风向、风速等共14 种主要要素作为原始预报因子数据,利用Spss 软件进行对数据进行因子分析,提取综合因子作为神经网络输入变量,以对原始数据降维并消除数据冗余和数据间的交互影响。

4 基于因子分析与RBF 神经网络的预测模型

4.1 质量指数划分

根据2012 年以来新标准规定的AQI 六级划分,首先由主要污染物浓度限值,计算污染分指数:

Qi=[(QHi-Qu0)/(BQHi- BQu0)](Ci-BQu0)+Qu0

其中 Qi为污染分指数,Ci为浓度实测值,BQHi与 BQu0分别为大于(小于)或等于Ci的浓度限值,QHi与Qu0为浓度限值所对应的指数限值,最后由 AQI=max{Q1,Q2,…,Qn}得到 AQI 指数。

4.2 因子分析

为减少因子间的交互干扰,降低神经网络的输入数据维度,将1500d 训练样本数据和180d 测试样本数据导入Spss 中,经过归一化处理、相关性分析和因子分析后,选取14 个与空气污染物浓度相关系数较高的因子作为预报因子,显着性水平均达到了0.05,说明所选取因子与预测量相关性较好。根据因子分析法,对上述因子进行因子分析,计算出特征值与相关系数,选取特征值贡献率大于0.7 的因子,通过因子荷载矩阵计算标准因子得分确定神经网络的输入数据。分析结果显示PM2.5与PM10相关性达到0.605,二者有显着相关性。

4.3 因子分析优化的神经网络模型预测

输入向量 X=[x1,x2,…,xn]T中的分量 xi(i=1,2,…,n)是经过因子分析后的数据,分别建立 PM2.5,PM10,SO2,CO,NO2,O3浓度预测模型。将因子分析后的训练样本数据作为网络输入,利用RBF 神经网络进行训练,相应的污染物浓度和AQI 序列作为网络输出,采用经典的4 阶Runge-Kutta 法进行数值解,步长h=0.1。用180d 有效测试样本对训练好的模型进行检验,结果显示模型对污染物浓度的预测值绝对误差低于10-2,该方法能够提高神经网络收敛速度和预测精度,数据符合度较高,可推广应用于空气质量和污染物浓度预报。

5 结果分析

5.1 预测值与实际值对比

模型预测值的平均绝对误差最小9.3,准确率的最大值为86.3%,预测值与真实值的绝对误差量在10-2~10-2mg/m3量级。说明FA- RBF 神经网络模型结果较为准确,模型对短期内的预报能力明显优于其他统计方法,这表明神经网络具备良好的非线性时间序列数据规律的学习能力。模型在处理类似具有时间序列特征的数据分析预报时具有明显优势。

5.2 与BP 神经网络模型对比

在训练数据与测试数据相同的情况下,将因子分析法与RBF 神经网络相结合,选取包括气象因子在内的14 个预报因子,构建污染物浓度预报模型。与BP 神经网络相比,二者预报的准确率分别为79.76%、77.35%,传统BP 模型与本文模型预测结果的平均相对误差分别为0.32、0.21。相比之下具有精度高,收敛速度更快的优点,性能优于一般传统BP 神经网络方法。

6 结论

相比传统BP 神网模型,利用因子分析消除数据冗余,模型收敛速度更快、误差更小。采用BP 神经网络模型时,需要大量样本数据支持,而基于FA-RBF 神经网络的空气质量预报模型,具有模型易构建、收敛速度快,准确度高等优点,适用于污染物浓度等时间序列特点的非线性数据预测问题。

其次,与其他数值模型相比,因子分析能够降低预报因子间的交互影响,结合RBF 模型优异的非线性泛化能力,在具有非线性特征的数据预报中具有独特优势,大气环境与污染物浓度的短期预报中是一种比较实用的方法。