乐 洋,江 畅,陈德良

(1.南京邮电大学,江苏 南京 210023;2.江苏省智慧健康大数据分析与位置服务工程实验室,江苏 南京 210023)

0 引 言

在复杂系统中,观测变量基于时间次序下得到的数字序列即为时间序列,它能够对系统的动态属性进行展现。由混沌系统得到的时间序列即为混沌时间序列,是一类具有非线性特征的数据集合,包含了丰富的系统动态信息。在这类动态系统中,因为传感装置不能正常使用等带来的影响,使得这种系统所得到的时间序列容易出现较为丰富的随机噪声,将这种序列录入到相应的模型,就会让系统建模精度显著降低,进而让模型最终失效。将随机噪声进行高效去除,就能减小该时间序列的非确定性。文献[4]采用一种新型阈值函数下的小波阈值去噪方法,有效消除了残留噪声对固有模态函数特征信息提取带来的影响,提高了检测精度。文献[5]利用一种多尺度、多方向主成分分析去噪的完备总体经验模态分解方法对高频GNSS 同震位移进行去噪,有效地削弱了低频系统误差和高频白噪声,避免了高频有效信息的损失,从而保留了高频地震信号。文献[6]在研究中给出一种降噪方法,以变分模态分解作为基础,通过能量熵阈值自适应法实现,对外界干扰有着较强的稳健性。

作为混沌研究的热点,时间序列预测问题有着积极意义,文献[7]提出以深度学习为基础的时间序列预测模型,引入目标注意力机制,从而对被测特征、学习输入特征之间的相关性进行学习,并从大特征量数据集上产生最优预测效果。为了解决非关键特征影响预测精度的问题,文献[8]在研究中提出以注意力机制、混合神经网络为基础的预测模型,通过添加非线性激活函数来获取加权参数,以便更好地获取时间序列的特征,预测结果优于传统神经网络。文献[9]在分析航班运行风险时,打造了多变量序列的风险预测模型,实现了较佳的风险预测效果。

为了提升该序列预测精度,本文将基于CS 算法优化的SVR 与EEMD 进行综合,进而构建EEMDCSSVR模型。首先,将该序列加以预处理,使之实现归一化;接着借助CS 完成SVR 的优化,从而打造相应的预测模型;最后,将此模型应用至太阳黑子序列。最终实验结果显示,本文提出的模型能够对此序列进行较好的预测,相较于其他模型而言,预测精度优势更为显著。

1 算法原理简介

1.1 EEMD 原理及分解步骤

为解决模态混叠问题,文献[10-12]在EMD(经验模态分解)的基础上提出了白噪声辅助的信号分解方法,即集合经验模态分解。此方法就是在最初的信号中置入高斯白噪声,对其进行EMD 处理,从而实现减弱或消除模式混叠。以下给出具体算法流程。

1)置入该白噪声,进而生成新信号。

式中:置入的白噪声与原始信号依次为ω()和(),=1,2,…,。

2)对每个含噪信号x()采用EMD 方法处理,得到个IMF分量和残余分量r()。

式中IMF为第次分解最终获取的第个分量。

3)对IMF和r()分别求取平均值,作为最终的IMF分量和残余分量()。

原始信号()经过上述分解,得到个不同特征尺度的IMF 分量和一个余量,即:

关于EEMD 的2 个重要参数,白噪声幅值和重复次数,文献[13]对此进行了研究,指出白噪声幅值的取值范围为[0.01,0.5],重复次数的取值范围为[100,200]。

1.2 布谷鸟搜索算法

该算法就是对布谷鸟的群集智能进行模仿而产生的一种优化算法,它涉及到三大关键性要素,即:局部随机移动、选择最优、利用全局Levy 飞行实现随机选择。在建立基本CS 算法时,须遵循以下三条理想化条件:

1)每一只布谷鸟每次仅仅一次产蛋,同时对寄生鸟巢位置选择上具有随机性;

2)若鸟巢质量最佳,可以将其维持到下一代;

3)应用于寄生的鸟巢数量具有固定属性,它的寄生卵最终被发现概率用表示,同时它符合∈[ 0,1 ]。

根据以上三条规则,CS算法的基本流程可用图1表示。

图1 CS 算法流程

1.3 支持向量回归

支持向量回归是模式分类和回归的常用经典方法,对有限的数据进行观测,推断出相应的分类关系,进而得到回归模型,对未来的数据进行预测。其基本思想是针对训练集进行回归拟合,进而将预测集映射到相同的区间,从而得出预测结果。

假设给定一个特征空间上的训练数据集:

式中:x∈R;y∈{ -1,1 }。学习目标在具体特征空间中获取分离超平面,可以将实例细分成不同类。对超平面进行分离得对应方程:·+=0,主要是通过截距和法向量共同决定。获取几何间隔最大分离超平面,即寻找合适的参数和,使得支持向量到超平面的距离之和最大,于是原来的问题就转换成凸二次规划,具体算式为:

2 实验与结果分析

因为该时间序列兼有非平稳与非线性属性,使得很难对其进行准确预测。为此,本文根据分解和集成原理,采用EEMD-CS-SVR 混合模型,基于EEMD 和布谷鸟搜索算法优化SVR 的混沌时间序列预测流程图,如图2所示。

图2 EEMD-CS-SVR 混沌时间序列预测流程

2.1 数据获取

以往的研究表明,太阳黑子月平均值及年平均值是一个低维混沌时间序列,本次实验使用的数据取自于太阳数据分析中心的官网,样本数据的时间跨度从1749—2020 年,前后数据量高达3 264 条,具体可参见图3。

图3 太阳黑子时间序列

2.2 数据预处理

在对这些原始序列通过EEMD 将其分解时,采用文献[1]的建议,设置白噪声幅值=0.2,重复次数=100,于是获取九9 个含有不同时间、频率刻度的IMF 分量与1 个剩余量,具体可参见图4,从图4 中可以得出,高、低频分量分别处于上部与下部,也就是本研究对象月度均值在不同时间尺度下分解。

图4 太阳黑子月均值分解

2.3 布谷鸟搜索算法优化支持向量回归

SVR 核函数中的参量与惩罚因子会对该模型预测结果带来明显作用,因此,本文将CS 算法的优化目标设定为选择最优参数组合( ),。用CS 算法对SVR加以改善,增强整体搜索能力,减小整体预测模型运行所受的影响,提高算法收敛速度,获取最优适应度函数的与对SVR 进行优化。

布谷鸟搜索算法优化支持向量回归具体步骤如下:

步骤1:初始化目标函数值和,设置被发现概率和一个具有个鸟窝的种群。

步骤2:对所有种群进行遍历,计算出个体的适应度,找到最好的鸟窝。

步骤3:对Levy 步长进行计算,接着利用它对鸟窝位置进行刷新,然后计算其适应度值。根据适应度值,对比代和-1 代鸟窝,遴选最优的鸟窝位置,这样就能获得全新的位置。

步骤4:在各种鸟窝中通过随机方式获取某个鸟窝,对其适应度进行计算,接着将其与原先的鸟窝适应度加以对比,以优换次。

步骤5:从步骤4 中找到最佳鸟窝。如果适应度满足预先设定的结束条件,则输出全局最好的鸟窝和最好的适应度值;若没有,就要跳转到步骤3 对其进行改善。

2.4 误差分析

为验证本文方法的预测能力,采用均方根误差(RMSE)和平均绝对误差(MAE)两种评价指标,即:

式中:,y和^ 依次为预测样本数、实测值与预测值。

3 实验分析与讨论

本文使用的太阳黑子数据包含3 264 条,将其细分成训练集与测试集,比例按照8∶2 的方式进行细分,训练集占据八成的数据。为了评估EEMD-CS-SVR 预测模型的性能,将SVR、CS-SVR 和EEMD-SVR 模型的预测结果与EEMD-CS-SVR 模型的预测结果进行比较,预测结果及误差如图5 所示。

图5 太阳黑子预测与残差图

对图5 进行分析可知:通过SVR 进行预测,其实际与预测值曲线有着较为明显的差距,而通过EEMDSVR模型进行预测,这两者之间的差距有了一定的减小,相较于前一种的精度有了一定的增长;本文所提模型EEMD-CS-SVR 的预测结果最接近真实结果,误差曲线围绕零点上下波动幅度最小。此外,经过EEMD 去噪后的数据,预测结果普遍好于去噪前的数据,证明EEMD方法可以有效地降低噪声对预测的影响。为了对本次研究模型的有效性进行深入验证,本文统计了4 种方法的RMSE 和MAE,结果如表1 所示。从表1 可以看出,优化后的RMSE 值明显减小,说明优化后的SVR 预测误差离散性较小,借助EEMD 组合模型,可以对单一模型预测精准度进行一定提升,将其与CS 算法优化的SVR 进行结合,由此构建的模型不仅能够去除高频噪声的影响,同时还能对SVR 参量进行优化,使之具有更高的预测精度。

表1 四种方法误差结果

4 结 论

本文提出了EEMDCSSVR 组合模型,该模型结合了集成经验模式分解和布谷鸟搜索算法优化的支持向量回归预测。以太阳黑子月均值预测为例,首先借助于EEMD 对太阳黑子时间序列加以分解,降低其非平稳特性,再对分解后的各分量进行空间重构,构造输入输出向量。借助于CS 算法对SVR 有关参量进行改善,再将优化后的SVR 用于太阳黑子的预测。与传统方法相比,通过CS 算法进行优化后,能够让SVR 具有更快的收敛速度,使预测精度有了明显的提升,同时也提升了它的泛化能力。