鲁 芳

一、引言

人工神经网络是在非线性经济预测领域应用较为广泛的一种方法。它是模拟人的大脑的一种非线性映射,不仅具有很强的容错性,而且能够从大量的历史数据中进行学习,从而揭示大量复杂数据中隐含的重要信息。神经网络方法已经在很多领域得到了成功的应用,在煤炭行业,煤炭生产成本预测、煤炭需求量的预测、煤炭企业可持续发展的评价、煤炭建设项目投资估算、煤炭成浆浓度预测、煤炭调运的优化等很多方面都有神经网络模型成功应用的案例。但是,在实际应用中由于缺乏问题的先验知识,往往很难找到理想的网络结构,这就影响了神经网络的泛化能力。神经网络的泛化能力是指学习后的神经网络对测试样本做出正确反应的能力,神经网络是否成功不在于对训练样本本身拟合误差的大小,而关键在于其泛化效果。本文探讨了神经网络集成的框架模型,并对煤炭企业的可持续发展评价进行了实证研究,以期在提高神经网络泛化能力的同时让这种技术更加有效地应用于煤炭领域。

二、神经网络集成

1990年,Hansen和Salamon开创性地提出了神经网络集成,为解决神经网络泛化能力提高的问题提供了一个简易可行的方法。使用这种方法,可以简单地通过训练多个神经网络并将其结果进行合成显着地提高学习系统的泛化能力。1996年,Sollich和Krogh为神经网络集成下了一个定义,即“神经网络集成是用有限个神经网络对同一个问题进行学习,集成在某输入实例下的输出由构成集成的各神经网络在该实例下的输出共同决定”。目前这个定义已被广泛接受。

1神经网络集成个体生成方法

在生成集成个体网络方面,目前最重要的技术是Boosting和Bagging。这两种技术本身并非专为神经网络集成设计,可用于多种学习模型。

Boosting是一大类算法的总称,通过这种方法可以产生一系列神经网络,各网络的训练集决定于在其之前产生的网络的表现,被已有网络错误判断的实例将以较大的概率出现在新网络的训练集中。这样,新网络将能够很好地处理对已有网络来说很困难的实例。另一方面,虽然Boosting方法能够增强神经网络集成的泛化能力,但是同时也有可能使集成过分偏向于某几个特别困难的实例。因此,该方法不太稳定,有时能起到很好的作用,有时却没有效果。

Bagging的基础是可重复取样。在该方法中,各神经网络的训练集由从原始训练集中随机选取若干实例组成,训练实例允许重复选取。这样,原始训练集中某些实例可能在新的训练集中出现多次,而另外一些实例则可能一次也不出现。Bagging方法通过重新选取训练集增加了神经网络集成的差异度,从而提高了泛化能力。

2神经网络集成结论生成方法

当神经网络集成用于分类器时,集成的输出通常由个体网络的输出投票产生。通常采用绝对多数投票法(某分类成为最终结果当且仅当有超过半数的神经网络输出结果为该分类)或相对多数投票法(某分类成为最终结果当且仅当输出结果为该分类的神经网络的数目最多)。理论分析和大量试验表明,后者优于前者。因此,在对分类器进行集成时,目前大多采用相对多数投票法。

三、神经网络集成的框架模型

为了增强神经网络模型的泛化能力,笔者使用了如下图所示的神经网络集成框架模型,模型使用了对训练样本利用得比较充分的Bagging技术来产生个体神经网络,即通过Bagging从初始训练集中随机抽取出多个规模相同的训练集,然后为每一个训练集训练出一个神经网络个体,再结合具体应用实际使用相应的结论生成方法将上述多个神经网络的输出进行合成从而得到最初问题的结论。

四、用于煤炭企业可待续发展评价

煤炭资源属不可再生资源,煤炭开采必然受到矿区剩余储量的制约,煤炭企业迟早要面临资源衰竭。因而,煤炭企业的可持续发展问题日益突出,国内外学术界和决策部门为此进行了大量的探索,特别是在煤炭企业可持续发展水平评价上,开展了不少的研究。应用神经网络集成模型对煤炭企业可持续发展水平进行评价,可以避免复杂的数学推导,在样本缺损和参数漂移的情况下,仍能保证得到稳定的结果,同时,也有效回避经典的可持续发展评价方法(如层次分析法、模糊数学和主成分分析法等)无法回避的经验知识以及决策者个人主观意向所起的作用,集成学习的方法也保证了模型的泛化能力,这对解决煤炭企业全局性的决策规划是大有裨益的。

实际操作中,可以先按照煤炭企业可持续发展的涵义和指标体系设计的原则结合已有的研究成果构建评价指标体系;然后根据所评价的问题,结合具体的神经网络算法建立煤炭企业可持续发展神经网络评价模型;接下来对训练样本采用Bagging方法进行处理,然后为每个训练样本训练出一个神经网络模型,对这些训练好的神经网络模型的输出采用相应的结论生成方法进行合并,最后得到模型输出的最终评价结果。

1煤炭企业可持续发展评价指标体系

对于煤炭企业可持续发展评价指标体系的建立,目前有不少科研机构和学者进行了大量的研究,但煤炭企业可持续发展的度量和评估还未达成共识,还需有较大的改善。但作为煤炭企业,在研究其可持续发展时,应该包括生态持续、经济持续和社会持续等方面内容,并从煤炭企业的实际需要和可能出发,我们把煤炭企业可持续发展评价指标体系划分为三个层次,即目标层、准则层和指标层,如表1所示。

经过训练学习,评价网络可以输出衡量可持续发展水平的评价值O,为明确煤炭企业可持续发展水平,设可持续发展状态分为四级:一级为可持续发展;二级为初级可持续发展;三级为由传统发展向可持续发展过渡,四级为传统发展。

2煤炭企业可持续发展评价神经网络集成模型

(1)神经网络评价模型的建立

设可持续发展评价时采用的指标集合为I,评价企业的非空有限集合为U,Iu,表示评价企业u在指标集I上的取值,Ou表示评价企业u对应的可持续发展评价结果,则Ou是在一定的可持续发展评价准则下获得的,即:

Ou=EVA(Iu)

对所有的评价企业而言,上式可以表达为:

O=EVA(I)

由上式构造BP神经网络模型,以I为输入向量,O为输出向量,即为I→O映射模型。本文中设置神经网络的输出神经元个数为2,分别以[0,0]、[0,1]、[1,0]、[1 11]代表企业可持续发展的四级状态。通过大量煤炭企业可持续发展评价的实例数据的收集,用样本(I,O)对其进行训练,BP神经网络即可学习煤炭企业可持续发展的评价准则,在给定的误差要求下,当网络学习完成后,仟意给定煤炭企业可持续发展评价的指标值向量I,神经网络评价模型将给出其可持续发展结论O,从而完成对煤炭企业可持续发展的评价。

(2)神经网络评价模型的训练

本文将所获得的煤炭企业可持续发展评价的数据按训练数据集和测试数据集分为两部分,应用Matlab 7中神经网络工具箱提供的函数对建立的训练数据集进行训练,I和O分别表示训练数据集的输入和输出,测试数据集的输入和输出分别为I′和O′,网络训练完成后,将I′输入该网络,Ol为模型识别后的输出结果。设定训练终止次数为100次,训练终止误差为10-2,训练函数为TRAINLM,经反复试验网络在隐层神经元个数为26个、经68次训练达到误差要求。然后将O+与O′进行比较,选取均方差MSE、隐层结点数Nh总评价错误率做为检验模型的指标。表2所示为训练完成的神经网络评价模型N的检验指标。

(3)神经网络集成评价模型

在神经网络集成识别模型中,个体神经网络的输入、输出向量的维数相同,结论合成方法采用相对多数投票法。先生成10个BP网络作为神经网络集成的个体网络,这些网络的输出神经元分别表示可持续发展评价的结论。通过Matlab对神经网络集成识别模型进行仿真,神经网络集成评价模型的检验指标如表3所示。

按图1的流程利用训练好的神经网络集成对测试集进行识别,总评价错误率为9.2%,这个指标远远优于表2中的单一神经网络。实证研究的结果表明神经网络集成学习的评价模型可以在很大程度上提高神经网络模型的泛化能力。

五、结束语

神经网络集成简单地通过训练多个神经网络并将其结果进行集成,显着地提高神经网络系统的泛化能力。本文提出的基于神经网络集成的框架模型具有以下优势:(1)神经网络集成基于神经网络解决了非线性和时变性问题;(2)神经网络集成方法比单神经网络具有更强的泛化能力,预测也更为可靠。为神经网络在煤炭企业可持续发展评价方面的应用提供了更加有效的手段。