聚类分析算法在无线局域网优化分析中的应用

摘要：网络优化是指通过对大量采集的网络运行数据进行分析、汇总、提炼，获得网络运行质量的影响因子，从而针对实际情况作出相应的决策，反馈调整系统参数或相关设备，让网络运行达到最佳状态，同时对网络日后的运维和扩容等提出有效的决策参考。网络优化的实质是优化网络质量、提高网络品质，而网络质量不仅仅是单一因素作用的结果，而是受多种因素相互制约的，随着应用范围的不断增加，工作的不断深入，其优化技术也得到大幅提升，至使优化领域不断扩展，优化对象已突破现有的网络，扩展渗透到运营市场的商业预测，实施规划，运行管理、维护扩容等整个运营过程的各个层面。文章主要介绍K-均值聚类算法如何在无线局域网优化及分析中的应用。

关键词：无线局域网；聚类分析算法；网络优化

聚类（clustering）是将物理的抽象的对象集合，分成相似的对象类的过程。簇（cluster）是数据对象的集合，同一簇中的对象具有相似性，而不同簇中的对象则具有相异性。聚类分析（Cluster analysis，亦称为群集分析）是一种重要的人类活动。早在孩童时代，通过不断地改进下意识的聚类模式来学习如何区分猫和狗，或动物和植物。通过自动聚类能够识别对象空间中稠密和稀疏区域，从而发现全局分布模式和数据属性之间有趣的相关。聚类分析已经在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集（subset），划分的原则是在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。属于一种无指导的学习方法。

针对现存在的一批聚类算法。尚未能提供相对标准统一的分类。因为类别可能交叉重叠，有可能出现体现多种特征的分类方法，一般划分如下。划分方法（partitioning methods）：给定对象或数据元组的数据库，划分方法构建数据的划分，每个划分表示一簇。层次方法（hierarchical methods）：对预设数量的数据集进行层次的分解。按照其分解方式可以将层次方法分类为凝聚的层次聚类和分裂的层次聚类两种。基于密度的方法（density-based methods）：以数据集在空间分布上的稠密程度为依据进行聚类。基于网格的方法（grid-based methods）：将数据空间划分成为有效单元的网络结构。基于模型的方法（model-based methods）：给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。

k-means算法，又叫做k-平均算法或者k-均值算法，应用最广泛的算法之一。它的特征是，取子集内的样本均值，当作其代表点。利用迭代的思想，其数据集被划分成不同的类别，这是它的主要思想。以致准则函数性能最优化，达到聚类性能评价最优。产生的每个聚类特点是：类间独立，类内紧凑。它的另一特点是：适合于处理连续型属性聚类，而不太适宜离散型属性聚类处理。

在本文中运用了k均值聚类算法，利用Oracle来实现具体步骤。我们使用5个Oracle存储过程来完成该算法。图1是每个存储过程的作用。

图2是Oracle存储过程结构。USP_KMEANS_CLUSTER是聚类的综合过程，它首先对数据进行预处理，因此它最先调用的是USP_KMEANS_NORMALDATA或USP_KMEANS_STANDARDDATA，然后再去计算预处理后的数据的初始中心，这一步由过程USP_KMEANS_INITIALCENTER来实现，再去判断聚类中心点是否发生了变化，如果变化则再调用过程USP_KMEANS_MODIFYCENTER，直到聚类中心不再发生变化。

k-均值聚类算法可以高效的、可伸缩的处理大数据集，处理快速、操作简单，算法尝试找出使平方误差函数值最小的k个划分。若簇之间区别明显，结果簇是密集的，效果较好。依据以上特点，适用于在无线局域网数据包被采集到以后进行网络优化分析。

参考文献

[1]张卓筠，高功应，王磊.WLAN与EPC网络整合架构研究[J].移动通信，2012，10：93-96.

[2]陈松乔，任胜兵，王国军.现代软件工程[M].北京：清华大学出版社，2008：210-350.

[3]George Fairbanks.恰如其分的软件架构[M].湖北：华中科技大学出版社，2013：340-395.

[4]陈吉平.构建0racle高可用环境：企业级高可用数据库架构、实战与经验总结[M].北京：电子工业出版社，2008：245-302.

作者简介：魏焕新（1983-），男，湖南长沙人，硕士研究生，湖南机电职业技术学院信息工程学院，研究方向为计算机应用技术。