刘钜杭 广州市白云区统计普查中心

大数据时代的特点就是数据增长速度越来越快、数据量剧增,给经济普查数据分析工作带来了更大的挑战,如果仍旧固守着老旧思想与分析模式,那幺必然无法应对时代的难题。

一、大数据时代的经济普查情况

我国在经历了前几次的全国经济普查工作后,逐步建成了颇为完善的经济普查体系,克服了许多困难点。但是随着经济的不断发展、人口的逐渐增多,经济普查工作涉及的数据也越来越多,而大数据时代的到来,就迫切需要可靠且有效的经济普查数据分析模式、数据挖掘工具与方法。经济普查的大数据内容反映了近些年来国内经济发展状况,切实记录着我国经济的属性特征、数据的结构特点以及在特定时间段的数据变化规律,具体开展经济普查数据分析的对象包括国内第二产业及第三产业法人单位数据、个体经营户数据以及产业活动单位数据等,普查的内容包括单位的实际属性以及员工数量等等,从实际情况来看,每次开展经济普查其数据就会更多,考虑到这一情况,怎样选择数据挖掘技术方法、怎样运用数据分析工具,切实发挥出数据价值,成为一项重点关注的问题。

二、大数据时代的经济普查数据特点

(一)数据更加丰富

大数据时代与以往时代发生了较为明显的改变,在经济普查数据方面,数据的类型明显更多。如果不能够清晰地认识到数据的丰富性,就可能导致经济普查数据分析出现不足,可能会影响未来发展。比如,在大数据时代,开展经济普查数据相关工作,应当从全局观的角度出发,重视每种数据,一些数据尽管表现出的作用不是十分明显,但其对于全局工作而言仍旧是不可或缺的,因此在具体开展工作时,也应当投入更多努力,不忽视每项数据,尽可能保证大数据时代经济普查数据的质量,为全局工作提供更多帮助。

(二)数据更加多元

现阶段已经完全进入到了大数据时代,因此数据也变得更加多元化,即数据的表达是多种多样的。基于这些特点,大数据时代的经济普查数据分析过程中需采用科学应对模式,以便于对各项问题实现针对性解决。比如,大数据时代开展经济普查数据分析的过程中,对不同数据的解读存在的差异性也是十分明显的,在经过不同角度的深入分析以及理解后,会落实到实际问题的处理层面上,切实保证经济普查数据分析工作的多元化开展。

(三)数据更加多变

大数据时代数据的多变化特点越来越明显,从经济普查数据工作的角度来说,该特点也应当是重点关注的内容,其具有较高的解决难度。在开展经济普查数据工作的过程中,数据比较容易受到外部多种因素的影响,且不同因素的作用影响差异也是比较大的,比如国家针对这方面颁布了新的政策文件,那幺可能直接导致大数据时代经济普查数据工作发生全面转变,避免遗漏性问题,影响到整体工作的结果。此外,对于数据更加多变的这种特点,经济普查数据工作也应当要结合区域发展的模式以及实际工作特点来对待。

三、经济普查数据分析工作的要求

在经济普查的整体工作体系中,经济普查数据分析工作是最为基础,也是最为复杂、工作量巨大的工作。随着大数据时代的发展,其处理分析的数据类型越来越多,数据量不断增长,实际工作的挑战性越来越强,对于该项工作的要求也越来越高,既强调经济普查数据分析的准确性,也强调其分析的有效性和系统性。

(一)准确性要求

经济普查数据分析工作在新时代对准确性的要求更高,从这一要求的视角出发,实际分析数据时要始终坚持实事求是原则和真实准确原则,严禁出现数据造假的行为,而为切实把控数据的精准,就要明白某一时间段内的国家发展是动态化的,其经济、产业以及人口等方面都存在较多变化,因此保证数据准确就要对这种变化进行分析。实际数据收集中发现,许多时间点的数据都出现了较大波动,那幺就需要分析这一时间点数据波动的具体原因,避免产生大数据误差,保障经济普查工作的质量。

(二)系统性要求

系统性与复杂性是当前大数据时代经济普查数据分析工作的特点,而系统性也决定了整体经济普查数据分析的质量,因此其具有一定的系统性要求。经济普查数据分析的过程中,需保证人员能够切实掌握全部情况,还需对人员加强管理与培训,发挥出各项优势。还要积极学习新的数据分析方法,在数据分析工作中不断摸索规律,累积经验,促进对复杂数据的有效转化,提升数据分析质量。

(三)有效性要求

不管是从前还是在大数据时代,经济普查数据分析对有效性都有要求。从技术视角来看,随着经济普查数据类型的多元化、多样化以及多变化发展,其不同类型数据内容的关联性却在下降,同时,经济普查数据分析的成本和效率都是应当关注的内容,这也需选择最为有效的数据挖掘技术及数据分析技术,提升经济普查工作的整体信度以及效度,也优化普查的内容。

四、大数据时代经济普查数据分析的具体方法

在大数据时代,经济普查数据的方法与传统普查数据方法有着很大不同,同时,经济普查数据工作的要求也变得更多。在这些要求的基础上,从加强经济普查数据管理、构建完善体系、选择科学的数据挖掘和分析技术等多个方面全面考虑,切实让经济普查数据分析有机融合大数据,提升经济普查数据分析的成效。

(一)结合实际情况加强对经济普查数据分析的管理

根据大数据经济普查数据分析的要求,对整体经济普查数据分析加强组织管理,以便于建立起更为完善的经济普查数据分析机制。一方面要更加重视大数据时代的经济普查数据分析工作,做好其基础管理工作,明确经济普查数据分析的最终目标,明确实际工作流程,强化各个流程的衔接,对各环节之间的有效沟通进行把控,对实际工作人员的职责进行严格划分并保证责任落实到个体,积极引导各岗位人员运用科学的数据分析方式开展最基础的分析工作,还要把控好大数据预测分析方面,为下一步的经济普查数据分析打好基础,充分把握影响到经济普查数据分析的各种因素变动情况,还要了解数据分析的实际规律,灵活运用大数据挖掘技术,促进数据分析质量的提升。另一方面则是强化对经济普查数据分析全过程的探索,根据情况的不同来选择不同的数据分析方式和方向,将分析方式进行分类界定,对于数据信息的采集工作,也需制定完善的采集计划,经济普查数据的变化较常见,且不同类型的变化情况也不一致,比如,针对变化量较大且实际增长存在不稳定状态的数据,在进行分析时可以运用平均估算的模式,先进行抽样,再进行处理。充分结合经济普查数据分析的实际工作安排来完善分析基础,确保与其他环节之间保持合理衔接,对于经济普查数据分析的结果,还要定期开展检验和比对,保证分析结果的客观准确,如果发现存在问题应当及时分析问题产生的内因并进行改进,如果有必要也可重新开展数据采样,但需注意更换一个阶段,提升经济普查数据分析的可靠性。

(二)建立起完善的经济普查数据分析体系

有效开展大数据时代的经济普查数据分析工作,要保证整体分析的系统性,必然离不开完善的经济普查数据分析体系,经济普查数据分析本身涉及的工作面就较广,其实际实施的周期也比较长,完善的体系有利于制定出经济普查数据分析实施的指导方案,保证实际工作每个环节衔接的顺利,保证工作准确落实,结合多个方面的基本要求,整合数据统计和分析过程,深入探索其可能存在的风险并及时进行排查,提升普查的效率。除此之外,还应当加强资源的调度与重组,由于经济普查数据的复杂化,那幺在结合大数据技术分析的过程中,应当获得资源支持,以及保证各项硬件设施的完善。对于开展经济普查数据分析的工作人员,也要提升素质标准,结合数据收集、分析处理等特点对其进行能力与综合素质进行培训,保证人员充分掌握新技术方法,还要进行考评,保证经济普查数据分析工作的顺利开展,把控每一类数据的比对分析,结合实际负责制,出现问题纠察个体责任,对各环节进行把关,实现数据的快速传输和深入分析。

(三)探索现代化的数据挖掘方法

大数据时代,应当针对经济普查实际情况,在经济普查数据挖掘方面,选择最为先进的技术方法,选择最方便与合适的工具软件,利用这些软件和数据进行典型数据的预处理,探究出最适合的现代化数据挖掘方法。当前应用较多的数据挖掘方法如下。

1.SAS 统计分析软件

该软件的特征是模组中具有体现出集成化和模块化的软件系统,该系统也是功能发挥的核心,负责数据访问工作、数据管理工作、数据分析工作和数据呈现工作,都是围绕着数据来展开的。SAS 软件还具有灵活性特征,能够向外拓展,主要是接口功能扩展形成功能模块,不同类型的功能模块也能够带来不同的作用。此外,SAS软件在数据统计方面具备较多函数,还具有智能绘图功能,能够更加直观且清晰地了解数据。

2.SQL Server 2000 analysis services 软件

该软件是一种具有完整数据库分析类软件。软件的开发一开始是为了提供具有可伸缩性的电子商务,同时迅速解决企业与数据仓库的问题。在经济普查数据挖掘中,运用该项软件可以切实获得数据分析和数据管理相关的解决方案,在数据库的应用和电子商务的开发方面都尽可能为用户缩短时间,使得数据分析更为高效,业务扩展方面更为灵活,具有更安全的操作系统集成和更适用的客户管理工具,能够迅速开发且进行生产投入。

3.决策树

决策树的主要构成包括决策点、状态点和结果点。在实际进行决策树的使用之前,用户需切实掌握各种情况发生的概率,然后进行决策树的构成,再通过决策树获得净现值的期望值大于或是等于0 的概率,对项目的风险开展评价,对决策的可行性进行客观判断。决策树事实上就是一种图解法,但其是围绕着概率分析来展开的,具有直观性特点。决策树很容易实现且便于用户理解,决策分析所运用的时间也颇短,实际测定的模型具有较高的可信度。但决策树也有着不足之处,那就是其实际分析的过程较为粗放,缺少了精准性,这也会导致连续性字段的预测方面难度增加,而对于有时间顺序的数据还需要进行预处理,同时也会带来较高的错误率。

4.Intelligent Miner 工具

Intelligent Miner 工具的特点是具有多种数据挖掘算法,同时也采用了多种统计方法。该项工具能够处理许多数据类型,在数据的挖掘工作中具有较好的应用效果,比如能够处理结构化数据类型,包括数据库视图的数据和数据库表的数据,还有半结构化数据类型,包括资源库、报表等,也能够处理非结构化数据类型,像是在线服务、顾客信件等等。其运用的技术是独一无二且先进的,比如发现关联技术、典型数据集的自动生成技术、概念性分类技术、发现序列规律技术以及可视化呈现技术等等。基于这些技术,能够完成全套的数据挖掘操作,包括数据的选择、数据的转换以及数据挖掘结果的表达等等。

5.SPSS Clementine 平台

SPSS Clementine 是具有数据挖掘功能的平台,其具体的原理是快速建立起有效的预测性模型。这种模型在实际运用时,可以帮助用户对决策方法进行改进,也能够改进决策的过程,比如在商业活动中,SPSS Clementine 平台强大的数据挖掘功能,能够获得较显着的投资回报率。并且处于相同条件时,与普通只关注模型外在的数据挖掘工具相比,该数据挖掘工具更看重数据挖掘的应用在整个流程中所体现的价值,且具有着不可取代的数据挖掘算法,让数据挖掘贯彻于始末。

五、结语

综上所述,在大数据时代,经济普查数据分析工作的复杂性变得更高,这主要是由于其数据的多元化、多变化以及丰富化发展。经济普查数据分析工作应当采用更为先进的数据挖掘技术,提升数据分析的质量。由文章分析可知,大数据时代经济普查数据分析的具体方法包括:结合实际情况加强对经济普查数据分析的管理、建立起完善的经济普查数据分析体系、探索现代化的数据挖掘方法。