徐德义 林志恒

[摘 要]简单介绍了大数据时代的到来,大数据的产生及特征,在此基础上提出了大学统计学教学的几个方面的思考。

[关键词]大数据 大学统计教学 大统计

[中图分类号] O21[文献标识码] A[文章编号] 2095-3437(2015)11-0183-02

一、引言

2009年8月5日的《纽约时报》刊登题为“当今大学毕业生唯一关键词:统计学”文章。[1]文中介绍,哈佛大学人类学家格赖姆斯改行就职Google,从事海量数据的分析工作,整天就是和数学、计算机打交道,用数据分析方法改善Google搜索引擎。文中援引Google首席经济师范里安的话说:“我坚持认为今后10年最性感的工作是当统计师,我可没开玩笑!”麻省理工学院经济学家布林约夫森说:“我们进入了一个一切都可以被监测器和科学仪器数字化和记录的时代(大量数据在不断产生),但最大的问题是我们有没有能力利用、分析这些数据,让其为我们服务。”数据中有大量的珍宝。IBM组织了200名数学家、统计学家和其他数据分析大师为商业分析和优化服务,在数据中探宝,他们计划将探宝队伍扩充到4000人。网络数据的样本量打开了一个新世界,康奈尔大学克莱因伯格说,社会统计中,相比传统采访和问卷调查等形式的抽样,数百万计的网民的网络互动产生的样本量是令人惊奇的。专家警告,统计学面临着严重的危机,单就网络数据的体量就足以使得传统统计模型丧失能力,而且,数据的强相关性未必就有因-果关系。

数据在爆炸,我们在惊梦中进入了大数据(Big Data)时代,大数据正在引起一场革命,它将改变我们的生活、工作和思维[2],统计学是关于数据的科学,它迎来了一场变革,是机遇也是挑战。[3] [4]

二、大数据的产生及其特征

数据化是大数据时代到来的标志。社会网络、电子商务、移动通信、深空探测、卫星遥感、基因测序以及其他科学测量仪器时时刻刻都在自动测量和记录着数据,而且这一趋势在不断增强。2007年所有数据中只有7%是存储在报纸、书籍、图片等介质上,其余全部都是数字数据。Google每天要处理超过24PB2的数据,它是美国国家图书馆所有纸质出版物所含数据量的上千倍。科尔尼公司科学家统计结果显示,仅2012年就产生了2.5ZB的数据,并且数据产生量以每年40%的速度递增,2011、2012两年产生了全球90%的数据,到2020年将达到45ZB,这是天文数字。

我们用中国移动公司为例大致描述一下大数据的产生。2015年中国移动已经达到12.93亿个用户,用户数近似12G,给用户提供通话、短信、上网等服务。若网络流量包月30MB,每天1MB,平均每天网络数据流量达到12PB,若每天还记录用户信息(姓名、身份、职业、位置等),通话(时刻、时长、内容),短信(内容)等,保守估计所产生的数据可以达到300PB,一年将超过100EB=0.1ZB。再看这些数据的形式,它们有文字、表格、符号、图片、语音、数字、影像、上网轨迹等等,如果还考虑这些数据时时刻刻都在改变,每个用户有自己的偏好,可以想象这些数据的体量、变化性、复杂性,如果移动公司利用这些数据进行市场分析和行业规划,这些数据还具有巨大价值。图1描述了大数据的产生及其演化过程。[5]

人们从不同的方面对大数据进行了描述和定义。从特征来看,大数据具有“4V”:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。[6]Volume:由于当今数据的体量大,其处理和管理只能依靠专门的技术,驾驭这些先进技术是开启大数据宝藏的钥匙;Velocity:快速处理大数据并获取有用信息;Variety:要开发利用的大数据的数据类型庞杂、数据源众多;Value:大数据中隐含着商机,隐含着企业、行业乃至国家战略决策的依据,它是煤、石油、金属矿产、水等之外的一种新型资源。

图1   大数据的演化图(据科尼尔分析修改[5])

从统计的角度,李金昌认为大数据不是基于人工设计、借助传统方法而获得的有限、固定、不连续、不可扩充的结构型数据,而是基于现代信息技术与工具可以自动记录、储存和连续扩充的、大大超出传统统计记录与储存能力的一切类型的数据。[6]

从技术的角度,维基百科的定义是,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理、处理的数据集合。从产业角度,常常把这些数据与采集它们的工具、平台、分析系统一起被称为“大数据”。

三、大数据时代的大学统计教学

大数据时代是以数据为中心的时代,是数据驱动的时代。作为关于数据的科学,统计学面临着重大的机遇和挑战,大学统计学教学面临着重大变革。20世纪中叶计算机技术的进步为统计应用的腾飞插上了有力的翅膀,使其应用范围遍及自然科学、社会科学的各个领域,无所不在,使得统计学趋向成熟。如今计算机、互联网、云计算电子商务和社会网络等的发展又将统计学推到了风口浪尖,国际、国内很多统计学家纷纷撰文对统计学为适应新时代的发展所需的变革进行了论述。

孟生旺和袁卫[7]根据2014年11月美国统计学会发布的统计学本科专业指导性教学纲要,强调了4个方面:(1)数据科学日益重要,统计专业人才不仅需要扎实的数学和统计基础,还要有强大的统计计算和编程能力,可以熟练使用专业统计软件和数据库;(2)真实数据是统计专业教育的重要组成部分;(3)需要更加多样化的统计模型和方法;(4)通过语言、图表和动画等用户易于理解的方式表达数据分析结论的能力。他们还从统计方法与统计理论、数据操作与统计计算、数学基础、实践训练等几个方面对课程设置提出了具体要求。

结合他人的思想,我们认为在教学过程中必须思考几个方面的问题并进行思想方法和教学方法的转变。

(1)对数据的认识,传统统计数据类型包括时间序列数据、截面数据、面板数据以及空间面板数据等,结构性强,针对每类数据都有有效的统计分析方法和模型。然而,如上文提到的通信数据,还有社交网络记录的数据、电子商务记录的客户数据等等,它们往往是传统数据类型的混杂体,既有静态的也有动态的,既有结构性的也有非结构性的。另外,数据库与数据库之间存在大量数据交换与关联,这些数据都不适合传统统计模型,要想在这些数据中挖掘到有用信息,要进行市场分析与决策。面对这些因素,我们在教学中该如何处理,如何思考?另外,这些数据中的变量可能是一个Word文档,可能是一段语音,可能是一幅图片,是不是需要将它们都转化成数字再处理呢?

(2)关于抽样,首先由于网络和科学仪器的进步,数据获取技术得到了前所未有的提高,加上强大的计算机处理能力,通过抽取样本推断总体的属性是不是造成信息浪费呢?维克托主张,当数据处理技术已经发生了翻天覆地的变化时,抽样技术就像汽车时代骑马一样,一切都变了,我们需要的是全部数据而不是样本,统计需要“全数据模式”:样本=总体。

(3)精确与简单,维克托估计大数据中只有5%的数据是结构化的,是可以用传统统计学模型进行分析的,然而其余95%的数据是混杂的,其中隐含的信息不仅多而且可能是更有用的,如果因为追求精确性而拒绝混杂数据将是资源的巨大浪费。他认为,大数据的简单算法比小数据的复杂算法更有效,我们不应该拒绝混杂性,而要以混杂性为标准设计新型数据库进而快速有效地获取有用信息。

(4)因果与相关,相关性回答的是“是什幺”,因果关系回答的是“为什幺”。维克托主张,大数据时代,我们不必一定要知道现象背后的原因,而是要让数据自己“说话”,知道是什幺就够了,知道了是什幺就可以创造巨大的社会价值,大数据时代探索世界的方法需要改变。然而,维克托的《大数据时代》中译本作者周涛对“相关关系比因果关系更重要”观点不认同,认为放弃对因果关系的追求就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。我们同意周涛的观点,在巨大的利益面前尽快、尽量多的知道是什幺是很重要的,尤其是对商业界来说。探索事物之间的因果关系是统计学的重要使命之一,然而与小数据相比,大数据中的因果关系可能被大量的混杂性掩埋,望远镜和显微镜如何有效地配合使用也是我们不能回避的问题。

统计这门学科的发展一方面必须适应社会的发展,满足社会的需求,另一方面要不断完善其理论、方法体系。这样一来,大学的统计教学既要让学生掌握传统统计学知识,又要激发和培养学生们大胆探索适应大数据时代的新思想、新方法和新应用。

[ 注 释 ]

[1] STEVE LOHR, For Todays Graduate, Just One Word:Statistics[N].New York Times,2009-08-05.

[2] 维克托着.周涛译.大数据时代——生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

[3] 耿直,大数据时代统计学面临的机遇与挑战[J].统计研究,2014(1):5-9.

[4] 邱东,大数据时代对统计学的挑战[J].统计研究,2014(1):16-17.

[5] https://www.atkearney.com / strategic-it / featured-article / - / asset_publisher / BqWAk3NLsZIU / content / big-data- and-the-creative-destruction-of-today-s-business-models / 10192.

[6] 李金昌.大数据与统计新思维[J].统计研究,2014(1):10-16.

[7] 孟生旺,袁卫.大数据时代的统计教育[J].统计研究,2015(4):3-7.

[责任编辑:钟 岚]