时间:2023-07-23 09:15:44
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据分析统计学方法范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
关键词:大数据;数据分析;数理统计
基金项目:华北理工大学研究生教育教学改革项目资助(项目编号:K1503)
基金项目:华北理工大学教育教学改革研究与实践重点项目资助(项目编号:Z1514-05;J 1509-09)
G643;O21-4
谷歌公司的经济学家兼加州大学的教授哈尔・范里安先生过去说过统计学家将会成为像电脑工程师一样受欢迎的工作。在未来10年里,人们获得数据、处理数据、分析数据、判断数据、提取信息的能力将变得非常重要,不仅仅在教育领域,各行各业都需要数据专家,“大数据”时代的到来使得数据处理与分析技术日新月异,深刻的影响着各个行业、领域及学科的发展,尤其是与数据关系密切的行业及学科,而作为工科各专业硕士研究生重要的公共基础课数理统计学是天生与数据打交道的学科。
怎样在“大数据”时代背景下培养出适应面向企业自主创新需求的数据分析人员或掌握现代数据处理技术的工程师,如何把当下流行的“大数据”处理技术与相关数理统计学课程教学有机的结合,以激发学生对数据处理与分析技术发展的兴趣,这些都是我们在与数理统计学相关的课程教学中不得不思考的问题。然而,当前高校工科各专业硕士研究生数理统计教学的现状却与其重要程度相去甚远,整个教学过程的诸多环节都存在较大的不足,主要表现为:1.教学内容偏重理论,学生学习兴趣不高;2. 轻统计实验;忽略对统计相关软件的教学;3.没有注重数理统计的学习与研究生专业相结合,实用性强调不够。4. 轻能力培养;轻案例分析等。
这些现象导致的直接后果就是学生动手能力上的缺陷和创新能力的缺乏, 不能够自觉利用数理统计知识解决实际问题, 尤其缺乏对统计数据的分析能力。因此,需要数理统计学随着环境的变化不断创新新的数理统计思维和教学内容。避免教学内容与大数据时代脱节。为此笔者在该课程的教学过程中,有意识地进行了一些教学改革尝试。提出了几点工科研究生数理统计教学的改革措施。
(1)调整教学内容,将与数理统计相关的大数据处理案例引进课堂。有很多有普遍性的应用统计实际案例,可以在本课程的教学过程中有选择的引入介绍给学生,让学生们了解利用所学统计方法进行实际数据分析的操作过程和得出结论的思维方法。以期解决工科研究生对确定性思维到随机性思维方式的转变的不适应性。
(2)适应大数据时代数理统计学课程的教学环境。实现教学方式的多样性。大数据时代背景下,互联网十分发达,学生根据自己的兴趣去收集、整理和分析数据,既可以改变他们对统计方法的进一步认识,也可以增加他们的学习兴趣。甚至可以以专业QQ群,邮件的方式和同学、老师之间相互交流,交流者处于相互平等的地位,可以畅所欲言,随时随地都可以交流,起到事半功倍的效果。这种交流使得教师不再是知识的权威,而是把教师上课作为一种更好自主学习的引导,这种交流使得他们的思想变得更加成熟。同时参与各种网络论坛,贴吧回答问题等使得他们更能体现自己的价值,这种交流也使得学生的学习热情和学习精神得到更好的激发。
(3)引导工科研究生开展与本专业相结合的课题研究,强调实用性,注重统计思维能力培养。适应大数据时代数理统计学课程教学环境,实现教学方式的多样性。以期弥补学生缺少数据分析实例的训练,解决学以致用的不足。在目前的数理统计教学安排下,受学时所限,如果相当一部分时间用来学习公式、定理的推导及证明,势必没有时间进行实际的数据分析练习。在大数据时代背景下,随着海量数据、复杂形式数据的出现,使得统计方法的发展和以前有了很大的不同,没有实际的数据分析训练,学生们就无法对统计的广泛应用性及重要性有深刻的体会,也不利于保持和提高他们的学习兴趣。这要求具体工作者提出新的统计思想和方法,加深对已有统计思想的理解,以解决实际问题。
(4)改革成绩评定方式。现有的考试模式为通过有限的一到两个小时的期末考试,进行概念的辨析和理论及方法的推导计算,由此来判断研究生关于数理统计课程的学习情况有很大的不足,特别是对可以利用软件进行的某些实际数据分析的考察没有办法实现。因此,有必要通过日常课堂“论文选题―提交―讨论”与期末理论考试相结合的形式对学生数理统计学习进行考核。加大对学生平时考察的力度,相应地减少期末考试成绩的比重。让学生选择一些与自己专业有关的数据进行尝试性的数据分析、一些统计科普著作的读书报告等并写成论文的形式提交,做为对学生成绩的评定方式,更能综合、客观地评价学生的学习情况。
数据分析在现代生活中发挥的作用越来越大,而道硗臣品椒可以与数据分析有机的结合,从而在提高数据分析效率的同时,保持分析结果的有效性,为生产和实践活动提供准确的参考。以上的思考和建议仅是我们在教学研究和教学过程中的一点体会,还有许多工作亟待深入,比如适合工科研究生数理统计课程的大数据案例选取,与课程内容的有效衔接;案例教学法如何实施;教学方式多样化问题;课堂教学与网络交流结合;理论介绍与软件应用训练结合问题等。教学改革与实践是一项艰巨的任务,以培养学生的实际运用能力和正确解释数据分析结果的能力为目的,强调统计思想和方法应用的培养,让学生们了解利用所学统计方法进行实际数据分析的操作过程和得出结论的思维方法将是一项长期的工作。
参考文献
[1].游士兵,张 佩,姚雪梅.大数据对统计学的挑战和机遇[J].珞珈管理评论, 2013, ( 02): 165-171.
统计学研究的对象是数据,数据科学顾名思义也是以数据为研究对象,这产生一种直观的错觉,似乎数据科学与统计学之间存在某种与生俱来的渊源关系。Wu(1998)直言不讳,数据科学就是统计学的重命名,相应地,数据科学家替代了统计学家这个称谓。若此,那是什么促成了这种名义上的替代?显然仅仅因为数据量大本身并不足以促成“统计学”向“数据科学”的转变,数据挖掘、机器学习这些概念似乎就已经足够了。问题的关键在于,二者所指的“数据”并非同一概念,数据②本身是一个很宽泛的概念,只要是对客观事物记录下来的、可以鉴别的符号都可以称之为数据,包括数字、文字、音频、视频等等。统计学研究的数据虽然类型丰富,如类别数据、有序数据等定性数据,定距数据、定比数据等定量数据,但这些都是结构化数据;数据科学所谓的数据则更为宽泛,不仅包括这些传统的结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据,即,大数据。大数据(以半/非结构型数据为主)使基于关系型数据库的传统分析工具很难发挥作用,或者说传统的数据库和统计分析方法很难在可容忍的时间范围内完成存储、管理和分析等一系列数据处理过程,为了有效地处理这类数据,需要一种新的范式———数据科学。真正意义上的现代统计学是从处理小数据、不完美的实验等这类现实问题发展起来的,而数据科学是因为处理大数据这类现实问题而兴起的。因此数据科学的研究对象是大数据,而统计学以结构型数据为研究对象。退一步,单从数量级来讲,也已发生了质变。对于结构化的大规模数据,传统的方法只是理论上的(可行性)或不经济的(有效性),实践中还需要借助数据挖掘、机器学习、并行处理技术等现代计算技术才能实现。
二、数据科学的统计学内涵
(一)理论基础
数据科学中的数据处理和分析方法是在不同学科领域中分别发展起来的,譬如,统计学、统计学习或称统计机器学习、数据挖掘、应用数学、数据密集型计算、密集计算方法等。在量化分析的浪潮下甚至出现了“metric+模式”,如计量经济学、文献计量学、网络计量学、生物统计学等。因此,有学者将数据科学定义为计算机科学技术、数学与统计学知识、专业应用知识三者的交集,这意味着数据科学是一门新兴的交叉学科。但是这种没有侧重的叠加似乎只是罗列了数据科学所涉及到的学科知识,并没有进行实质性的分析,就好似任何现实活动都可以拆解为不同的细分学科,这是必然的。根据Naur(1960,1974)的观点,数据科学或称数据学是计算机科学的一个替代性称谓。但是这种字面上的转换,并没有作为一个独立的学科而形成。Cleveland(2001)首次将数据科学作为一个独立的学科提出时,将数据科学表述为统计学加上它在计算技术方面的扩展。这种观点表明,数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果。一如统计学最初只是作为征兵、征税等行政管理的附属活动,而现在包括了范围更广泛的理论和方法。从研究范围的扩展来看,是从最初的结构型大规模数据(登记数据),到结构型的小规模数据(抽样数据)、结构型的大规模数据(微观数据),再扩展到现在的非(半)结构型的大规模数据(大数据)和关系数据等类型更为丰富的数据。从分析方法的扩展来看,是从参数方法到非参数方法,从基于模型到基于算法,一方面传统的统计模型需要向更一般的数据概念延伸;另一方面,算法(计算机实现)成为必要的“可行性分析”,而且在很多方面算法模型的优势越来越突出。注意到,数据分析有验证性的数据分析和探索性的数据分析两个基本取向,但不论是哪一种取向,都有一个基本的前提假设,就是观测数据是由背后的一个(随机)模型生成,因此数据分析的基本问题就是找出这个(随机)模型。Tukey(1980,2000)明确提到,EDA和CDA并不是替代关系,两者皆必不可少,强调EDA是因为它被低估了。数据导向是计算机时代统计学发展的方向,这一观点已被越来越多的统计学家所认同。但是数据导向仍然有基于模型与基于算法两种声音,其中,前文提到的EDA和CDA都属于基于模型的方法,它们都假定数据背后存在某种生成机制;而算法模型则认为复杂的现实世界无法用数学公式来刻画,即,不设置具体的数学模型,同时对数据也不做相应的限制性假定。算法模型自20世纪80年代中期以来随着计算机技术的迅猛发展而得到快速成长,然而很大程度上是在统计学这个领域之外“悄然”进行的,比如人工神经网络、支持向量机、决策树、随机森林等机器学习和数据挖掘方法。若响应变量记为y,预测变量记为x,扰动项和参数分别记为ε和β,则基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y与x之间的关系并对y做出预测,其中,f是一个有显式表达的函数形式(若f先验假定,则对应CDA;若f是探索得到的,则对应EDA),比如线性回归、Logistic回归、Cox回归等。可见,传统建模的基本观点是,不仅要得到正确的模型———可解释性强,而且要得到准确的模型———外推预测能力强。而对于现实中复杂的、高维的、非线性的数据集,更切合实际的做法是直接去寻找一个恰当的预测规则(算法模型),不过代价是可解释性较弱,但是算法模型的计算效率和可扩展性更强。基于算法的基本形式类似于非参数方法y=f(x,ε),但是比非参数方法的要求更低yx,因为非参数方法很多时候要求f或其一阶导数是平滑的,而这里直接跳过了函数机制的探讨,寻找的只是一个预测规则(后续的检验也是基于预测构造的)。在很多应用场合,算法模型得到的是针对具体问题的解(譬如某些参数是被当作一个确定的值通过优化算法得到的),并不是统计意义上的推断解。
(二)技术维度
数据科学是基于数据的决策,数据分析的本质既不是数学,也不是软件程序,而是对数据的“阅读”和“理解”。技术只是辅助数据理解的工具,一个毫无统计学知识的人应用统计软件也可以得到统计结果,但无论其过程还是结果都是可疑的,对统计结果的解释也无法令人信服。“从计算机科学自身来看,这些应用领域提供的主要研究对象就是数据。虽然计算机科学一贯重视数据的研究,但数据在其中的地位将会得到更进一步的加强”。不可否认,统计分析逐渐向计算机科学技术靠近的趋势是明显的。这一方面是因为,数据量快速膨胀,数据来源、类型和结构越来越复杂,迫切需要开发更高效率的存储和分析工具,可以很好地适应数据量的快速膨胀;另一方面,计算机科学技术的迅猛发展为新方法的实现提供了重要的支撑。对于大数据而言,大数据分析丢不掉计算机科学这个属性的一个重要原因还不单纯是因为需要统计软件来协助基本的统计分析和计算,而是大数据并不能像早先在关系型数据库中的数据那样可以直接用于统计分析。事实上,面对越来越庞杂的数据,核心的统计方法并没有实质性的改变,改变的只是实现它的算法。因此,从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,是如何实现统计分析的辅助工具,核心的数据分析逻辑并没有实质性的改变。因此,就目前而言,大数据分析的关键是计算机技术如何更新升级来适应这种变革,以便可以像从前一样满足统计分析的需要。
(三)应用维度
在商业应用领域,数据科学被定义为,将数据转化为有价值的商业信息①的完整过程。数据科学家要同时具备数据分析技术和商业敏感性等综合技能。换句话说,数据科学家不仅要了解数据的来源、类型和存储调用方式,而且还要知晓如何选择相应的分析方法,同时对分析结果也能做出切合实际的解释②。这实际上提出了两个层面的要求:①长期目标是数据科学家从一开始就应该熟悉整个数据分析流程,而不是数据库、统计学、机器学习、经济学、商业分析等片段化碎片化的知识。②短期目标实际上是一个“二级定义”,即,鼓励已经在专业领域内有所成就的统计学家、程序员、商业分析师相互学习。在提及数据科学的相关文献中,对应用领域有更多的倾向;数据科学与统计学、数学等其他学科的区别恰在于其更倾向于实际应用。甚至有观点认为,数据科学是为应对大数据现象而专门设定的一个“职业”。其中,商业敏感性是数据科学家区别于一般统计人员的基本素质。对数据的简单收集和报告不是数据科学的要义,数据科学强调对数据多角度的理解,以及如何就大数据提出相关的问题(很多重要的问题,我们非但不知道答案而且不知道问题何在以及如何发问)。同时数据科学家要有良好的表达能力,能将数据中所发现的事实清楚地表达给相关部门以便实现有效协作。从商业应用和服务社会的角度来看,强调应用这个维度无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念,数据分析的目的很大程度上也是为了增进商业理解,而且包括数据科学家、首席信息官这些提法也都肇始于实务部门。不过,早在20世纪90年代中期,已故图灵奖得主格雷(JimGray)就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作为专题(封面)探讨了环境科学、生物医药、互联网技术等领域所面临的大数据挑战。2011年2月11日,《科学》携其子刊《科学-信号传导》、《科学-转译医学》、《科学-职业》专门就日益增长的科学研究数据进行了广泛的讨论。格雷还进一步提出科学研究的“第四范式”是数据(数据密集型科学),不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上是将数据从计算科学中单独区别开来了。
三、数据科学范式对统计分析过程的直接影响
以前所谓的大规模数据都是封闭于一个机构内的(数据孤岛),而大数据注重的是数据集间的关联关系,也可以说大数据让孤立的数据形成了新的联系,是一种整体的、系统的观念。从这个层面来说,将大数据称为“大融合数据”或许更为恰当。事实上,孤立的大数据,其价值十分有限,大数据的革新恰在于它与传统数据的结合、线上和线下数据的结合,当放到更大的环境中所产生的“1+1>2”的价值。譬如消费行为记录与企业生产数据结合,移动通讯基站定位数据用于优化城市交通设计,微博和社交网络数据用于购物推荐,搜索数据用于流感预测、利用社交媒体数据监测食品价等等。特别是数据集之间建立的均衡关系,一方面无形中增强了对数据质量的监督和约束;另一方面,为过去难以统计的指标和变量提供了另辟蹊径的思路。从统计学的角度来看,数据科学(大数据)对统计分析过程的各个环节(数据收集、整理、分析、评价、等)都提出了挑战,其中,集中表现在数据收集和数据分析这两个方面。
(一)数据收集方面
在统计学被作为一个独立的学科分离出来之前(1900年前),统计学家们就已经开始处理大规模数据了,但是这个时期主要是全国范围的普查登记造册,至多是一些简单的汇总和比较。之后(1920-1960年)的焦点逐渐缩聚在小规模数据(样本),大部分经典的统计方法(统计推断)以及现代意义上的统计调查(抽样调查)正是在这个时期产生。随后的45年里,统计方法因广泛的应用而得到快速发展。变革再次来自于统计分析的初始环节———数据收集方式的转变:传统的统计调查方法通常是经过设计的、系统收集的,而大数据是零散实录的、有机的,这些数据通常是用户使用电子数码产品的副产品或用户自行产生的内容,比如社交媒体数据、搜索记录、网络日志等数据流等,而且数据随时都在增加(数据集是动态的)。与以往大规模数据不同的是,数据来源和类型更加丰富,数据库间的关联性也得到了前所未有的重视(大数据的组织形式是数据网络),问题也变得更加复杂。随着移动电话和网络的逐渐渗透,固定电话不再是识别住户的有效工具变量,相应的无回答率也在增加(移动电话的拒访率一般高于固定电话),同时统计调查的成本在增加,人口的流动性在增加,隐私意识以及法律对隐私的保护日益趋紧,涉及个人信息的数据从常规调查中越来越难以取得(从各国的经验来看,拒访率或无回答率的趋势是增加的),对时效性的要求也越来越高。因此,官方统计的数据来源已经无法局限于传统的统计调查,迫切需要整合部门行政记录数据、商业记录数据、个人行为记录数据等多渠道数据源,与部门和搜索引擎服务商展开更广泛的合作。
(二)数据分析方面
现代统计分析方法的核心是抽样推断(参数估计和假设检验),然而数据收集方式的改变直接淡化了样本的意义。比如基于浏览和偏好数据构建的推荐算法,诚然改进算法可以改善推荐效果,但是增加数据同样可以达到相同的目的,甚至效果更好。即所谓的“大量的数据胜于好的算法”这与统计学的关键定律(大数定律和中心极限定理)是一致的。同样,在大数据分析中,可以用数量来产生质量,而不再需要用样本来推断总体。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据导向的、基于算法的数据分析方法成为计算机时代统计学发展无法回避的一个重要趋势。算法模型不仅对数据分布结构有更少的限制性假定,而且在计算效率上有很大的优势。特别是一些积极的开源软件的支撑,以及天生与计算机的相容性,使算法模型越来越受到学界的广泛重视。大数据分析首先涉及到存储、传输等大数据管理方面的问题。仅从数量上来看,信息爆炸、数据过剩、数据泛滥、数据坟墓、丰富的数据贫乏的知识……这些词组表达的主要是我们匮乏的、捉襟见肘的存储能力,同时,存储数据中有利用价值的部分却少之又少或尘封窖藏难以被发现。这除了对开采工具的渴求,当时的情绪主要还是迁怨于盲目的记录,把过多精力放在捕捉和存储外在信息。在这种情况下,开采有用的知识等价于抛弃无用的数据。然而,大数据时代的思路改变了,开始变本加厉巨细靡遗地记录一切可以记录的数据。因为:数据再怎么抛弃还是会越来越多。我们不能通过删减数据来适应自己的无能,为自己不愿做出改变找借口,而是应该面对现实,提高处理海量数据的能力。退一步,该删除哪些数据呢?当前无用的数据将来也无用吗?显然删除数据的成本要大于存储的成本。大数据存储目前广泛应用的是GFS、HDFS等基于计算机群组的文件系统,它可以通过简单增加计算机来无限地扩充存储能力。值得注意的是,分布式文件系统存储的数据仅仅是整个架构中最基础的描述,是为其他部件服务的(比如MapReduce),并不能直接用于统计分析。而NoSQL这类分布式存储系统可以实现高级查询语言,事实上,有些RDBMS开始借鉴MapReduce的一些思路,而基于MapReduce的高级查询语言也使MapReduce更接近传统的数据库编程,二者的差异将变得越来越模糊。大数据分析的可行性问题指的是,数据量可能大到已经超过了目前的存储能力,或者尽管没有大到无法存储,但是如果算法对内存和处理器要求很高,那么数据相对也就“大”了。换句话说,可行性问题主要是,数据量太大了,或者算法的复杂度太高。大数据分析的有效性问题指的是,尽管目前的硬件条件允许,但是耗时太久,无法在可容忍的或者说可以接受的时间范围内完成。目前对有效性的解决办法是采用并行处理。注意到,高性能计算和网格计算也是并行处理,但是对于大数据而言,由于很多节点需要访问大量数据,因此很多计算节点会因为网络带宽的限制而不得不空闲等待。而MapReduce会尽量在计算节点上存储数据,以实现数据的本地快速访问。因此,数据本地化是MapReduce的核心特征。
四、结论
(一)数据科学不能简单地理解为统计学的重命名,二者所指“数据”并非同一概念,前者更为宽泛,不仅包括结构型数据,而且还包括文本、图像、视频、音频、网络日志等非结构型和半结构型数据;同时,数量级也是后者难以企及的(PB以上)。但是数据科学的理论基础是统计学,数据科学可以看作是统计学在研究范围(对象)和分析方法上不断扩展的结果,特别是数据导向的、基于算法的数据分析方法越来越受到学界的广泛重视。
(二)从某种程度上来讲,大数据考验的并不是统计学的方法论,而是计算机科学技术和算法的适应性。譬如大数据的存储、管理以及分析架构,这些都是技术上的应对,核心的数据分析逻辑并没有实质性的改变。因此,大数据分析的关键是计算机技术如何更新升级以适应这种变革,以便可以像从前一样满足统计分析的需要。
(三)大数据问题很大程度上来自于商业领域,受商业利益驱动,因此数据科学还被普遍定义为,将数据转化为有价值的商业信息的完整过程。这种强调应用维度的观点无可厚非,因为此处是数据产生的土壤,符合数据科学数据导向的理念。不过,早在20世纪90年代中期,已故图灵奖得主格雷就已经意识到,数据库技术的下一个“大数据”挑战将会来自科学领域而非商业领域(科学研究领域成为产生大数据的重要土壤)。他提出科学研究的“第四范式”是数据,不同于实验、理论、和计算这三种范式,在该范式下,需要“将计算用于数据,而非将数据用于计算”。这种观点实际上将数据从计算科学中单独区别开了。
(四)数据科学范式对统计分析过程的各个环节都提出了挑战,集中表现在数据收集和数据分析这两个方面。数据收集不再是刻意的、经过设计的,而更多的是用户使用电子数码产品的副产品或用户自行产生的内容,这种改变的直接影响是淡化了样本的意义,同时增进了数据的客观性。事实上,在某些场合(比如社会网络数据),抽样本身是困难的。数据的存储和分析也不再一味地依赖于高性能计算机,而是转向由中低端设备构成的大规模群组并行处理,采用横向扩展的方式。
【关键词】统计学;统计思想;认识
1关于统计学
统计学是一门实质性的社会科学,既研究社会生活的客观规律,也研究统计方法。统计学是继承和发展基础统计的理论成果,坚持统计学的社会科学性质,使统计理论研究更接近统计工作实际,在国家和社会得到广泛发展。
2统计学中的几种统计思想
2.1统计思想的形成
统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。
2.2比较常用的几种统计思想
所谓统计思想,就是统计实际工作、统计学理论及应用研究中必须遵循的基本理念和指导思想。统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想。现分述如下:
2.2.1均值思想
均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.2.2变异思想
统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
2.2.3估计思想
估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
2.2.4相关思想
事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
2.2.5拟合思想
拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
2.2.6检验思想
统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
2.3统计思想的特点
作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点能从以下四个方面体现出:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
3对统计思想的一些思考
3.1要更正当前存在的一些不正确的思想认识
英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂越科学,在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。新晨
3.2要不断拓展统计思维方式
统计学是以归纳推理或归纳思维为主要的逻辑方式的。众所周知,逻辑推理方式主要有两种:归纳推理和演绎推理。归纳推理是基于观测到的数据信息(尤其是不完全甚至劣质的信息)去产生新的知识或去验证一个假设,即以所掌握的数据信息为依据,归纳得出具有一般特征的结论。归纳推理是要在数据信息的基础上透过偶然性去发现必然性。演绎推理是对统计认识能力的深化,尤其是在根据必然性去研究和认识偶然性方面,具有很大的作用。
3.3深化对数据分析的认识
任何统计研究都离不开数据分析。因为这是得到统计研究结论的必要环节。虽然统计分析的形式随时代的推移而变化着,但是“从数据中提取一切信息”或者“归纳和揭示”作为统计分析的目的却一直没有改变。对统计数据分析的原因有以下三个方面:一是基于同样的数据会得出不同、甚至相反的分析结论;二是我们所面对的分析数据有时是缺损的或存在不真实性;三是我们所面对的分析数据有时则又是海量的,让人无从下手。虽然统计数据分析已经经历了描述性数据分析(DDA)、推断性数据分析(IDA)和探索性数据分析(EDA)等阶段,分析的方法技术已经有了质的飞跃,但与人类不断提高的要求相比,存在的问题似乎也越来越多。所以,我们必须深化对数据分析的认识,围绕“准确解答特定问题并且从数据中获取一切有效信息”这一目的,不断拓展研究思路,继续开展数据分析方法技术的研究。
参考文献:
[1]陈福贵.统计思想雏议[J]北京统计,2004,(05).
[2]庞有贵.统计工作及统计思想[J]科技情报开发与经济,2004,(03).
一、统计学中的几种常见统计思想
统计思想主要包括:均值思想、变异思想、估计思想、相关思想、拟合思想、检验思想等。统计思想不是天然形成的,需要经历统计观念、统计意识、统计理念等阶段。统计思想是根据人类社会需求的变化而开展各种统计实践、统计理论研究与概括,才能逐步形成系统的统计思想。作为一门应用统计学,它从数理统计学派汲取新的营养,并且越来越广泛的应用数学方法,联系也越来越密切,但在统计思想的体现上与通用学派相比,还有着自己的特别之处。其基本特点:(1)统计思想强调方法性与应用性的统一;(2)统计思想强调科学性与艺术性的统一;(3)统计思想强调客观性与主观性的统一;(4)统计思想强调定性分析与定量分析的统一。
1.均值思想。均值是对所要研究对象的简明而重要的代表。均值概念几乎涉及所有统计学理论,是统计学的基本思想。均值思想也要求从总体上看问题,但要求观察其一般发展趋势,避免个别偶然现象的干扰,故也体现了总体观。
2.变异思想。统计研究同类现象的总体特征,它的前提则是总体各单位的特征存在着差异。统计方法就是要认识事物数量方面的差异。统计学反映变异情况较基本的概念是方差,是表示“变异”的“一般水平”的概念。平均与变异都是对同类事物特征的抽象和宏观度量。
3.估计思想。估计以样本推测总体,是对同类事物的由此及彼式的认识方法。使用估计方法有一个预设:样本与总体具有相同的性质。样本才能代表总体。但样本的代表性受偶然因素影响,在估计理论对置信程度的测量就是保持逻辑严谨的必要步骤。
4.相关思想。事物是普遍联系的,在变化中,经常出现一些事物相随共变或相随共现的情况,总体又是由许多个别事务所组成,这些个别事物是相互关联的,而我们所研究的事物总体又是在同质性的基础上形成。因而,总体中的个体之间、这一总体与另一总体之间总是相互关联的。
5.拟合思想。拟合是对不同类型事物之间关系之表象的抽象。任何一个单一的关系必须依赖其他关系而存在,所有实际事物的关系都表现得非常复杂,这种方法就是对规律或趋势的拟合。拟合的成果是模型,反映一般趋势。趋势表达的是“事物和关系的变化过程在数量上所体现的模式和基于此而预示的可能性”。
6.检验思想。统计方法总是归纳性的,其结论永远带有一定的或然性,基于局部特征和规律所推广出来的判断不可能完全可信,检验过程就是利用样本的实际资料来检验事先对总体某些数量特征的假设是否可信。
二、对统计思想的若干思考
1.要改变当前存在的一些不正确的思想认识。英国著名生物学家、统计学家高尔顿曾经说过:“统计学具有处理复杂问题的非凡能力,当科学的探索者在前进的过程中荆棘载途时,唯有统计学可以帮助他们打开一条通道”。但事实并非这么简单,因为我们所面临的现实问题可能要比想象的复杂得多。此外,有些人认为方法越复杂,越科学。在实际的分析研究中,喜欢简单问题复杂化,似乎这样才能显示其科学含量。其实,真正的科学是使复杂的问题简单化而不是追求复杂化。与此相关联的是,有些人认为只有推断统计才是科学,描述统计不是科学,并延伸扩大到只有数理统计是科学、社会经济统计不是科学这样的认识。这种认识是极其错误的,至少是对社会经济统计的无知。比利时数学家凯特勒不仅研究概率论,并且注重于把统计学应用于人类事物,试图把统计学创建成改良社会的一种工具。经济学和人口统计学中的某些近代概念,如GNP、人口增长率等等,均是凯特勒及其弟子们的遗产。
关键词 大数据时代 数据分析
一、相关概述
大数据环境下经济社会生活都出现了较大的变化,同时自然科学和人文科学等也都有了较大的提升。在此背景下,依靠计算机信息技术的不断发展,研究者能够使用一定的方法和技能对较为复杂且规模较大的海量数据进行数据处理,并有效挖掘其中的价值信息。大数据环境为统计学的研究和发展提供了好的机遇,同时也对统计学的拓展提出了一定的挑战。
大数据环境下数据在各个行业和领域中都有所渗透,并逐渐成为主要的生产要素。大数据本身具有价值密度低、数据体量大、数据类型多、数据处理速度快的特点。不过由于数据量的急速增长,也使得在数据分析和研究过程中由于数据库缺少必要的管理工具进行数据采集和管理,而导致数据搜索、数据分析、数据存取和数据共享等出现一定的困难。一般情况下,在大数据环境下,往往存在着数据存储、处理技术、数据安全等相关的技术性问题。这些问题的存在一定程度上影响和制约了数据的开发和应用效率。尽管大数据下进行数据分析存在一定困难,但是其在实践中的应用空间和领域却十分广泛,对于经济社会的发展具有重要的推动力。
二、大数据环境下数据分析过程分析
(一)数据的价值挖掘过程
面对海量的大数据环境,数据使用者应当围绕数据分析目标和具体要求对大数据进行有效挖掘,提取有用数据,摒弃无用数据,从海量数据中进行价值挖掘,结合数据类型提升数据使用价值。在进行具体的大数据挖掘时可以按照具体的案例来进行,比如在进行广告人群匹配时,在进行数据分析和数据挖掘上主要是面对着两种数据。一种是广告库数据,主要包含了广告库以及广告的客户信息等。这种数据一般都具有较高的结构性,能够在传统的数据库中进行采集和应用、分析。另外一种数据是客户的后期行为数据。通过对此两种数据的结合分析,有效挖掘其中的有效价值。与此同时,在具体的应用实践过程中,还需要积极发挥第二种信息的作用和价值,这样能够获得客户所需的信息。依靠对群体行为和群体智能的分析,最终形成具体的反馈机制和反馈流程,在此基础上为信息使用者提供优质可靠的数据处理信息,为信息使用者科学决策提供有效的信息和数据支持。
(二)数据的处理与分析过程
在此过程中,一方面要及时更新抽样调查的工作理念。一般情况下,大数据的样本资料都是之前的材料汇总,这就要求在对此数据进行分析处理时应当首先对数据整体进行梳理和了解,并逐步向数据局部进行延伸。同时在对海量数据进行分析处理时还应当解决好调查目标设定不合理、抽样框架不稳定以及样本数量受限制等问题。另一方面,也要进一步提升大数据环境下数据精确度标准。由于大数据环境下数据的来源比较广,数据处理质量和效果也各有差异,因此应当在允许数据之间存在准确度差异的同时提升数据精准度的标准。要在积极吸收各种数据资源的基础上,提升数据处理能力和质量,科学应对数据复杂性和变量关系复杂性等问题。除此之外,也应当围绕大数据中的数据分析,对数据关系的分析重点进行合理转换。既要重视对数据中因果关系的分析和梳理,同时也要重视对事物之间相关性的分析研究,及时转换分析思路,围绕数据分析目标和事物之间关联关系进行大数据环境下的数据分析工作。
三、大数据对统计的影响分析
(一)能够进一步拓展统计学研究领域
大数据环境对于各个研究领域都能够产生比较大的影响,对于统计学也是一样。统计学研究的是客体、客观事物之间的数量关系和数量特征,数量性是统计学研究对象最为主要的特征。由于在传统的统计学研究实践中实验数据和调查数据是最主要的研究数据,因此在大数据环境下,统计学研究对象既包括了之前的结构化数据,同时也包括了非结构化数据,这些非结构化数据不能够单纯地依靠数量关系来加以衡量和表示。这其中就包括了文本、声音、图片、动画等数据信息。从这个意义上讲,大数据环境下统计学的研究领域有了较大范围的扩展。
(二)能够对统计计算的规范性产生影响
按照传统的统计学研究方法,在反应事物量的特征时大都是依靠方差、平均值、相对数等来进行,这些研究方法能够反映出事物之间的界限和关系,并且也能够依靠数据计算规范来反映出具体的数据。不过在当前的大数据环境下,非结构性数据常常难以使用传统的数据计算规范来加以计算。从这个角度上讲,大数据环境下统计的数据计算规范也受到了较大的挑战。
(三)能够对统计的数据整理和分析过程产生影响
统计学中数据审核之前主要是针对数据的完整性和准确性。不过在当前的大数据环境下,数据审核除了要保障原先的数据完整性、准确性外,还应当保证数据审核的速度、效率以及数据预测的准确性等。除此之外,还应当准确确定数据处理的规模,合理确定数据量的级别。尽管大数据自身具有混乱性和不稳定性的特点,但是使用合理的数据整理方法也能够在大数据中有效挖掘出数据之间的隐蔽关系,提升数据挖掘的价值性。因此,大数据下统计研究对象本身具有准确和不准确两种情况,它们分别具有不同的价值属性,一般情况下不需要对其进行删除或者替换。
对于数据存储来讲,之前的统计研究数据存储过程中都是将审核、汇总或者编制的表格、图表等,并将它们进行适当的保存处理。不过在大数据环境下进行数据的保存就还需要重视数据存储成本的管控,并结合自身实际制定规章制度和计划合理确定数据存储的规模和目录。
(四)能够对数据开发和利用过程产生影响
这主要涉及大数据环境下数据的积累、开发以及应用。在传统的数据统计工作过程中,研究者都是围绕自身目标来对相关数据进行分类和汇总,通过存储和提取过程,对数据进行有效挖掘,并在此基础上为后续的数据分析和查询提供支撑。大数据环境下,数据量比较大,只有对数据信息进行适当处理才能够获得其中价值量比较高的信息。正是基于大数据自身的复杂性,统计研究者应当对前期数据进行适当处理。围绕数据的规模和结构、层次等进行合理分类和汇总,在确保真实性的同时提升数据的价值性。与此同时,由于大数据环境下数据具有流动性特点,使得数据本身也具有再生性特征,并进一步增加了数据的价值性。因此有必要针对统计研究中的大数据进行深入的数据挖掘,依靠数据整合提升数据价值性。在数据应用上则主要是针对统计学现象的预测和解释,实现在大数据环境下数据相关关系的预测和分析。
总的来讲,大数据环境不仅改变了经济社会生活,也对统计等相关科学产生了巨大的影响,如何实现大数据环境下的统计研究是统计学领域的重要课题。进一步强化对大数据的理解和把握,重视大数据在统计中的研究和应用,有效分析和挖掘大数据中的价值信息,更好地推动统计学的理论和实践应用。
(次世青、高东宇单位为首都航天机械公司;次青波单位为中国航天标准化研究所)
参考文献
[1] 田茂再.大数据时代统计学重构研究中的几个热点问题[J].统计研究,2015(05).
关键词:大数据;经济统计;专业建设
当前,大数据已经渗透到社会、经济、政治以及文化等众多领域。大数据在给各行各业带来了新的历史发展机遇的同时,也将给各行各业带来新的挑战。显然,对高等教育来讲也同样如此。相应的,对直接服务于经济统计人才培养的经济统计学专业建设来讲,迫切需要回答的问题是,在新形势下,专业建设遇到新的挑战又将是怎样的呢?进一步的,为了积极应对新的挑战又需要对旧的培养模式进行怎样的修正和改进呢?从现有的文献资料看,虽然学术界已经积累了大量与(经济)统计学专业建设相关的研究成果(如庞皓,1991;曾五一,1999;曾五一和尚卫平,1999;曾五一等,2010;朱宇兵,2009等),但基于大数据背景对这些问题较为深入的研究还比较缺乏,本研究则可以视为是对此进行弥补的一个努力尝试。
1经济统计学专业建设的发展现状
从某种意义上讲,经济统计学是一个新的专业。2012年10月,教育部颁布了《普通高等学校本科专业目录(2012年)》。在新专业目录中,除保留统计学为理学类一级学科(包括统计学和应用统计学两个二级学科)之外,在经济学类的经济学一级学科下增设经济统计学。正是在这样的背景下,目前我国高校经济统计学专业的开设一般有两种情况,一种是新专业目录颁布后新设立的,如中央财经大学、对外经济贸易大学、西南政法大学以及中南民族大学等;一种则是由原来的统计学专业更名而来的,如中南财经政法大学、天津财经大学、江西财经大学、南京财经大学以及中央民族大学等。从发展历史过程看,经济统计学并非是一个全新的专业,而是由以前的统计学专业发展而来。在1998年9月国家教育部颁布的《普通高等学校本科专业目录和专业介绍》中,统计学被列为理学类一级学科,但可选择授予经济学或理学学位。在这种背景下,根据具体的办学条件和偏好,各高校采用了不同的教育模式,一类是强调各类统计学所具有的共性。它肯定统计学的“理学性质”,按照理学类学科的特点设置课程。另一类则是强调各类统计学的个性,如财经类院校统计学专业(曾五一等,2010)。前者的数量较少,它是将统计学作为应用数学的一个分支来看待,所开设课程主要是数学和各种数理统计方法。后者数量占有绝大的比重,其专业方向包括国民经济统计、经济统计、管理统计、金融证券统计等(李宝瑜,2004)。从我国统计学学科建设的发展过程看,其特征主要表现为两个转变,即从起初的侧重理论培养向当前的强调实际应用转变以及从起初的主要服务政府部门向当前的主要服务社会企业组织转变。由于新专业目录颁布时间还很短,经济统计学专业还没有建立起新的培养模式,主要还是其前身———(经济学方向的)统计学——培养模式的一种延续。从我们掌握的资料看,目前各高校经济统计学专业的培养方案还主要是参照1998年《普通高等学校本科专业介绍》制定的,其培养目标是所谓的“复合型人才”,即具有坚实的经济理论基础,既懂数理统计方法、又懂经济统计方法,并能熟练掌握现代计算手段的经济统计人才(曾五一等,2010)。这种人才既是统计人才又是经济管理人才,不仅能胜任基层企业和政府部门的日常统计业务,而且能从事市场调查、经济预测、信息分析和其他经济管理工作。相应的,在具体的课程体系构建和安排上,各高校大都贯彻了“大统计”的学科观点,遵循“厚基础、宽口径、重应用”的复合型人才培养原则(向书坚和平卫英,2010),即在强调较为完整系统地介绍统计学主要理论和分析方法的同时,还强调其与经济学其他学科的密切联系,按照经济类学科的特点设置课程。也就是说,经济统计学专业的课程设置具有显著的二元性特征。从各高校的具体设置看,统计学方面的课程一般有数学基础课、概率论、数理统计、运筹学、随机过程、回归分析、时间序列分析、多元统计分析、抽样调查、非参数统计、统计预测与决策等;而经济学方面的课程一般则有微观经济学、宏观经济学、会计学、国际经济学以及与专业方向(如国民经济统计、财务会计统计、金融证券统计等)有关的课程。此外,和其他专业一样,经济统计学也重视学生应用和创新能力的培养,特别强调本专业的毕业生应该具有熟练地采集数据和应用计算机分析、处理数据的能力。因此,Excel、SAS、SPSS等常用软件的学习和训练也通常以实验课的形式被纳入到课程体系中。但是,要注意的是,我国各高校在制定或修订经济统计学培养方案时,有意或无意地忽视了当前随互联网技术日新月异带来的大数据海量涌现。而由于大数据和传统数据存在显著的差异,各高校现有的经济统计培养模式可能需要做出重大调整。
2大数据带来的挑战
大数据之所以在众多领域里引起关注,其根本的原因在于大数据蕴含着巨大的潜在价值。相对于传统的标准化数据,大数据不仅体量庞大、产生速率极快,而且也更为全面(甚至是整体数据)。因此,大数据的分析结果也更接近真实。换句话说,大数据分析往往意味着人们能够从这些全面的数据中获取新的洞察力,从而更有可能创造出新的价值,进而带来更大的发展。大数据蕴含的巨大潜在价值,势必将打破现有的数据边界,使大数据逐渐成为经济统计分析的主要对象。由于大数据与传统的标准数据存在显著的差异,对未来的经济统计工作而言,大数据势必将带来新的问题或挑战。简要地说,大数据带来新的问题或挑战主要来自于两个方面,即:
(1)数据来源问题。与传统数据主要来源于抽样调查或组织内部不同,大数据是互联网高速发展的产物。随着科技环境的巨变———个人电脑的全球普及,移动智能终端的盛行,物联网和社交网络的爆炸式发展,以及数以千万计的联网传感器节点在交通、汽车、工业、公用事业和零售部门等的广泛分布,这些都让数据的生产和收集的途径更为多元、更为广泛。不过,需要特别注意的是,由于其蕴含的巨大潜在价值,大数据已经成为了可以与物质和人力资本相提并论的重要生产要素和组织资产。相应的,对各类逐利组织(尤其是企业)来说,不仅需要考虑如何收集到大量的有效信息,同时也希望这些信息为其独自所占有,如最近阿里巴巴封杀微信、京东,断绝与社交网络新浪微博的账号合作。这种电商行业“封杀”现象的出现,其理由看似是如这些企业所宣称的那样为了保护公司的信息安全,但背后的根源其实是担心自身的内部商业信息通过互联网泄漏,担心用户流量的命脉被他人掌握。因此,在大数据时代,如何解决数据的封闭性问题将是经济统计工作数据收集面临的一个重要挑战。此外,对经济统计人才来讲,由于数据不再仅仅是标准结构的,资料收集新技术的开发和掌握也成为一种迫切的需要。
(2)数据分析问题。由于数据更多的是半结构化或非结构化的,传统的经济统计分析工具和方法可能不再有效。就大数据分析而言,经济统计工作需要解决的问题是如何从体量庞大且杂乱无章的各类数据中挖掘有效信息以创造新的知识和新的价值。在以前,数据很大程度上是指“数字”,如业务量、营业收入额、利润额、工业企业产值、固定资产投资、GDP等,都是一个个数字或者是可以进行编码的简单文本。而在大数据时代,人们不再是隐藏在终端和网络后面的隐形者,购物、社交、游戏、阅读、出行等信息都变成数据被收集到各种各样的储存设备中。而数据也不再是单纯的“数字”,还包括文本、图片、音频、视频等多种格式,其涵括的内容也更为丰富,如博客、微博、通话录音、位置信息、交易信息、点评信息、互动信息等。也就是说,数据不再只是结构化的,更多是广泛存在于社交网络、物联网、电子商务等之中的半结构化数据和非结构化数据。随着数据越来越大,越来越复杂,增长越来越快,要想建立和保持竞争优势需要对数据进行实时、有效的分析。而由于数据更多的是以半结构化和非结构化形式出现,过去传统的数据分析技术可能无法实现实时监测和分析。
3应对措施及建议
从个人服务到商业运营,从医疗卫生到公共教育,从城市交通到公共管理,大数据已开始撼动世界的方方面面。在带来新的发展机遇的同时,大数据时代也向包括经济统计在内的众多领域提出了众多挑战,需要做好充足的准备及应对。具体到与人才培养息息相关的经济统计学专业建设,我们认为需要从以下几个方面做出必要的变革:
(1)树立市场意识,避免人才培养与现实需求脱节。从目前的实际情况看,我国高校经济统计人才培养与市场需求之间或多或少存在一定程度的“学”“用”脱节,还没有全面实现学以致用。一方面,以企业为主的各类组织对经济统计人才需求非常急迫,如最近一份针对近千家企业和从业人员的调查显示,97.9%的企业认为数据分析对电商运营很重要,超过半数的企业表示数据分析能力欠缺,同时有近60%的企业希望专业数据分析人才加入,并愿意为此支付更高薪资;①另一方面,无论是课程体系还是教学内容以及教学方式,现有模式基本上是以传统数据为对象的。换句话说,在现有培养方式下,学生掌握的数理统计和经济统计方法可能无法满足大数据的分析需要,如传统的统计分组、频数分布等数据整理方法显然难以完全适用于图片、音频、视频等非结构化数据。因此,要真正做到“厚基础、宽口径、重应用”,则需要根据经济发展的需求设置教学计划、更新落后的教育内容、采纳现代化的教学手段,需要注意与其他学科之间进行充分的交流与融合,跟上当代社会科学的杂交化、整体化趋势发展的步伐。
(2)经济、统计与IT相融合,优化课程体系。在大数据的洪流中,数据分析是否能够带来新的洞察力、创造新的知识和价值,取决于从业人员是否掌握大数据收集、管理、分析和开发的相关特定工具。从我国高校经济统计学专业课程体系看,专业课程设置主要包括经济类基础课程与专业主干课程两大基本模块。虽然各高校都强调遵循“厚基础、宽口径、重应用”的复合型经济统计人才培养原则,也主张将理论方法的教学与计算机软件紧密结合起来(如“统计学导论”选用Excel,“应用多元统计分析”选用SPSS,“计量经济学”选用Eviews等软件作为计算工具),但在大数据的开发和应用日益成为新潮流、新趋势的背景下,仍然很少看到有高校在经济统计学专业中开设独立的、专门涉及大数据技术的相关课程。因此,根据现实人才需求的新变化以及大数据技术的不断进步和升级,我们应该对经济统计学专业的课程体系进行必要的调整,即根据大数据分析的内在需要,在经济学和统计学相关课程之外把大数据技术相关的课程纳入到现有体系之中,实现“经济、统计与IT”三方面内容的平衡和融合。在大数据时代,虽然经济统计所包括的主要工作仍然是数据收集和数据分析等,但是其内容却发生了翻天覆地的变化。如收集数据不再依赖于随机采样,而是需要利用多个数据库来接收发自客户端的数据,并导入到一个集中的大型分布式数据库。相应的,数据存储和预处理以及数据挖掘和分析也都是以分布式数据库为工作对象的。考虑到本科教育的基本要求与技术的实际发展水平以及通用性等,在Hadoop、NoSQL、HDFS等目前较为常用的大型数据分析软件和工具中,我们建议至少增设Hadoop方面相关的课程。
(3)与时俱进,加强师资队伍培养。能否把本专业的学生培养成为复合型的应用人才,取决于是否拥有一支高素质的教师队伍。随着大数据及其应用成为一种新的潮流和趋势,经济统计的专业教师团队建设也需要做出相应的调整和变革。从教师队伍的结构看,由于经济统计学专业发展的过程使然,目前我国各高校该专业的专业教师以具有经济学或统计学学科教育背景的教师为主,而具有信息技术教育背景的教师还非常稀少。由于大数据及其应用需要融合经济、统计以及IT等多个领域的理论、方法和工具,因此对经济统计专业建设而言,当前最为迫切的是,需要建设一支教育背景涵盖上述三个领域的结构合理的教师队伍。而实现的途径无非是两种:一方面是在全校范围内进行挖潜,重新组合和配置教师资源以优化经济统计专业教师团队;另一方面则是实施“请进来”战略,加大力度引进海内外优秀人才。在内部挖潜和外部引进的同时,专业教师团队建设还应该努力创造一个良好的人才成长环境,鼓励教师积极“走出去”,到国内外高水平大学进修和学习,鼓励教师不断以新的知识充实、提高自己,以此来不断提高本专业的教师质量和水平.
参考文献
[1]李宝瑜.统计学一级学科建设中的若干问题[J].统计研究,2004(8).
[2]庞皓.经济统计学课程体系改革的方向[J].统计研究,1991(1).
[3]向书坚,平卫英.30年来我国财经类院校统计学专业本科课程设置的历史回顾与展望[J].统计研究,2010(1).
[4]曾五一.关于经济管理类统计学专业课程体系设置的几点意见[J].统计教育,1999(8).
[5]曾五一,尚卫平.关于经济统计学若干问题的思考[J].统计研究,1999(11).
[6]曾五一,肖红叶,庞皓,朱建平.经济管理类统计学专业教学体系的改革与创新[J].统计研究,2010(2).
一、数据分析观念的内涵
(一)《标准》中“数据分析观念”的主要内涵
1.了解在现实生活中处理很多问题时,应当先做调查研究,收集数据,再通过分析进行判断,明确数据中蕴含的信息。这一描述强调了确立统计意识是培养数据分析观念的前提。面对复杂的现实情境,学生要从数据中提取有用的信息,必须具备数据意识,意识到数据包含有所需要的信息,同时也要具备数据分析意识,知道只有通过分析数据,才能挖掘出数据中所蕴含的丰富信息。
2.了解对于同样的数据有多种分析方法,需要根据问题的背景选择合适的分析方法。数据中所蕴含的情境性,是数据与数字的最大区别,这也使得在各种问题情境中所收集到的数据有可能相似,但采用的分析方法却大相径庭。不同的数据分析方法不能简单地用“对”与“错”来评判,只有“合适”与“不合适”。同样的数据,因为研究的问题和目标不同,所以选择的分析方法也不同,决策者要根据具体的情境和期待的结果作出正确的选择。
3.通过数据分析体验随机性:一方面对于同样的事情每次收集到的数据可能不同,另一方面只要有足够的数据就可能从中发现规律。[1]这说明数据具有随机性的特点,但是通过大量的实验可以发现,数据又呈现出一定的规律性。数据分析是在大量的甚至无限次的实验的基础上作出相应的数理统计的过程,而每一次实验都存在随机性,无法保证实验结果一定准确无误,这是数据出现随机性的原因。
分析《标准》中关于“数据分析观念”的阐述可以知道,针对义务教育阶段统计教学如何培养学生的数据分析观念,《标准》提出了3个方面的要求:一是过程性的规定,即数据分析观念是在学生调查、收集和整理数据的过程中发展起来的,并在分析的基础上作出相应的决策;二是方法性的规定,即面对不同情境的问题,如何选择恰当的、合理的解决方法;三是感悟性的规定,即让学生从中体会数据的随机性和规律性特点。
(二)关于内涵解读的研究
“统计是关于收集和分析带有随机性误差的数据的科学和艺术。”[2]y计的对象――数据,是统计研究的基础。正如美国统计学家戴维・S・穆尔所说:“统计是用来处理数据的。数据由数字组成,但它不仅是单纯的数字。数据是有内容的数字。”[3]小学阶段的统计学习正是探讨这些具有一定实际背景的数字,教学时教师需要将其与学生熟悉的“数与代数”中那些单纯的数字进行区分,帮助学生认识统计的特殊性。
数据分析观念是数据意识、统计技能的统一体。在现实生活中,数据意识体现在,当遇到问题时能够想到进行调查研究,用数据说话,运用统计的方法解决问题。数据意识是统计活动的起点,也是统计教学的核心内容。统计技能是完成统计活动所必需的各种能力和技术的总和,它包括数据的收集、整理和分析,从数据中提取有价值的信息,进而作出决策。因此,数据分析观念也可以划分为3个维度:一是认识到需要收集数据,这包括3个要素,即有数据意识、发现和提出运用数据解决问题、根据问题的需要设计收集数据的计划;二是了解数据中蕴含的信息,也包括3个要素,即从数据中提取信息、通过分析数据进行判断、选择恰当的统计方法;三是体会数据的随机性特点,认识到所收集的数据是随机的,但数据较多时会呈现某种稳定性和规律性。
尽管表述方式不同,但学者们都把数据分析作为统计内容的核心,并一致强调数据的现实背景来源,具体表现为:①数据分析应当建立在统计的基础之上;②应当选取合适的方法对收集到的数据进行分析和处理;③根据已经整理好的数据作出解释、得出结论,运用数据进行推断,在推断的过程中还要对数据的来源、处理方法和分析结果进行合理的质疑。
二、数据分析观念的教育价值
在知识经济和信息技术时代,加强数据分析观念的培养是新时代对人才的要求。可见,数据分析观念是义务教育阶段学生必备的数学素养之一。
(一)结合数据的情境性激发数据意识
在信息化社会中,无论是人口预测、投资贷款、风险评估、市场预测,还是学生学习统计与概率的知识,都需要数据分析观念的指导,而数据意识更是发挥着重要的作用。数据分析观念并非简单的汇拢数字、计算平均数和众数、画统计图,而是人们在经历调查行动后形成的对事物加以整理和分析的意识。所谓数据意识,是指遇到现实情境问题时能够想到用数据来解决问题,将现实情境中遇到的问题转化为数据问题。
例如,小红、小明的10次射击训练成绩(环数)如下:
如果你是教练,会选择谁参加比赛呢?遇到这样的问题,学生首先会计算小红和小明射击训练成绩(环数)的平均数,这时会发现两人射击训练成绩(环数)的平均数相同,于是产生疑问:那要根据什么进行选择呢?小学生虽然还没有接触方差等概念,但利用众数和折线图的陡缓程度能够初步判断谁的射击训练成绩(环数)更稳定、更有潜力。如果教师对学生进行过相关的训练,在看到一组数据时,学生就会有意识地对数据进行分析,从而发展数据意识,那么,今后遇到类似的问题时就能够自觉地运用学到的知识和技能对数据进行处理和分析了。
(二)在统计活动中体验和发展随机性思维
在生活与工作中,人们必须掌握处理不确定性现象的概率统计知识,具备一定的数据分析意识与数据处理能力,只有这样,才能在面对大量的、不确定的数据信息时作出正确的选择。小学生在学习“统计与概率”之前就已经掌握了数与代数、图形与几何等内容,具备了以逻辑推理为主的确定性思维,在学习统计与概率的内容时,教师要让学生知道事物的发展既有偶然性又有规律性,从而形成数据分析观念和随机性观念。
例如,一个不透明的袋子中装着若干个红球和蓝球,事先不告诉学生红球和蓝球的数量,而是让学生重复摸取、放回,进行多次实验。在活动中我们发现:每次摸取球的颜色可能不一样,但是随着摸取球的次数的增加,就会发现一些规律。学生在摸球过程中理解了随机的概念,体验到了随机知识在生活中的应用,进而意识到学习随机性的意义。
(三)亲历问题解决过程,训练思维的灵活性
数学思维的灵活性是需要重点培养的思维品质之一,而这需要学生在解决数学问题的过程中获得锻炼和发展。比如,教师可以设计一些有效的统计活动,鼓励学生采用不同的统计方法,从多角度对数据进行分析,发散学生的思维,并根据情境的变换及时调整解决问题的思维方向,引导学生学会解决不同情境的实际问题。
例如,教师可以创设这样的情境:假设学生是任教五(1)班和五(2)班的数学老师,期末总结时要对自己任教的这两个班级的期末成绩进行比较。在这个过程中,教师应当引导学生按照不同的标准来评判两个班级的数学成绩。这时我们会发现:有的学生依据两个班级各自的数学平均分进行比较;有的学生依据85分及以上为优秀这个标准,先统计出两个班级获得85分及以上的学生各有多少人,然后分别计算出两个班级的优秀率,再进行比较分析;有的学生依据60分以下为不合格的标准,统计出两个班级不合格的人数,按照不合格人数的数量比较两个班级数学成绩的优劣。其实,这里的答案并不唯一,每一种答案都可以作为教师分析学生成绩的标准。因此,教师应当鼓励学生进行多维度思考,训练学生思维的灵活性。
三、稻莘治龉勰畹呐嘌策略
数据分析观念不是凭空想象出来的,也不是教师说统计有用,学生就能够体会得到的,更不是凭借收集数据就可以形成的,而是学生在经历统计活动解决问题的过程中建立起来的一种认识。从某种意义上说,观念是意识的高级阶段,是在意识、能力的基础上形成的认识。培养学生的数据分析观念是一个循序渐进的过程,教师必须根据学生的认知特点设计教学。
(一)引导学生树立统计思想
数据分析观念是统计思想的重要组成部分,要让小学生树立统计思想,教师首先要让学生意识到统计的必要性,重视统计的应用。课堂上,教师可以向学生展示生活中与统计相关的事例,指导学生学会判断在什么情况下需要采取统计的方法解决问题,并自觉地朝着统计这个方向思考问题。其次,学生具备了统计意识后,教师要让学生掌握具体的统计方法和策略,以便更好地进行数据分析。需要注意的是,面对不同的问题要采取不同的统计方法。
例如,调查统计“我们最爱吃的水果”,教师可以创设生活情境:生活老师要为同学们准备课间水果,准备哪些水果比较合适呢?首先,生活老师需要了解全班同学的喜好,为此必须采用统计的方法,设计统计方案。其次,当收集到所有数据之后,为了确定哪一种水果最受欢迎,必须采用合适的统计方法进行统计,比如可以采取扇形图对水果进行分类;至于每一种水果需要的数量是多少,则应当再次根据前期的数据调查进行分析。
(二)体验数据分析的全过程
学生要将数据分析观念真正地纳入已有的思维模式中,最有效的方法就是经历数据分析的整个过程,包括发现问题、提出问题、调查现状、收集数据、整理分析、得出结论以及反思交流。小学生抽象思维尚未成熟,接触的数据都应源于现实生活背景,只有丰富的数学情境才能够帮助他们更好地理解概念,并学会迁移应用。因此,教师应当充分挖掘贴近学生生活的情境资源,创设学生感兴趣的问题情境。
以估计全校学生上个月家庭用电情况为例,如果对全校每个学生都进行调查,有点不切实际,浪费时间和精力。当学生碰到这个问题时,教师可以渗透抽样统计的方法,选取每个年级段的一个班级进行调查,收集数据。在这个活动中,如何利用收集到的数据对全校学生进行合理的估计,学生需要具备较强的数据分析能力。教师可以通过这个活动,发展学生的数据分析能力。学生掌握了基本的统计方法,经历了调查研究、整理数据、分析数据的过程,将会逐步形成数据分析的观念。
(三)培养批判意识,提高辨别能力
在信息社会,人们每天都要接触大量的数据信息,其中绝大多数是无用的信息或伪信息。辨别信息的真伪并作出理智的选择,离不开批判意识和辨别能力。培养学生的批判性分析能力,教师要引导学生读懂数据,理解数据内在的含义,并对数据的来源和处理方法进行考察和分析。小学生心智发展尚未成熟,加上认知发展水平还处于具体运算阶段,对于外界复杂的信息缺乏理性的判断,因此,教师可以呈现案例,如生活中误用或滥用统计数据的现象但大多数人对此并未警觉或质疑,从而培养学生的批判意识,提高辨别能力。
例如,超市为了促销牛奶,打出的广告是第二箱半价。如果不加思索,消费者就会认为很实惠,马上买了两箱牛奶。但仔细思考发现,两箱牛奶的平均价格和促销前其实只相差几毛钱而已,这是因为,消费者只注意到半价,而并没有留意到第一箱牛奶的价钱。又如,超市有两种不同品牌的商品,甲品牌打八五折,乙品牌买满150元送50元,我们应该怎么选择呢?面对这样的问题,我们不能凭感觉乱猜,而要根据不同的需求量进行分析。诸如此类的实例都是小学生在日常生活中常常会遇到的,学生要作出理性的选择与判断,必须具备质疑能力和一定的数据分析能力。
(四)合理利用信息技术
小学生每天大部分时间都在学校度过,接触外界事物的机会不多,而数据分析观念的培养又需要呈现大量的真实的生活情境,让学生对数据进行整理、分析和判断,信息技术正好可以弥补这一缺陷。教师可以利用信息技术的优势给学生呈现更多的生活实例。另外,当碰到需要分析大数据或需要多次实验才能够解决的统计问题时,教师可以利用信息技术对原始数据及分析结果进行直观展示,这样做有助于学生理解统计过程及其内涵。
例如,调查分析全班学生对颜色的喜好情况,教师可以借助信息技术,让学生先在电脑中输入自己最喜爱的一种颜色。待全部学生输入完毕,电脑便会自动生成全班学生对颜色喜好的原始数据。接下来,学生就要对这些原始数据进行分类、整理,再通过电脑将整理后的数据生成不同的统计图表,并依据这些图表分析学生对颜色的喜好情况。在这个过程中,教师利用信息技术不仅节省了宝贵的教学时间,将数据的收集、整理和绘制统计图表生动形象地展示在学生面前,而且帮助学生经历了数据的收集、整理及图表绘制的过程。
参考文献:
[1]中华人民共和国教育部.义务教育数学课程标准(2011年版)[S].北京:北京师范大学出版社,2012:6.
[2]陈希孺.机会的数学[M].北京:清华大学出版社,2000:58.
[3](美)戴维・S・穆尔,郑惟厚译.统计学的世界[M].北京:中信出版社,2003:4.