时间:2023-06-27 15:55:25
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据分析方向范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
根据不完全统计,2016年1D6月,全球大数据领域共计发生157起投融资事件,其中中国发生了97起,超过总量的一半,其次为美国,发生41起,其他国家在大数据领域的投融资事件数量远远落后于中国和美国。
2016年1D6月,中国大数据领域投融资金额规模达到503.70亿元,排名第二的美国,投融资金额规模为111.38亿元。其他上亿元投资的国家分别为以色列5.35亿元、英国4.32亿元、德国2.24亿元、加拿大1.06亿元。
中美大数据领域投融资对比
从2016年上半年的整体投融资状况来看,中国和美国的投融资事件占全球绝大多数的比例,中美两国大数据业务的发展基本代表了大数据在全球的发展状况。深入对比中美大数据领域的投资,对掌握大数据的应用方向和技术方向具有较大的意义。
从图3可以看出,在大数据行业应用方面,中美都有涉及的行业有医疗、营销、物流、娱乐、体育和教育。其中,医疗领域是2016年上半年行业中发生投融资事件最多的领域,中国发生18起,美国发生5起;其次为营销领域,中国发生6起,美国发生3起。
相比美国,大数据的应用行业在中国更加广泛和活跃,2016年上半年中国有大数据投资而美国尚未涉及的领域比较多,如媒体、交通、金融、汽车、物联网、艺术、招聘、旅游、农业和租房等领域。其中媒体行业发生10起投融资事件,交通行业发生6起,金融行业发生6起。
在大数据技术应用方面,2016年上半年涉及的投融资方向有数据分析、数据应用、数据安全和数据工具。其中数据分析方向投融资事件最多,美国15起,中国14起;其次为数据工具方向,美国8起,中国5起;数据应用方向,中国6起,美国3起;数据安全方向,中国5起,美国3起。
从投融资的金额规模上看,2016年上半年,中国和美国的侧重点各不相同,中国偏重于大数据行业领域的应用,而美国侧重于大数据技术领域的应用。2016年上半年中国在大数据行业应用的投资总规模达到485.1亿元,在大数据技术应用领域只有18.6亿元;美国在大数据行业应用领域的总投资规模为26.9亿元,在大数据技术应用领域达到84.4亿元。
中国投融资规模的TOP3均为行业领域,分别为交通、物流和医疗,投融资规模分别为305.4亿元、105.0亿元和50.7亿元。而美国投融资规模的TOP3中有两个为技术领域,分别为数据工具44.2亿元、数据分析31.3亿元;有一个为行业领域――医疗16.6亿元。在行业应用方面,中美投资事件最多的均为医疗领域。
中美数据分析领域投融资市场对比
可以看出,美国比较侧重发展大数据的技术应用,而数据分析是大数据技术应用领域投融资最多的技术方向。2016年上半年,中国在数据分析方向的投融资事件达到14起,美国15起,高于中国。在金额方面美国更是远远超过中国,投融资金额高达31.3亿元,而中国只有7.3亿元。
2016年上半年,数据分析领域的投融资事件主要集中在分析平台、用户分析和商业智能方向,分别发生投融资事件12起、10起和3起,各自占比为41%、35%和10%;其他几个方向的占比都比较小。从金额分布上看,分析平台占比最大,达到61%,其次为用户分析16%,可视化分析13%。
关键词:大数据;数据仓库;数据分析;校园卡;教务
中图分类号:G434 文献标志码:B 文章编号:1673-8454(2015)10-0013-03
随着大数据时代的到来,各行各业都在利用大数据推动本领域的发展。常熟理工学院自2009年开展教育信息化建设以来,在数据分析方面进行了不断地探索与实践,目前广泛应用于教学和管理中。
一、数据分析的必要性和可行性
高校内部一般都建有:教务系统、科研系统、学工管理系统、人事管理系统、资产管理系统等独立业务系统。这些系统都各自记录着学校方方面面的数据,却都静静地躺在服务器硬盘里,犹如埋藏在地下的金矿,不能为高校全局决策提供支撑。
数据分析的目的就是要让数据发声,通过直观的数据图表来为高校管理提供辅助决策。例如:对教师的专业与学校开设专业的统计分析可以为人才引进提供参考;对学生的校园卡使用记录和校内上网认证记录结合起来,可以为判断学生的行为指明方向;对各二级学院的资产数据统计分析有助于学校对二级学院进行成本核算。
二、数据仓库的建立
数据库是数据分析的源头,数据仓库的建立是数据分析的基础。
建设过程中,首先要统一数据标准,只有准确的数据才是有价值的,如果各系统的数据标准不统一,就会造成不准确的数据分析结果,也就无法为高校管理提供真实有效的统计数据;
其次要建立公共数据平台,公共数据平台是指实现校园内各种信息系统的互通互连和数据共享,包括多个系统业务数据集中存储、备份、数据共享和数据管理的公共平台,为学校各应用系统提供基础数据;
三是要规范数据流程,把各业务系统中形形的数据按标准定期抽取到学校公共数据平台中。确保任何业务系统的添加和修改不影响其他系统的正常运行,同时新建应用系统应建立在统一的数据规范基础和统一身份认证基础上,调用公共数据平台的基础数据(如部门、教工、学生等基础信息),应用系统产生的数据也应成为公共数据平台的基础数据,可供数据平台共享访问。确保提供反映学校全面情况的数据信息,为整个学校提供决策支持所需的数据信息,为今后应用系统的建设和信息服务奠定良好的数据基础。
图1为数据架构图,最底层的是各业务系统,他们产生的数据按编码标准经过抽取、转换、加载到数据中心,数据中心再按需要把相关数据同步给相应的应用数据库或各数据集市,最后形成各类主题数据分析或综合决策系统。
三、基于数据仓库的数据分析
在统一数据仓库的基础上,我们利用数据仓库技术(ETL、OLAP、REPORT)和数据挖掘技术,对多种数据集市进行数据分析,建立了校情综合统计分析系统。该系统从学校基本情况、教职工信息、学生信息、教学信息、科研信息、资产与设备信息、图书资料信息与师生消费等方面进行统计分析,为学校管理提供辅助决策支撑数据。
该系统从学校全局出发,通过多元主题展开分析,以文字、报表、图表等多种形式展现分析成果。
该系统的推出实现了教学质量、学生学习、生活行为等各种信息的监控与分析,对高校资源配置优化、提高高校管理科学化等方面具有不可估量的重要意义。这里笔者将以校园卡和教务数据分析功能为例进行阐述。随着校园卡在校园生活中使用范围的日益扩大,在应用过程中产生了大量数据。校园卡仅仅一年的交易数据就有大约1000万条记录。
校园卡数据分析主要实现以下五大类的分析功能:
(1)各时间段消费情况分析
①从“月、季度、半年、年”的角度来查询消费总额、消费用户数和人均消费等,反映出用户消费支出的趋势,也可反映出物价的变化情况。
②从“几点几分”的角度查询消费人数可反映用户在时间点上的消费习惯,对于各营业部门来说可以合理地调整工作时间、工作人员等,以加强服务。还可根据教职工就餐时间点来分析他们是否严格遵守学校作息时间。
③从“早、中、晚”的角度统计分析学生早餐、中餐、晚餐的就餐率。
(2)各类消费人群消费情况分析
①对于学生工作管理层来说,从“个人、班级、院系”的角度来查询消费金额作为发放贫困补助的依据。
②通过查询一个时间周期内(三天)学生消费人数,起到了解学生是否在校的危机预警作用。
③从学生所属院系、专业、年级等角度来查询消费人数、消费金额和分布情况。
④从学生性别、来源地区(省、市、区)、年龄等人的自然属性来查询消费人数、消费金额和分布情况。
⑤分析教职工的消费水平。
(3)各营业单位消费情况分析
从各个营业单位角度来查询校园用户消费人数,消费金额和分布情况。
(4)各交易类型消费情况
从消费类型角度来查询用餐、购物、上网、上机、水电消费等情况。
(5)工作站、终端个数统计
为直观反映上述消费数据,我们除用表格形式将分析结果展现在用户终端外,还提供了柱状图、饼图、曲线图、点图等形式来展现。图2展示了我校2010年至2014年学生早、中、晚三餐平均价格,呈逐年稳步上升状态,这给餐饮部门提供准确统计数据的同时,也稳定了学生就餐消费水平的承受心理。
高校教学信息化建设积累了丰富的业务数据,根据需求,教务数据分析功能主要包括三大类:教学任务、学生成绩和教学评价。图3为教务数据分析数据源视图,围绕教师的教学工作量、学生取得的成绩以及学生对教师的评价等,我们做了一系列的报表。例如:教学场地信息、学生情况、任课教师情况、各学期教学任务情况、成绩信息、教学评价、历年各专业招生人数、各学院历年教学情况、各学院历年学生对教师评价。
另外,为满足各二级学院要求,做了学业预警方面相关报表,各二级学院可根据年级、专业,通过总学分排行、课程门数排行来关注排在后面的学生情况。
数据分析表明,教师平均教学任务逐年增多,教师总体比较年轻,平均年龄男教师比女教师高,年龄在30-39之间的教师平均课时最多。管理学院历年招生数比其它学院明显高出很多,其中财务管理专业的学生数百分比最高。我校学生的成绩也完全符合正态分布曲线要求。
四、结束语
大数据分析是一种发展趋势,我们目前也仅仅就单项主题进行了逐个分析,如果把这些主题串起来,进行关联分析,将会得出更有趣更有价值的结果,这也是将来我们努力的方向。
参考文献:
[1]戴红芳,冯翔,先晓兵等.商业智能在校园一卡通中的研究与实践[J].微电子学与计算机,2012,29(7):175-179.
[2]戴红芳.基于多维数据模型的校园卡数据分析[D].上海:华东理工大学,2011.
基本的大数据的处理流程可以分成数据采集、数据处理与集成、数据分析和数据解释4个阶段。首先获取数据源的数据,因为在数据源端的数据包含各种各样的结构,需要使用某种方法将其进行预处理,使数据成为某种可以用一种算法分析的统一数据格式,接着需要找到这种数据分析的算法,将预处理过的数据进行算法特定的分析,并将分析的结果用可视化等手段呈现至用户端。
1.1数据采集
大数据的采集是整个流程的基础,随着互联网技术和应用的发展以及各种终端设备的普及,使得数据的生产者范围越来越大,数据的产量也越来越多,数据之间的关联也越来越复杂,这也是大数据中“大”的体现,所以需要提高数据采集速度和精度要求。
1.2数据处理与集成
数据的处理与集成主要是对前一步采集到的大量数据进行适当的预处理,包括格式化、去噪以及进一步集成存储。因为数据采集步骤采集到的数据各种各样,其数据结构也并不统一,不利于之后的数据分析,而且,一些数据属于无效数据,需要去除,否则会影响数据分析的精度和可靠性,所以,需要将数据统一格式并且去除无效数据。通常会设计一些过滤器来完成这一任务。
1.3数据分析
在完成了数据的采集和处理后,需要对数据进行分析,因为在进行数据分析后才能体现所有大数据的重要价值。数据分析的对象是上一步数据的处理与集成后的统一格式数据,需要根据所需数据的应用需求和价值体现方向对这些原始样本数据进一步地处理和分析。现有的数据分析通常指采用数据仓库和数据挖掘工具对集中存储的数据进行分析,数据分析服务与传统数据分析的差别在于其面向的对象不是数据,而是数据服务。
1.4数据解释
数据解释是对大数据分析结果的解释与展现,在数据处理流程中,数据结果的解释步骤是大数据分析的用户直接面对成果的步骤,传统的数据显示方式是用文本形式体现的,但是,随着数据量的加大,其分析结果也更复杂,传统的数据显示方法已经不足以满足数据分析结果输出的需求,因此,数据分析企业会引入“数据可视化技术”作为数据解释方式。通过可视化结果分析,可以形象地向用户展示数据分析结果。
2云计算与大数据分析的关系
云计算是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源,是一种按使用量付费的模式。这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络、服务器、存储、应用软件、服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。目前,国内外已经有不少成熟的云计算的应用服务。数据分析是整个大数据处理流程里最核心的部分。数据分析是以数据的价值分析为目的的活动,而基于大数据的数据分析通常表现为对已获取的海量数据的分析,其数据来源可能是企业数据也可能是企业数据与互联网数据的融合。从目前的趋势来看,云计算是大数据的IT基础,是大数据分析的支撑平台,不断增长的数据量需要性能更高的数据分析平台承载。所以,云计算技术的不断发展可以为大数据分析提供更为灵活、迅速的部署方案,使得大数据分析的结果更加精确。另一方面,云计算的出现为大数据分析提供了扩展性更强,使用成本更低的存储资源和计算资源,使得中小企业也可以通过云计算来实现属于自己的大数据分析产品。大数据技术本身也是云计算技术的一种延伸。大数据技术涵盖了从数据的海量存储、处理到应用多方面的技术,包括海量分布式文件系统、并行计算框架、数据库、实时流数据处理以及智能分析技术,如模式识别、自然语言理解、应用知识库等等。但是,大数据分析要走向云计算还要赖于数据通信带宽的提高和云资源的建设,需要确保原始数据能迁移到云环境以及资源池可以随需弹性扩展。
3基于云计算环境的Hadoop
为了给大数据处理分析提供一个性能更高、可靠性更好的平台,研究者基于MapReduce开发了一个基于云计算环境的开源平台Hadoop。Hadoop是一个以MapReduce算法为分布式计算框架,包括分布式文件系统(HDFS)、分布式数据库(Hbase、Cassandra)等功能模块在内的完整生态系统,已经成为当前最流行的大数据处理平台,并被广泛认可和开发应用。基于Hadoop,用户可编写处理海量数据的分布式并行程序,并将其运行于由成百上千个节点组成的大规模计算机集群上。
4实例分析
本节以电信运营商为例,说明在云计算环境中基于Hadoop的大数据分析给大数据用户带来的价值。当前传统语音和短信业务量下滑,智能终端快速增长,移动互联网业务发展迅速,大数据分析可以为运营商带来新的机会,帮助运营商更好地转型。本文数据分析样本来自于某运营商的个人语音和数据业务清单,通过Hadoop2.6.0在Ubuntu12.04系统中模拟了一个大数据分析平台来处理获得的样本。希望通过对样本数据的分析与挖掘,掌握样本本身的一些信息。以上分析只是一些很基本的简单分析,实际上样本数据中所蕴含的价值要远远大于本文体现的。以上举例意在说明基于云计算的大数据分析可以在数据分析上体现出良好的性能,为企业带来更丰富更有效率的信息提取、分类,并从中获益。
5结束语
关键词:数据分析;移动电子商务;数据获取;发展
一、移动电子商务的定义
移动电子商务(M-Commerce)是由电子商务(E-Commerce)衍生出的新生概念。随着互联网的不断发展,移动电子商务正在全世界范围内的普及和发展。移动电子商务本质上是电子商务技术的一种创新,基于移动无线网络,依托手机等个人移动通信设备,使用户能够减少时间和空间的限制并进行活动,是电子商务的一种新形式,并改变了电子商务的传统格局。
据艾瑞咨询最新统计数据显示,2016年移动购物市场交易规模约3.3万亿元,占网络购物总交易规模的70.2%,继2015年超过PC端之后,成为电子商务的主流渠道。同时,根据最新的一季度报告预测,2017年第三季度左右,全球移动电子用户将达50亿左右。
二、移动电子商务中的数据分析与应用
数据分析是移动电子商务重要的组成部分,同时也为产品决策提供重要参考。针对移动产品,数据分析就是利用挖掘数据的分析方法与技术手段,在手机用户大量的交易数据中总结产品流量和顾客转化率之间的规律和特点,分析消费者的消费特点。具体则是通过网络和交易信息提取客户、市场、产品环节的数据,然后建立相关模型,在更加动态化的商业环境下,能够更有效的优化产品及商业模式。
1.数据挖掘
通过自动化或半自动化的工具,数据挖掘可以挖掘出数据内部隐含的模式,并从中发掘信息或知识,同时从已有的数据中提取模式,提高已有数据的内在价值,并且把数据提炼,转化成为知识。在移动电子商务的运营之中,针对大量繁杂的客户消费及使用稻荩需要应用多种数据挖掘技术来分析客户特征,获取用户关注点,培养用户忠诚度,并在此基础上制定有效的营销计划来吸引优质用户。
在数据挖掘中最常使用的四种分析法:分类分析,关联分析,序列模式分析和聚类分析:
(1)分类分析可以定义区分数据类或概念的模型和函数,以便能够使用模型预测未知类标记的对象类。
(2)关联分析通常利用数据关联规则进行数据挖掘,其目的是挖掘隐藏在数据间的相互关系。
(3)序列模式分析同样也是为了挖掘数据之间的联系,但侧重于分析数据间的前后序列关系。
(4)聚类分析,是指根据“物以类聚”的原理,将本身未有类别的样本聚合成不同的簇,并对每一个簇进行描述的过程。
2.数据处理
(1)数据收集
一款移动电子商务产品的分析团队在处理数据前,首先要解决的问题是数据源的收集。数据收集可以分为二大类。第一类是直接能获取的数据,通常为内部数据。第二类则称为外部数据,是需经过加工整理后才能得到的数据,如手机应用平台的下载数据。
(2)数据清洗
数据清洗是数据处理中的重要部分,通过工具或编程,如Excel,Python,对数据进行筛选、清除、补充、纠正,其目的是从大量杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。清洗后保留真正有价值的数据,为数据分析减少障碍。
(3)数据对比
对比,是数据分析的切入点。如果参照缺失,数据则无法确定定量的评估标准。分析过程通常采用二点切入法进行数据对比分析:横向对比与纵向对比
①横向对比,是与行业平均数据,以及竞争对手的数据进行比对,以市场为轴心。
②纵向对比,则是和产品自身的历史数据进行对比,以时间为轴心。
(4)数据细分
数据对比发现了问题后,需要用到数据细分来确定问题数据的范围,根据移动产品的差异对数据异常的范围和精度进行分析,随后进行测试与修正。数据细分通常情况下先分纬度,再分粒度。
三、数据分析
数据分析是指用适当的比较或统计方法对收集来的第一手和第二手资料进行分析,以求最大化地开发出数据资料的功能并发挥数据的作用。为了提取有效信息和形成结论,通过分析手段,可以对数据加以详细研究和概括总结。在进行正式的数据清洗,确保了数据可靠性与完整性后,可对所获取的数据进行多层面的具体分析。根据不同的数据分析层面和结果导向分类,在移动电子商务的数据分析中常应用两种分析类型。
第一种,传统电子商务营销管理中的常用分析:SWOT、4P、PEST、5W2H、Userbehavior等;第二种是统计分析:描述统计、假设检验、相关分析、方差分析、回归分析、主成分与因子分析、决策树等。
1.数据分析方法
对于第一种类型的数据分析,常可以采用比较分析法来确定基本的分析方向以及产品导向。比较分析法分为两种类型,同比与环比。
为消除数据周期性波动的影响,同比将移动产品本周期内的数据与之前周期中相同时间点的数据进行比较,计算同比增长率。而环比则反应数据连续变化的趋势,将本期的数据与上一周期的数据进行对比。同环比能为产品整体运营的发展状况提供有力的参考,但必须建立在一定的基础上和环境上。
对于统计分析,最常用的是相关分析以及回归分析。相关分析研究的是现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。而回归分析则通过分析现象之间相关的具体形式,确定因果关系,并用数学模型来表现其具体关系。举例来说,对一个移动电子团购平台的产品来说,从相关分析中可知“质量”和“用户满意度”变量密切相关,但只有通过回归分析方法才能确定这一对变量之间到底是哪个变量受哪个变量的影响,以及影响程度如何。
2.数据分析应用
在移动端电子商务中,APP数据分析对于开发者或运营者都是十分重要的环节,主要数据分为4个方面:用户来源、用户属性、转化率及用户忠诚度。
(1)用户来源
对于移动产品平台来说,获取用户的渠道很多,如CPA广告、交叉推广、限时免费等等。开发者从多个维度的数据来对比不同渠道的效果,比如从活跃用户、次日留存率、使用频率、使用时长等角度对比不同来源的用户。通过渠道对比,可以高效地找到最适合产品发展的渠道,以便不断完善推广策略。为了追踪App渠道来源,可以用到两种不同的方法:
①Android渠道追踪方法
国内Android市场被数十家应用商店所割据,Android渠道追踪主要围绕其中几种渠道展开。具体来说就是开发者为每一个渠道生成一个渠道安装包,不同渠道包用不同的渠道ID来标识。当用户下载了App之后,运营人员就可以通过渠道标识查看各渠道的数据。
②iOS渠道追踪方法
不同于Android的开放生态,iOS是一个完全封闭的系统。在苹果的唯一性原则以及严格的审核制度下,Android打包的做法在此则无法生效,可以通过Cookie追踪渠道更为高效的追踪数据。
(2)用户属性分析
在吸引用户下载使用之后,产品运营及开放方要尽可能地详细了解用户的设备型号、网络及运营商、地域、用户性别等宏观层面的用户特征。这些特征数据可在产品改进、应用推广和运营策略的制定上提供有力的方向性依据。
①同期群分析是一种基于同期群的核心数据及行为的对比分群方式,按用户的新增时间将用户分群,得到的每个群就叫同期群。
②获取成本分析,是指获取到一个真实的新用户所付出的平均成本。同时也要注意用户回报弥补获取成本的速度,尝试不同的渠道并跟踪用户的行为,使用如K因子传播作为降低获取用户成本的手段。
③用户终生价值分析,是指用户平均会在平台、产品上贡献多少价值。最大化用户营收的方法就是根据用户频度制定不同的定价方案,针对高频用户通过广告、精品内容收费,对于低频用户则采用单次收M模式。
(3)转化率
对移动电子商务来说,产品转化率至关重要,直接关系到开发者的产品收入。如一款移动电子游戏应用,开发者可从道具购买量、关卡和付费人群等多个维度进行交叉分析,从而查看用户付费行为动机和特征,也可以通过漏斗模型进一步分析关键节点的转化率,提高付费转化,增加收入。
(4)用户忠诚度
了解用户在一个产品应用内做了什么,并确保用户喜欢该产品,是移动产品优化产品生命周期的根本。开发者可以从留存用户、使用时长、使用频率、访问深度等维度评价用户粘度,以及RFM(Requency,Frequency,Monetary)来评估用户系数。例如,通过检测每月新增用户在初次使用后某段特定时间内的留存率来对用户进行评估。
统计留存用户的时间粒度很细,主要有次日留存、7日留存、30日留存。
四、数据分析对移动电子商务的意义
无论是公司或个人,在这个新时代,具有数据分析思维是一种更高层次的元认知能力。由于移动互联网的出现,用户数据大量积累,营销方案的制定都是基于数据分析结果来决策。作为移动电子商务公司的数据分析师,必须有对繁杂枯燥的数据进行数据分析的本领,更要有商业敏感性。
随着大数据时代的到来,以数据分析为思维的经营和管理思路将成为移动电子商务市场中消费行为及市场分析的依据,而在这种以数据为主体的决策制定中,企业获取的分析数据是直观、动态、及时的,相比咨询公司或调研公司的滞后分析具有大数据和全样本的优势。利用数据来分析用户的行为习惯,进而揣测用户的心理,深入挖掘用户需求,可以精确得出产品定位及活动,进行决策。
参考文献:
关键词:大数据分析方法;企业档案管理;档案数据资源;企业创新决策
Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.
Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making
2015年9月5日,我国政府了《促进大数据发展行动纲要》,旨在促进大数据和云计算、物联网、移动互联网等新一代信息技术的融合,探索大数据和传统产业发展新模式,推动传统产业转型升级和新兴产业发展。正如大数据专家舍恩伯格所说:大数据正在改变人们的生活和人们理解世界的方式,更多的变化正蓄势待发,大数据管理分析思维和方法也开始影响到我们企业档案管理的发展趋势。
1 大数据分析方法在企业档案管理中应用的背景
1.1 大数据研究逐渐纵深化。自从2008年science杂志推出Big Data专刊以来,国内外对大数据的研究如火如荼。经过一段时间的探索,“目前大数据领域的研究大致可以分为4个方向:大数据科学、大数据技术、大数据应用和大数据工程。而人们对于大数据技术和应用两个方面的关注比较多”[1]。正如2012年奥巴马政府投入2亿美元启动 “大数据研究和发展计划”的目标所显示的那样,目前大数据的研究逐渐向纵深化方向发展,着重从大型复杂的数据中提取知识和观点,帮助企业实现从“数据分析能力”向“数据决策能力与优势”的转化。
1.2 企业创新决策越来越依赖于数据分析。对于企业技术创新者而言,目前更多的企业高层越来越依靠基于数据分析的企业技术创新决策。靠传统的经验方法去决策往往是滞后的,因此,大数据分析方法作为先进的定量分析方法,目前出现的一些先进数据分析方法与技术势必会对企业的运行管理、生产业务流程、管理决策产生飞跃式的影响。大数据分析方法也成为企业档案数据分析、技术创新决策的有效工具。
1.3 企业档案为企业创新决策提供数据基础。对于一个企业而言,使用的数据资源必须具有真实性可靠性。“企业档案是在企业的各项活动中直接形成并保存备查的各种文献载体形式的历史记录”[2],企业档案是企业在生产、经营、管理等活动中形成的全部有用数据的总和。除了发挥着凭证参考维护历史真实面貌的作用之外,企业档案更“是企业知识资产和信息资源的重要组成部分”[3],具有知识创新性、不可替代性,为企业技术创新决策提供数据基础。“特别是在当前大数据背景下,企业档案数据资源的开发与建设对企业经营决策的制定与适应市场竞争环境起到关键性作用。”[4]
在上述背景下,将大数据分析方法应用在企业档案管理中具有重要性意义:不仅拓展企业的管理决策理论,同时帮助企业运用所拥有的档案数据资源洞察市场环境,发现新的竞争对手,进行自我总结,做出科学决策,使企业紧紧抓住大数据时代带来的市场机遇。
2 大数据分析方法在企业档案管理中应用的方式
大数据分析方法在企业档案管理中的实现方式即是将大数据分析方法运用在企业档案信息分析挖掘上。它贯穿企业数据处理的整个过程,遵循数据生命周期,广泛收集数据进行存储,并对数据进行格式化预处理,采用数据分析模型,依托强大的运行分析算法支撑数据平台,发掘潜在价值和规律并进行呈现的过程。常见的大数据分析方法“其相关内容包括可视化分析、数据挖掘、预测分析、语义分析及数据质量管理”[5]。
2.1 数据质量管理提升企业档案数据资源品质。大数据时代企业档案数据资源呈现出4V特点,这使得企业档案数据很容易出现不一致、不精确、不完整、过时等数据质量问题。基于数据生命周期对企业档案数据资源进行数据质量管理分为数据预处理、数据存储、数据使用三个阶段。在数据预处理阶段,通过ETL工具即数据经过萃取(Extract)、转换(Transform)、加载(Load)至目的端这几个预处理过程达到数据清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微软的Dynamics Integration及IBM的Data Integrator都是比较常见的ETL工具。在数据存储与使用阶段,针对目前企业档案大数据呈现出4V的特点,传统关系型数据库在数据存储与数据管理方面已经难以胜任,非关系型数据库以其高吞吐量、可拓展性、高并发读写、实时性等特性能够满足数据存储与管理的要求。目前应用最广的是并行处理系统MapReduce和非关系型数据库比如谷歌的Big Table和Hadoop的HBase。将ETL工具移植入云计算平台系统,将会大大有助于完成数据清洗、重复对象检测、缺失数据处理、异常数据检测、逻辑错误检测、不一致数据处理等数据质量处理过程,从而保证企业档案数据资源的数据质量。
2.2 可视化分析提升企业档案数据资源可理解性。
“大数据可视分析是指在大数据自动分析挖掘方法的同时,利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。”[6]那么企业档案数据资源的可视化分析可以理解为借助可视化工具把企业档案数据资源转化成直观、可视、交互形式(如表格、动画、声音、文本、视频、图形等)的过程,便于企业经营者的理解利用。
以2015年2月15日最新版的“百度迁徙”(全称“百度地图春节人口迁徙大数据”)为例,该项目让我们近距离了解到大数据可视化。它利用百度后台每天数十亿次的LBS定位获得的数据进行计算分析,全程展现中国人口迁徙轨迹,为政府部门科学决策提供科学依据。受该项目启发,企业可将拥有不同类型的档案信息进行可视化,比如进行企业档案的网络数据可视化、时空数据可视化、时间序列数据可视化、多维数据可视化、文本数据可视化等[7]。以文本数据可视化为例,目前典型的文本可视化技术标签云,可以将档案文本中蕴含的主题聚类、逻辑结构、词频与重要度、动态演化规律直观展示出来,为企业决策提供依据。另外,常见的信息图表类可视化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;时间线类可视化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;数据地图类可视化工具主要有Leaflet、Google fushion tables、Quanum GIS等。这些新技术都为企业档案数据资源可视化提供了科学工具。
2.3 语义引擎实现企业档案数据资源的智能提取。大数据时代全球数据存储量呈激增趋势,传统的基于人工分类目录或关键词匹配的搜索引擎(谷歌、百度等)仅仅能够进行简单的关键词匹配,用户无法得到非常准确的信息,检索准确率并不高,而且检索结果相关度较低,检索结果缺乏引导性。为提供给用户高质量的检索结果,改善用户搜索体验,提高效率,实现智能提取,语义搜索引擎应运而生。“语义引擎是随着语义网的发展,采用语义网的语义推理技术实现语义搜索的语义搜索引擎。”[8]它具备从语义理解的角度分析检索者的检索请求,能够理解检索者的真正意图,实现信息智能提取。对语义分析可以采取自然语言处理方法进行概念匹配,提供与检索者需求相同、相近或者相包含的词语。目前存在基于本体的语义处理技术,它以本体库作为语义搜索引擎理解和运用语义的基础。对于企业而言,将语义引擎分析方法与协同过滤关联规则相结合,可以挖掘用户的需求,提供个性化的服务。比如亚马逊公司通过对用户检索的语义进行分析推理,结合协同过滤关联规则,为用户提供相近需求的产品,提升自己的经济效益。对于一份人事档案而言,语义引擎也能分析出该份人事档案中的某人的职务、级别,从中提取出姓名一职务一级别一时间等关键信息,提高检索准确率和效率,实现智能提取。
2.4 数据挖掘发现企业档案数据资源的隐性价值。“数据挖掘又称数据库中的知识发现”[9]。简而言之,数据挖掘就是企业从数据集中发现知识模式,根据功能一般分为预测性模式和描述性模式,细分主要有分类与回归模型、聚类分析模型、关联规则模型、时间序列模型、偏差检测模型等。主要挖掘方法有神经网络方法、机器学习方法数据库方法和统计方法等。
数据挖掘是大数据分析方法的核心。对于企业而言,数据挖掘的档案数据资源应该由两部分组成:一是企业正常运行管理过程中所形成的档案数据资源,通过运用分类、聚类、关联规则等方法对企业内部的数据进行挖掘,发现潜在模式,为企业技术创新人员决策提供支持。比如在2004年全球最大的零售商沃尔玛在分析历史记录的顾客消费数据时,发现每次季节性飓风来临之前,手电筒和蛋挞的数量全部增加。根据这一关联发现,沃尔玛公司会在飓风用品的旁边放上蛋挞,提升了企业的经济效益;二是企业在运行过程中遗存在互联网上的数据,通过网络舆情及时跟踪可以获取市场最新动态,为企业调整服务模式、市场策略、降低风险提供依据。比如Farecast公司运用数据挖掘,从网络抓取数据来预测机票价格以及未来发展趋势,帮助客户把握最佳购买时机,获得较大成功。
2.5 趋势预测分析实现企业档案数据资源的价值创造。“预测分析是利用统计、建模、数据挖掘工具对已有数据进行研究以完成预测。”[10]预测分析的方法分为定性与定量分析两种方法:定性分析如德尔菲法以及近年来人工智能产生的Boos-ting・贝叶斯网络法等;定量分析法一般从形成的历史数据中发掘数据模型达到预测效果,如时间序列分析模型、分类与回归分析模型等。
企业档案数据资源预测分析是在企业档案数据资源数据挖掘的基础之上,发现适合模型,将企业档案数据输入该模型使得企业技术创新人员达到预测性的判断效果,实现价值的创造。一个典型的例子即是市场预测问题,企业技术创新者可以根据档案数据预测某件产品在未来六个月内的销售趋势走向,进而进行生产、物流、营销等活动安排。具体来讲企业可以通过数据时间序列分析模型预测产品销售旺季和淡季顾客的需求量,从而制定针对独特的营销策略,减少生产和销售的波动性,获得利润和竞争优势。预测分析在大数据时代彰显出企业档案数据资源独特的魅力。
3 大数据分析方法运用于企业档案管理中应当注意的问题
3.1 成本问题。大数据分析需要依靠分析工具和运算时间,特别是在复杂的企业档案数据资源中采用相关大数据分析工具的科技成本还是很高的,要以最少运算成本获得更有价值的数据内容。合理选择大数据分析工具不光可以节省运算成本而且能够更快速获取盈利增长点,同时在大数据分析和企业档案数据资源的存储成本方面也要适当的控制在合理的范围内。既要保证大数据分析质量,又要降低企业档案存储成本是大数据分析方法运用到企业档案管理中的重要原则。
3.2 时效问题。“大数据的动态性强,要求分析处理应快速响应,在动态变化的环境中快速完成分析过程,有些甚至必须实时分析,否则这些结果可能就是过时、无效的”。[11]由此可见,影响大数据分析的重要因素就是时效性问题。“大数据数据分析的核心内容之一是数据建模”,[12]数据分析模型要不断的更新适应数据的动态变化。如果模型落后于数据的变化,那数据分析只能是失效的。同时由于经济环境、政治生态、社会文化等因素不断变革,企业档案数据的收集也会产生新的问题。只有不断加强对这些数据的实时监测和有效分析,才能更好的识别出数据变化中的细微之处,建立与之相适应的数据分析新模型。
3.3 情感问题。“大数据的另一个局限性在于它很难表现和描述用户的感情。”大数据分析方法在处理企业档案数据方面可以说如鱼得水,大数据分析是一种科学的机器运算方法,无法去实现人文价值提取,比如如何从企业档案数据资源中提取企业文化,这更需要人的情感直觉去实现,而严谨的科学数据是无法实现的。因此,我们在热衷于大数据分析方法的量化结果时,同时也不要忽略在传统企业档案管理中的那份人文精神。
关键词:HXN5机车;曲轴箱超压;数据特点
1 前言
HXN5机车自投入运用以来,频繁发生曲轴箱超压故障。仅2011、2012两年间,因各种原因引起的曲轴箱超压报警就有220余起,严重影响了机车的正常运用。
导致曲轴箱压力高的原因非常多,大体上可分为机械类、电器类(传感器、线束等)两种。因此,快速区分原因类别,确定检查方向,可以大幅度提高检修效率。
2 机车数据分析软件
2.1 数据背景
由于前期GE公司技术保密,未提供分析软件,无法进行数据分析。判断故障时,只能凭借经验,进行整车检查,费时费力。通过多次沟通后,GE同意提供数据分析软件drconv.exe,使得运用数据分析方法来判断故障原因成为可能。
2.2 数据转换
由于下载的机车数据中,ECU的数据文件(eng文件)不能直接打开,需要使用GE提供的数据分析软件(drconv.exe)转换成DRA文件后,才能用EXCELL软件打开。
2.3 数据样式
文件打开后,就可以对各相关参数进行具体分析。打开后的文件模型如表1(已做相关性处理):
3 一起典型的机械类曲轴箱超压故障
3.1 故障描述
HXN50323 机车自2012年9月16日发生曲轴箱超压以来,现场服务组对其进行了各项检查,一直未能查出具体原因。10月13日,曲轴箱超压攻关组与GE工程师一道赴段调查。
3.2 故障处理
首先按照曲轴箱超压故障作业指导书进行相关检查,发现一些异常现象。但这些异常现象程度都轻微,都不应是超压的真正原因。
恢复机车后,对比拆掉机油加油口盖前后自负荷曲轴箱压力的变化情况,进行自负荷试验,试验结果拆掉机油加油口盖后曲轴箱压力远低于拆除前的值,可见确实存在柴油机机械故障(如动力组窜气))。我们建议拆动力组做进一步详查。
3.3 机车下载数据情况
3.3.1 Snp日志文件:
打开snp日志文件,可见9月16日在线上有两次超压(表2):
① 01:00:50 机车速度36.963英里/小时,柴油机档位8档;
② 04:39:24 机车速度19.179英里/小时,柴油机档位7档。
最后一次10月13日19:31:02为攻关组在现场做数据采集时触发。
3.3.2 Eng数据文件:
3是10月13日自负荷试验曲轴箱压力随功率的变化曲线。可见cop数值5档时在0.5—1之间波动,柴油机拉6档,曲轴箱压力上升触发报警。柴油机停机后cop迅速回落到0附近。
3.3.3 数据分析情况小结
(1)8档曲轴箱压力从9月12日开始一直呈上升趋势,到9月16日涨至0附近触发报警。
(2)在段内检修过程中,多次试验报警后,cop数值均快速回落。
(3)9月12日至16日曲轴箱压力缓慢上升的过程中,机油压力保持稳定,没有明显的下降趋势。
3.4 检查结果
现场试验数据分析结果显示该次超压为机械类超压。机车后期返厂解体检查的结果为:左5缸活塞的钢顶第一道气环处存在裂纹,引起燃气下窜,造成曲轴箱超压。
3.5 数据特点
通过检查结果、数据分析情况和工作原理,归结出机械类故障的数据特点为:触发报警停机后,曲轴箱压力迅速(10秒内)回零(0.5英寸水柱以下)。
4 一起典型的电器类曲轴箱超压故障
4.1 故障描述
2012年9月24日50369机车担当85310次牵引任务,编组29-2295-34.6,列车23:46分因曲轴箱超压在扎亥萨拉站1道停车,司机解锁柴油机处理后0:09分开车,站停23分。之后在线上再次发生曲轴箱超压报警影响本列运行晚点。
回段后检查柴油机各部良好,更换曲轴箱压力传感器,检查并试验正常。
4.2 数据情况
4.2.1 Snp文件:
4.2.2 ENG数据文件
图4为23日23点42分故障时曲轴箱压力和柴油机转速随时间的变化曲线。可看出从42分45秒开始cop就开始超出报警保护值(1.5 in H2O),至42分55秒触发停机。此外,随着柴油机转速降为0的过程中,曲轴箱一直保持在一个较高的压力(1.55 in H2O)。
4.2.3 数据分析情况小结:
两次故障曲轴箱压力都在柴油机低档位转速波动不大的情况下自行上升,且在停机后仍然保持一个较高的数值。
4.3 数据特点
通过检查结果、数据分析情况和工作原理,归结出电器类故障的数据特点为:触发报警停机后,曲轴箱压力可能不会迅速(10秒内)回零(0.5英寸水柱以下);或者柴油机停机后曲轴箱压力仍然保持在一个较高值。
5 结论
本文通过介绍HXN50323和50369机车曲轴箱超压故障的处理经过,对数据分析方法在故障原因判断过程中的应用进行了研究,由此对不同类型故障数据的特点进行了归纳。机械类故障的数据特点为:触发报警停机后,曲轴箱压力迅速(10秒内)回零(0.5英寸水柱以下)。电器类故障的数据特点为:触发报警停机后,曲轴箱压力可能不会迅速(10秒内)回零(0.5英寸水柱以下);或者柴油机停机后曲轴箱压力仍然保持在一个较高值。
由于之前电器的故障率太高,使得段方和现场服务人员在判断此类故障原因时,有一种先入为主的观念,容易优先考虑反复更换传感器、线束、ECU等电器元件,费时费力。依照不同故障类型的数据特点,通过数据分析,在查找一些疑难的超压原因时,能快速区分原因类别,明确检查方向,节省检修时间,从而大幅度提高检修效率。
参考文献
[1] 主干线机车维修故障处理手册,2011
[2] 张松杨. GEVO16型柴油机机体的设计分析. 铁道机车车辆,2009,(2).
[3] 薛良君,楼狄明,张松杨. 16V280ZJB型柴油机机体应力测试与分析. 内燃机车,
2003,(9).
关键词:道路运输 大数据分析 决策技术
中图分类号:U495 文献标识码:A 文章编号:1674-098X(2016)12(c)-0147-02
交通运输业指的是在国民经济的发展过程中主要负责运送货物和旅客的社会生产工作,其中包括铁路运输、公路运输、水路运输以及航空运输等等。该文主要将城市道路交通运输作为主要切入点,分析当前大数据分析决策技术在城市道路运输行业的应用过程中所出现的问题以及所带来的重要影响。在信息技术高速发展的今天,以数据为核心的大数据技术在交通系统中的应用已经逐渐为城市交通事业的发展提供了新的方向,并打开了新世纪的大门,城市智慧交通的时代已经逐渐到来了。
1 大数据分析决策技术概述
1.1 大数据分析决策技术的概念
大数据,顾名思义是对许多大型数据进行分析、处理和管理的数据集,数据的最大可达到10 TB左右,在大数据的日常工作中具有体量大,数据类别多,数据处理速度快以及数据具有真实性的特点。
而大数据分析决策技术正是在大数据的体量大、数据类别多、数据处理速度快以及数据具有真实性的优势的基础上对数据进行分析和决策的一种新兴技术。这种技术多应用于公共交通服务、交通引导、物流调度优化等各个方面。大数据分析决策技术能够通过反馈的各种交通数据和各种资源进行分析、处理、整合,并能够依托云计算服务平台为使用者提供更加快捷、便利的出行服务。
1.2 大数据分析决策技术的关键
大数据分析决策技术的关键在于计算层,而计算层主要指的是利用内存计算中的Spark,并利用R语言和框架来实现专业的统计分析功能,采用图形的方式展现,以保证分布式的集群和高效存储方式来加快大数据集上的查询速度。除此之外,Mahout是一个集数据挖掘、决策支持等算法于一身的工具,其中包含的都是基于Hadoop来实现的经典算法,通常相关人员会使用其作为数据分析的核心算法集来进行参考[1]。
利用大数据进行决策和分析,就必须通过表格和图表图形来展示,这样一来,将使得数据的分类更加详细,并提高了数据的权威性。另外,Tableau和Pentaho也是进行处理的最佳选择。
2 大数据分析决策技术在道路运输业的应用分析
2.1 大数据分析决策技术在道路运输业的应用现状
伴随着信息技术的快速发展和高新技术产业的高速推进,新科技、新技术已经融入到了各行各业的生产活动和运营管理当中,并深入到了人们的生活中,使普通人也能看见科技,摸得着技术,时时刻刻地感受着科学技术为生活带来的美好[2]。
当前,大数据分析决策技术在道路运输业应用日渐成熟,使得大数据分析决策技术已经成为了城市智慧交通的重要发展平台和重要的技术载体,科学稳定的分析决策技术,便捷高效的数据处理技术使得大数据分析决策技术在城市道路运输业一经应用就得到了迅速的拓展。大数据分析决策技术对城市运输业所反馈的数据包、日志、资产数据以及诸如漏洞信息、配置信息、身份与访问信息、用户行为信息、应用信息、业务信息、外部情报信息等信息的分析、处理和决策带来了极大的便捷。
2.2 大数据分析决策技术应用面临的挑战
2.2.1 行业标准缺乏统一性
行业标准缺乏统一性是大数据分析决策技术应用面临的挑战之一,众所周知,地区经济发展不平衡是我国经济发展的重要现状之一,在这样的背景下,致使我国道路运输业发展也存在着地区发展不平衡的问题,这样一来,很难在全国实行统一的行业标准,致使很多地区的城市运输数据系统相对独立,没有在全国范围内形成统一、完整的智慧交通系统。
智慧交通运输系统的不完整,导致了各个城市之间的道路运输的信息和数据的衔接与配合达不到一定的标准,进而严重影响交通数据的收集和处理,并阻碍了城市\输线路的分析和统计。
2.2.2 基础设施缺乏稳定性
基础设施缺乏稳定性也是大数据分析决策技术应用所面临的挑战之一,大数据决策分析技术在城市道路运输业得以应用的目的在于建立完整度和成熟度较高的智慧城市道路交通系统,而这样智慧交通系统必将是整合度和复杂度较高的系统,如果想要建立这样的智慧交通系统不仅仅需要成熟的大数据分析技术,更需要完整、稳定的基础设施作为建立这一系统的平台。但是,当前在建立这一系统的过程中却面临着城市运输系统硬件设备功能滞后、老化的现状,这些问题都可能会引起引起数据的泄露,甚至丢失,为大数据的统计和处理带来了极大的威胁。
2.2.3 数据统计缺乏真实性
数据统计缺乏真实性同样也是大数据分析决策技术应用所面临的问题和挑战。作为数据统计和数据整合的重要技术,数据的真实性和精确性是其存在的最重要的基础。大数据分析决策技术在道路运输行业得以应用的重要标准,如果数据的真实出现了问题,将使得智慧交通系统失去其应用价值。目前由于道路运输设备老化等问题,致使其性能得不到根本的保证,造成了信号获取的不稳定,由此可能会出现数据统计缺乏真实性的问题。
3 大数据分析决策技术在道路运输业应用问题的解决措施
3.1 加强交通平台资源整合,推进数据标准化
为了解决行业标准缺乏统一性的问题,相关人员应当加强交通大数据应用基础设施建设。正如上文所说的我国经济发展的不平衡导致了城市交通运输业发展的不平衡,而交通运输系统又是极为复杂的系统,如果每个城市之间交通平台不能形成很好的衔接,将会极大地影响交通运输业的发展,问题解决措施如下。
首先,需要相关部门建立完整的道路交通运输标准,对各个城市的交通运输情况进行严格的管理,努力建立一个统一度高、完整度高的现代化、标准化行业标准。
其次,还需要加强对各个交通平台资源的分配和整合,加强各个地区的兼容性。
最后,还应当实现各个地区各个交通的相互合作,相互联系,推动交通运输标准化、统一化的实现。
3.2 加强交通大数据应用基础设施建设
为了解决基础设施缺乏稳定性的问题,相关人员应当加强交通大数据应用基础设施建设。正如上文介绍的我国道路运输系统的设备因使用时间较长,设备老化度较高,这严重影响了大数据决策分析技术的应用,为解决这一问题,应当加强基础设施建设,及时对设备进行更新和维护,从而实现信息数据的安全有效。
3.3 严格控制交通运输的数据真实度
为了解决数据统计缺乏真实性的问题,相关人员应当严格控制交通运输的数据真实度。
正如上文所介绍的因种种原因大数据决策分析技术的数据真实度有待考证,为了解决这一问题,需要相关人员做到的是通过严格的监控措施和测试手段保证数据的真实性和可靠性,严禁因人为原因而对数据的真实性造成影响。
4 结语
综上所述,智慧交通时代的大门已经逐渐向大家打开,在城市化速度不断加快的今天,城市居民对舒适的交通环境和便捷快速的城市道路运输有着十分迫切的渴求,而在大数据分析决策技术基础上智慧交通是大的发展趋势,将为解决城市道路运输问题提供新的思路。智慧交通时代是高效便捷运输的时代,也是现代化的重要标志,通过大量数据汇集融合,能够有效地解决城市交通存在的问题。现阶段,大数据分析决策技术和智慧交通系统发展得还不够成熟,需要在相关人员的不懈努力下,使城市居民能够更早地进入便捷的现代生活中,期待那一天的到来。
参考文献