期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据分析论文

数据分析论文精品(七篇)

时间:2023-08-10 16:50:42

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据分析论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

数据分析论文

篇(1)

数据挖掘是在数据库中进行知识发现的重要方法,是从大量的表面数据中提取隐藏在其中的知识的过程。近年来,该技术发展迅速,已应用到各个领域。本文主要介绍固话漏话用户数据挖掘和分析。

2数据挖掘技术应用于电信用户数据研究

2.1固网用户数据的组成和结构

对于企业来说,大量的用户数据不仅有利于客户关系管理(CRM),同时也是获得用户知识的源泉。从用户知识发现的过程中可以看到,用户数据的质量会对知识发现的结果产生直接的影响,所以用户数据准备也是一项很重要的步骤。从商业系统中提取出高质量的用户数据就成为一项最主要的工作。固网企业的用户数据包括用户基本信息、用户账单信息以及客服信息。数据仓库就是根据这种方式来组织的。

2.2知识发现的方法和过程

用户知识发现概括如下:根据提出的商业目标,分析大量的用户数据,找出隐藏的和未知的规律或者丰富已知的规律,进而提出模型;最后要将数据挖掘和分析的结果转化成有商业意义的方法,然后采取进一步的行动。用户知识发现必须遵循以下几个步骤:商业理解,数据理解,数据准备,分类模型,评估应用。

2.3数据挖掘建立用户分类模型

近年来,“以客户为中心”的电信市场开始强调为不同用户提供个性化服务,其前提条件就是用户分类。这也说明了过去的消费行为也预示了未来的消费倾向。

(1)商业理解

对用户的理解不仅是理解电信市场的开始,也是理解客户关系管理的开始。在电信企业中对用户的理解包括:用户种类,不同类中用户的本质属性区别,用户偏好,不同类别之间的用户如何通信等。

(2)用户数据准备

对用户分类的研究主要是从用户属性中得到用户特征和行为习惯。主要数据来源于用户账单信息,同时也需要从商业系统中得到一些用户的基本属性信息。

(3)用户分类模型

本文使用聚类分析对用户进行细分以建立分类模型。聚类分析是把大量数据点的集合根据最大化类内相似性、最小化类间相似性的原则进行聚类或分组,使得每个类中的数据之间最大限度地相似、而不同类中的数据之间最大限度地不同。

3固网漏话用户数据分析

3.1关于固网漏话用户数据分析的商业理解

通过各种渠道调查,对固网漏话用户数据分析的目标可以概括为以下几点:

(1)对用户通话次数、时间段等分析,找出特征,以此来寻找目标用户;

(2)对用户开通漏话保护业务前后的ARPU值分析比较,分析收益的对比;

(3)对目标用户数据分析,从用户分类的角度来管理,设计针对性的服务,提升用户满意度。

3.2系统用户数据准备

数据准备的过程:明确目标;制定计划;分析变量的获取;数据收集和获取;数据集成。根据当前客户关系管理基本状况和数据挖掘的目的,涉及到的人口属性变量有:性别、年龄、住址、用户职业、婚否、学历、薪资等。用户分类结束之后,再使用描述变量来进行分析说明。本文选用某市电信公司运营支持系统和经营分析系统的数据,从中选取了基本客户基本信息表、客户详细话表、账单及缴费信息表、产品信息表、业务使用清单等原始数据。数据挖掘工具选择SPSSClementine。在使用该工具进行挖掘之前,需要对数据进行清洗:

(1)删掉不满足要求的数据:选择普通的用户;选择状态正常的用户;选择入网时间较长的用户,使数据有完整的用户周期;

(2)去掉异常数据:比如用于测试的号码;

(3)去掉极端值:不具备普遍性的极值容易产生噪声。

3.3固网漏话用户数据分析结果

考虑到不同分类建立的有效性和简便性,以及固话用户和数据源的特点,本文采用常见的K-means算法,其高可靠性、高精准性以及低复杂度使其成为主流的聚类算法。本文选用SPSSClementine作为数据挖掘工具进行K-means聚类分析。获取原始数据并进行预处理之后,选择参与聚类的细分变量,输入簇的个数k,选择k=7,然后点击“聚类”按钮,使用K-means算法对固网漏话用户数据进行聚类。经过正常值选择、极值处理等一系列的数据清洗工作,最后用于研究的记录有251284条。

3.4分析结果和解释

93%的遇忙话务都出现在8∶00~18∶00的工作时段,这说明该时段遇忙话务较多,话务量流失严重,特别需要遇忙话务的解决方法。而这一时间段遇忙话务量最多的就是政企用户,这些话务量流失对政企用户将造成巨大的损失:30000政企用户一个月遇忙话务损失达到260万次,本网超过120万次,每个月预计损失20万;以电信中等发达省份为例:符合条件的政企高端用户约为60万;每年度损失的潜在业务收入为50000万。经过分析,得到该市各地区已开通和未开通漏话保护业务的用户分布,如图4所示。C区属于政务新区,未开通漏话业务的用户较多,而F区属于工业园区,企业较多,很多用户已开通漏话保护业务,但是还有大量用户未开通该业务,所以C区和F区应该作为该业务的重点推广地区。综上分析,固网漏话业务是一个非常有潜力的业务,解决漏话问题是提高用户满意度和忠诚度的重要途径。根据上文的分析,在8∶00~18∶00时间段,用户遇忙话务量非常多,在这段时间内,企业需要更多的漏话接入服务器,而在其他时间段可以减少接入服务器以节约成本。而在不同的地区,用户数量和精准用户的数量也不同,应该选择精准用户较为集中的地区优先推广漏话保护业务。由于精准高端用户带来的收益远远超过普通用户,所以要对经过筛选的精准用户采取针对性措施,比如在C区和F区大力宣传,以各种形式让精准客户看到该业务带来的收益,还可以电话推广为精准用户提供信息。

4结论

篇(2)

1.1数据采集

数据的采集是指利用传感器、社交网络以及移动互联网等方式获得的各种类型的结构化、半结构化以及非结构化的海量数据,这是一切数据分析的基础。数据的采集需要解决分布式高速高可靠数据的采集、高速数据全映像等数据收集技术。还要设计质量评估模型,开发数据质量技术。而数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。

1.2数据预处理

数据采集的过程本身就有会有很多数据库,但如果想达到有效分析海量数据的目的,就必将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,而且在导入基础上做一些简单的辨析、抽取、清洗等操作。

①抽取:因为我们通过各种途径获取的数据可能存在多种结构和类型,而数据抽取过程可以有效地将这些复杂的数据转换为单一的结构或者便于处理的类型。以达到快速分析处理的目的。

②清洗:对于海量数据而言,数据所处的价值层次不一样,就必然存在由于价值低而导致开发成本偏大的数据,还有与数据分析毫无关系的数据,而另一些数据则是完全错误的干扰项,所以对数据通过过滤“去噪”从而提取出有效数据是十分重要的步骤。

1.3数据的存储与管理

当我们采集数据完成后,就需要将其存储起来统一管理,主要途径就是建立相应的数据库,进行统一管理和调用。在此基础上,需要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。还需开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、数据的去冗余及高效低成本的大数据存储技术;以及分布式非关系型大数据管理与处理技术、异构数据的数据融合技术、数据组织技术、研究大数据建模技术、索引、移动、备份、复制、可视化技术。

1.4数据的统计分析

一般情况下,统计与分析主要就是利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

1.5数据分析与挖掘

所谓数据挖掘是指从数据库中的大量不完全的、有噪声的、模糊的、随机的实际应用数据中,揭示出隐含的、先前未知的并有潜在价值的信息的过程。与前面统计和分析过程不同的是,数据挖掘一般不会有预先设计好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型的算法有用于聚类的K-means、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

2数据分析的8个层次

2.1标准化报告(StandardReports)

标准化报告作为数据分析的第一个层次,要求相对较低,主要是借助相应的统计工具对数据进行归纳总结,得出包含主要参数指标的标准化报告。类似于一个销售企业每月或者每季度的财务报表。

2.2即席查询(AdHocReports)

用户可以通过自己的需求,灵活地选择查询条件,系统就能够根据用户的需求选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询所有的查询条件都是用户自己定义的。在面向高层的数据分析软件中,用户随意添加想要查询的指标按钮再加上相应的限制条件,就可以立即生成可视化的统计结果,不仅一目了然,而且没有任何操作难度。

2.3多维分析(QueryDrilldown)

多维分析是指对具有多个维度和指标所组成的数据模型进行的可视化分析手段的统称,常用的分析方式包括:下钻、上卷、切片(切块)、旋转等各种分析操作。以便剖析数据,使分析者、决策者能从多个角度多个侧面观察数据,从而深入了解包含在数据中的信息和内涵。上卷是在数据立方体中执行聚集操作,通过在维级别中上升或通过消除某个或某些维来观察更概括的数据。上卷的另外一种情况是通过消除一个或者多个维来观察更加概括的数据。下钻是在维级别中下降或者通过引入某个或者某些维来更细致地观察数据。切片是在给定的数据立方体一个维上进行的选择操作,切片的结果是得到了一个二维的平面数据(切块是在给定的数据立方体的两个或者多个维上进行选择操作,而切块的结果是得到了一个子立方块)。转轴相对比较简单,就是改变维的方向。

2.4仪表盘与模拟分析(Alerts)

仪表盘用于监控一些关键指标。模拟分析是由操作者动态地加以调节的控件(如滑动块、可调旋钮、选择框等),来控制管理决策模型行为某些参数。当操作者通过控制面板对模型中的参数值或变量值进行调节时,图形中的曲线、柱形组或分析指标等要素就会发生相应的运动,而这种运动正好反映了该参数的变化对模型行为的影响,如果这种变动引起了模型中最优解或其他关键数字的变化,能够随时将关于这种变化的结论正确地显示出来。

2.5统计分析(StatisticallyAnalysis)

我们知道概率论是数理统计的基础,数理统计是在其基础上研究随机变量,并应用概率论的知识做出合理的估计、推断与预测。概率论中讨论的各种分布在数理统计中作为统计模型来分析处理带有随机误差的数据。典型的数理统计方法有参数估计、假设检验和回归分析。而统计分析主要是对用户所关注的问题进行推断、预测和控制的分析方法。具体可以分为以下三方面:

①描述统计:主要是集中趋势、离散程度、分布形状等,统计图(方图、箱线图、散点图等);

②数据的分类汇总;

③基础统计分析:方差分析、时间序列分析、相关和回归分析、(主成分)因子分析等统计分析方法。

2.6预测(Forecasting)

在统计分析和数据挖掘领域,对未来的预测已经有了很多数学模型以及解决具体问题的相关算法。其核心思想便是从历史数据中找出数据的发展模式,然后以这些模式为支点,就可以对未来进行预测。

2.7预测模型(PredictiveModeling)

随着数据分析学家对数据挖掘技术的不断探索,出现了很多预测模型以及与之相对应的算法,但是很难确定某个模型是最精确的,因为不同的领域,不同的条件,对应的预测模型是不一样的,所以没有统一化的最优模型,只存在有选择性的最优模型。下面介绍几种典型的预测模型。

①回归模型:回归模型可以分为一元线性回归模型和多元线性回归模型。一元线性回归模型可表示为yt=b0+b1xt+ut,该式表示变量yt和xt之间的真实关系。其中yt称作被解释变量(或相依变量、因变量),xt称作解释变量(或独立变量、自变量),ut称作随机误差项,b0称作常数项(截距项),b1称作回归系数。b0+b1xt是非随机部分,ut是随机部分。而在很多情况下,回归模型必包含两个或更多自变量才能够适应地描述经济现象各相关量之间的联系,这就是多元线性回归模型需要解决的问题,其一般形式为:Y=a+b1X1+b2X2+…+bmXm,式中X1、X2、…、Xm是这个多元回归问题的m个自变量,b1、b2、…、bm是回归方程对应于各自变量的系数,又称偏回归系数。

②贝叶斯网络:贝叶斯网络是基于概率推理的数学模型,而概率推理是通过一些产量的信息来获取其他概率信息的过程。贝叶斯网络会建立一个有向无环图和一个概率表集合,有向无环图中的每一个节点便是一个随机变量,而有向边表示随机变量间的条件依赖,条件概率表中的每一个元素对应有向无环图中唯一的节点,存储此节点对其所有直接前驱节点的条件概率。贝叶斯网络是为了解决不定性与不完整性问题而提出的,在多个领域中获得广泛应用。

③基于时间序列分析的指数平滑模型在时间序列分析中指数平滑模型是最灵活和准确的方法,在经济领域也被证明是最有效的预测模型。在不同的时间序列下,指数平滑模型可以分为简单指数平滑法、带有趋势调整的指数平滑法、带有阻尼趋势的指数平滑法、简单季节指数平滑法、带有趋势和季节调整的指数平滑法五种不复杂度的模型。

2.8最优化

(Optimization)因为优化问题往往可以带来巨额的收益,通过一系列可行的优化,可以使收益得到显著提高。所谓最优化就是从有限或者无限种可行的方案中选取最优的方案。如果可以通过简单的评判,就可以确定最优方案那是最好的。但是事实不会那么简单,所以优化技术已经发展出了一系列的理论来解决实际问题。其常用的优化技术为:

①线性规划:当目标函数与约束函数都是线性函数时,就是一个线性规划问题。而当同时满足约束函数和目标函数时,则可以认为是最优解。

②整数规划:要求决策变量取整数值的数学规划。

③多目标规划:指衡量一个决策优劣的标准不止一个,也就是有多目标函数。

④动态规划:将一个复杂的问题划分为多个阶段,逐段求解,最终求出全局最优解。

3用Excel实现简单的数据分析

①对于企业而言最重要的是利润,所以管理者必须要从这张表中得到最关键也最容易得到的销量和销售额以及与其相关的一些数据,通常是用最基本的数理统计结果来直观地反映该企业在某个期间的盈利情况。

②其次,我们必须要做进一步的分析。已经对整体的情况有了一定的把握,所以就可以朝着不同的方向去挖掘一些有价值的信息,为企业高层做决策提供有力的依据。对产品销售而言,客户结构能够有效地反映客户的地域分布,企业可以根据客户的来源,在未开辟客户的地域去寻找新的目标客户群。而销量结构可以直观地反映企业最大销量来自哪个地区,对销量较小的地区可以加大宣传力度或者增加销售网点来保持各地区销售均衡。还可以及时地调整销售方式来扩大市场份额,而对于销量最小的地区考虑开辟新的市场。

统计了各地区的销售总额和平均销售额以及两者的对比关系。由此可以得出地区平均购买力大小,以及各地区总销售额大小。借助图表描述,管理者可以对企业在某段期间内的销售状况有一个大概的把握,只有掌握了这些的信息,才能更细化地去研究具体的影响因素。划分等级,对于经常性大量购买的客户必须要以最优惠的价格和最好的服务让其满意,以形成一个稳定的大客户群。而对于那些少量购买的客户,也要制定出相应合适的方案来留住客户。所以,分析销售额的分布情况,可以掌握客户的购买力度而且还能及时做一些留住大客户的举措。

4用R语言实现数据多层次分析

R语言是一种自由软件编程语言与操作环境,是一套完整的数据处理、计算和制图软件系统,它是一种用来进行数据探索、统计分析和作图的解释型语言。它可以提供一些集成的统计工具,但更大量的是它提供各种数学计算、统计计算的函数,从而使使用者能灵活机动地进行数据分析,甚至创造出符合需要的新的统计计算方法。而在使用R语言进行数据分析处理时,当我们遇到很大的原始数据,但用来建模的数据较小,则可以先在数据库中进行整理,然后通过R与数据库的接口提取数据,数据库适合存放和整理比较规整的数据,和R中的数据框有良好的对应关系,这也是R中绝大多数统计模型的标准数据结构。数据库中大部分的运算都不需要消耗很大的内存。

5结语

篇(3)

江门世贸广场项目位于江门市东华路与迎宾路交汇处东南侧,上部结构是钢筋混凝土框架,剪力墙结构,设两层地下室,基础是预制钢筋混凝土预应力管桩基础。基坑平面呈扇形,面积约为16980m2,周长约为650m,场地已挖土,移土整平,高程约为3.9~4.9m。按规划要求,场地高程开挖前平整为2.8~3.3m,基坑底高程为-3.85m,基坑开挖深度为6.35~7.15m。基坑的西南方向,地表下方埋设有一条重要管线,在对基坑监测的同时需对管线的沉降和位移进行监测;基坑的东南方为一古庙,需监测其在基坑施工过程中的整体沉降量。

2基坑变形监测设计与实施

基坑的主要监测项目由支护结构桩顶位移、深层位移、支护结构应力、地下水位等项目组成。

2.1布设基准点

布设基准点的目的是在长期观测过程中提供稳定的起算数据。(1)位移基准点应布设在远离施工现场、结实稳定的地方。水平位移监测基准点3个,工作基点3个,编号为J1~J6;(2)沉降基准点的布设位置应选在远离施工现场且稳定的水泥路上。布设了3个水准基准点,编号为G1~G3。

2.2布设监测点

监测点的布设按施工设计图要求,以能反映变形为宜。基坑监测点在支护结构桩后每隔20m左右布设一点,监测点采用埋设观测墩的形式。沉降、位移观测点采用两点合一布设,即WY1-WY20,共20个。周边建筑物沉降变形点布设在能反映建筑物沉降与倾斜的位置,如建筑物的四角、大转角处、建筑物裂缝和沉降缝两侧。同时要求变形点埋设在建筑物的竖向结构上,标志采用“L”型钢筋,共8个(M1-M8),周边管线监测点布设4个(GX3-GX6)。水位监测点在基坑周边布设5个(SW1-SW5),测点用地质钻钻孔,孔深为10m。锚索应力观测点,按要求布设锚索应力计12个,编号为MS1、MS2…MS12。支护结构测斜观测管按相关要求,布设测斜观测管18个,编号为CX1、CX2、…CX18。

2.3监测方法

沉降监测使用天宝DINI03电子水准仪和配套条码铟钢水准尺进行观测。施测是以基准点G1为起闭点,观测所有的沉降点组成闭合水准路线。采用“后、前、前、后”的观测顺序对沉降点进行观测。位移观测使用徕卡TS30全站仪。在基准点J1上设站,检查J2、J4的方向和距离,检查结果满足规范要求后,以多测回测角法观测每个监测点,并进行平差计算其坐标,然后计算出监测坐标在基坑边横向上的位移。深部位移使用测斜仪进行监测。监测从孔底开始,每0.5m为一个测段,自下而上沿导管全长每一个测段固定位置测读一次。地下水位使用电测水位计进行监测。

3监测成果与分析

从2012年4月至2013年6月的14个月内进行了周边建筑物沉降观测,支护结构沉降、位移监测,管线沉降、位移监测,地下水位监测,锚索拉力监测及深部位移监测。本文主要对建筑物沉降、支护结构桩顶位移、地下管线及深层位移的监测结果进行分析。

3.1建筑物沉降监测

建筑物监测是指对基坑周边的华丰古庙进行沉降观测,华丰古庙周围共有8个沉降监测点,进行了沉降观测38期,监测成果见表1,典型监测点的沉降过程线。

3.2支护结构桩监测对基坑的支护结构桩共布设了20个监测点,进行了沉降监测37期,水平位移监测29期,监测成果见表2(对于水平位移,+号表示向基坑方向对于支护结构有两个方向的形变,结合点位布设图,对所有监测点进行分析发现:垂直方向上,支护结构向下沉降;水平方向上,整体有一个向东南方向位移的趋势,即:基坑西北侧的监测点向基坑方向位移,东南侧的监测点则背向基坑方向位移。垂直方向和水平方向的累计变形量都比较小,且呈现出相似的形变过程,即前期变形波动较大,后期逐渐趋于平稳,且变形最大值小于预警值,故认为支护结构比较牢固,形变量都在比较安全的范围内。

3.3地下管线监测

地下管线沉降量都比较大,沉降最小的GX6也有32.8mm,超过了预警值,最大的已达到120.1mm,远远超出了预警值。在发现沉降量较大之后,施工方采取了加固措施,后期管线沉降趋于稳定。基坑施工对管线水平方向的位移也有一定影响,变形量较大的GX5位移量已超过预警值。施工初期管线沉降量增加较大的原因为:基坑开挖破坏了基坑土体原有的应力平衡,引起临近路面下沉,导致地下管线竖向移动,伴随基坑开挖深度增加,管线的沉降量逐渐达到极限值,加之施工方采取了相应的加固措施,使基坑施工中后期管线的沉降趋于稳定。

3.4深部位移监测

各监测点的深部位移整体变形均较小,都低于预警值。深部位移主要有三种比较典型的变化情况:孔顶部和底部位移较小,中间位移较大;孔底部位移较小,顶部向背离基坑方向偏移;孔底部位移较小,顶部向基坑方向位移。CX9号测斜孔第30期(时间2013-1-10)在0~4.5m深处突然出现了一个较大的偏移,分析推测可能是由于邻近监测孔旁正在施工,施工过程造成了对表层土体的挤压,因而引起了土体表层整体的较大位移。在随后的几期观测中,该测斜孔位移趋于稳定。深部位移监测结果显示,最大位移一般出现在孔顶部或6.5~8.5m处,最大位移量都在安全可控的范围之内。

4结论

篇(4)

 

因此,我们认为案例研究作为一种重要研究策略的意义和潜在科学贡献在国内已经广为接受,不容质疑。国内案例研究者也普遍对案例研究的规范有了_定了解。佐证之一就是过去五届案例论坛的论文质量的大幅提升和学术影响的不断扩大。在基本解决了案例研究的认可和初步规范问题之后的此时,我们需要更多关注的是,案例研究是否提出了有趣的研究问题?数据分析过程是否足够严谨?是否做出了应有的理论贡献?目前答案还并不十分肯定。

 

这些问题的答案在国外管理学界则相对比较肯定。构建理论和检验理论被认为是实证研究论文广生理论贡献的两条根本途径(ColquittandZapata-Phelan,2007)。国际顶尖管理学期刊之一AcademyofManagementJournal(AMJ)在1963~2007年近50年间发表的论文中,理论检验型和理论构建型的论文数目都在逐年增长(ColquittandZapata-Phelan,2007)。理论构建型研究通常指案例研究、扎根理论、民族志等归纳式研究,也包括假说演绎式的实证论文。理论构建型论文虽然一直少于理论检验型论文,但差距越来越缩小,到2007年,两者的数量几乎接近。这一结论有力地证明了高水平国际期刊以及学者对包括案例研究在内的定性研究的重视和支持然而,近5年来本土案例研究在哪些具体方面取得了明显进步?哪些方面还有待提高?为此,在对本届案例论坛回顾之后,本文对近五届论坛报告的研究型案例论文进行比较分析,并针对目前存在的若干薄弱环节给出改进步骤。

 

二、论坛的主要观点和概况

 

本届论坛邀请了美国阿拉巴马大学JeffreyA.Martin教授等专家,为与会者带来了精彩的学术报告。Martin教授具有丰富的案例研究经验,在攻读博士学位期间师从KathleenEisenhardt教授,曾和StephenBarley和RobertSutton等著名案例研究专家一起工作过。他为论坛做了两场主题报告,其要点主要包括以下几个方面。

 

首先,Martin教授从一般定性研究入手,介绍了定性研究的几种类型,特别强调定性数据的研究、归纳研究、比较案例研究、民族志、扎根理论等虽属于不同类别的定性研究方法,但相互之间有重叠。在实际运用中,研究者常常组合运用这几种研究类型,但如何组合,并没有一个公认的"模板"。这并不是说各种定性研究方法可以随便地堆砌在_起,而是需要"协调"地结合在一起,以便得出更有意义的真理。Martin进一步指出对定性研究而言:⑴分析层次可以是个体、团队和组织;(2)样本规模可以是_个、几个或者许多个;⑶数据收集可以通过民族志、文档或者面对面访谈;⑷数据分析的手段可以是归纳法、演绎法或者两者相结合,可以用定性数据分析,也可以用定量的统计方法;(5)最后的理论模型可以是过程模型,也可以是因素模型,或者两者的结合。事实上,案例论坛的稿件中也有一些是基于定性数据的研究但并非案例研究。Martin教授重点介绍了多案例比较研究,作为定性研究的—个主要类型。他以自己的研究为例,说明了从选择研究问题、研究设计、数据收集和分析,到最后写作和发表的全过程。

 

值得注意的是,在数据收集方面,Martin教授认为,访谈时要使被访者专注于叙述他们自己的所作所为,或亲眼看到的其他人的行为。也就是说,应该防止让他们去描述那些他们实际上并没有参与的事情,例如在他们没有参加的会议上发生了什么。此外,通常要避免提问"为什么"这样的问题,因为找出事件背后的原因不是被访者的任务,而是研究者自己的工作(分析数据、解释关系,从数据中推导)。此外,数据收集需要花费大量的时间和精力,因此每次的数据收集工作应能转化为几篇论文。

 

在数据分析方面,Martin教授认为,所收集数据/证据的力度来源于跨案例之间的一致性,这就是所谓的复制逻辑。从相似的案例中找出相同的模式,能保证作者不会因为某个鲜活的特例而心猿意马。

 

Martin教授特别强调了寻找能指导案例研究的理论的必要性。他认为几乎没人能够宣称某个研究没有现存理论依据,文献中总能找到一些相关理论,可在某种程度上应用到数据分析中。因此,研究者应该去探寻现有文献的缺陷,而不能说没有相关文献。这样做有两重意义。首先,这能给读者——我们的最初评审人个框架来理解我们的研究贡献;这也能帮助研究者更好地专注于自己想要做的贡献。如果没有聚焦,那么研究者就容易在自己的工作可能产生的众多贡献中摇摆不定,导致最终没有完整地建立基于其中任何一个发现的理论。

 

新加坡国立大学的潘善琳(ShanLingPAN)教授做了题为"将企业实践提炼为学术论文:结构化、实用化、情景化(SPS)案例研究方法"的专题报告。丹麦哥本哈根商学院的李平(PeterPingLi)教授分享了其倡导的阴阳案例研究方法。他认为案例研究是开展本土化研究所必需的重要研究方法之一,当某个学术研究领域内存在差异较大的理论观点,特别是理论观点相互冲突时,阴阳案例研究法非常适合研究人员创建整合式的新理论。

 

在案例教学方法模块,厦门大学的沈艺峰教授剖析了案例教学的本质。复旦大学的包季鸣教授提出案例教学要体现全球化背景下的中国特色、体现培养目标的要求、体现学员的现实需求,通过即时性、进行性、追踪性案例来达到案例教学的效果。台湾大学管理学院的李吉仁教授对案例教学的定位和现状进行了深入的分析。香港浸会大学MichaelYoung教授和中欧国际工商学院付莘研究员分享了教学案例写作和课堂使用的经验和教训。

 

本届案例论坛共收到来自海内外94所院校的123篇稿件。经过程序委员会的初筛和评审专家的"双向匿名评审",最终收录论文集65篇,其中研究型案例45篇,理论构建研究论文13篇,教学型案例7篇。分论坛报告研究型案例23篇(实际录取率为26%);理论构建研究8篇;教学型案例7篇。论坛程序委员会的大部分成员以双向匿名方式经过两轮投票排序,评选出9篇最佳论文(其中6篇研究型案例、3篇教学型案例)。

 

因篇幅关系,本文仅简要介绍6篇获奖研究型论文。其中周江华等(2011)通过多案例研究(7家企业)深入剖析了我国山寨手机行业如何通过技术创新与商业模式创新在BoP(BottomofPyramid,金字塔底层)市场开展破坏性创新的过程。于天远和吴能全(2011)以珠三角地区的三家民营高科技企业为样本,结合使用了深度访谈和问卷调查等方法,构建了"组织文化变革模型”阐释了"政商关系的非人格化水平"与组织文化变革历程的关系。王世权等(2011)针对理论上关于母子公司关系网络作用于子公司创业的内在机理尚未理清的事实,对海信集团及其主要的13家子公司的发展进行了深入剖析,构建了相关的理论模型。于春玲等(2011)以上海家化、云南白药和晨光文具为研究对象,归纳出了中国情境下成功品牌延伸的影响因素及其相互关系。郑晓明等(2011)基于双元能力的理论视角,以海底捞公司发展历程为案例研究对象,系统研究了促进企业服务敏捷性形成的特征、过程和原因。王欢和汤谷良(2011)通过案例研究发掘了双汇成功实施MBO的一系列要素,通过双汇MBO"路径创新"的典型案例验证和补充了原有的MBO理论框架。

 

三、近5年案例研究论文规范性分析

 

这里,我们采用内容分析法,运用毛基业和张霞(2008)借鉴Dub6和Par6(2003)的方法所归纳的案例研究规范性指标,来评估近五届论坛报告的研究型案例论文的质量。这套指标便于"使得案例研究整个过程的每个步骤都在严格的控制下进行,尽可能避免研究人员的随意性和主观性。这些严格的程序和标准是我们进行案例研究时的参照,也可以用来评价一项案例研究是否达到了规范化要求〃(毛基业、张霞,2008,p.118)。

 

从数据分析结果来看,5年来论坛的研究型案例在各项规范性指标上几乎逐年提高。进步最为明显的方面包括明确的研究问题、说明相关理论、基于团队的研究、采用多种收集方法、引用原始证据。而有些方面相对仍然不足,特别是数据收集程序、数据分析过程,以及与现有理论的比较。考虑到有些规范性指标是笼统的评价,为获知更多的细节信息,以本届论坛报告的论文为样本,我们有如下进一步的发现。

 

研究问题方面。研究问题可以具体说明研究者试图想要知道或理解什么(Maxwell,2005),此外还起到两个重要的作用:帮助研究者聚焦研究和指导实施研究(MilesandHuberman,1994)。可喜的是本届论坛报告的案例中只有个别的没有清楚表述其研究问题;但也有个别论文,虽然提出了研究问题,但过于发散。研究问题所引致的研究必须是真正可以实施的,也必须是读者读完研究论文之后能够得到解答的问题(Maxwell,2005)。从这个意义上讲,每个案例研究都应该回答一个或若干具体研究问题,而这些问题最好在引言中就明确告诉读者。

 

理论基础方面。案例论坛_贯强调理论在案例研究中的重要性(毛基业、李晓燕,2010)。我们看到本届论坛报告的每篇案例都对相关理论进行了回顾,但也发现一些研究在指出缺乏对某现象的研究之后,所回顾的理论仅是走过场,没有指出现

 

有理论能够解释哪些方面、缺口在哪里、为什么现有理论没有对该现象给出满意的解释?案例研究的研究问题可以是理论驱动型,也可以是现象驱动型(EisenhardtandGraebner,2007)。对于那些由现象驱动的研究问题来说,研究者必须强调此现象的重要性和现有理论的贫乏(EisenhardtandGraeb-ner,2007)。

 

理论抽样方面。数据收集的第一个步骤是确定数据来源,即案例对象的选择。案例的选择要符合理论抽样(GlaserandStrauss,1967),而非统计抽样。有些研究在确定研究对象时不太考虑案例与研究问题的匹配性,而是有选择知名企业的倾向。

 

本届论坛中案例对象更加多样化、有趣和独特,但是多数作者却没有清楚交代选择该案例的理由,即没有说明理论抽样过程。

 

数据分析方面。样本论文中多数作者都会交代自己的数据分析方法,但有些只是简单交代了一下步骤。即使有些作者宣称自己采用了扎根理论中的二步编码法(StraussandCorbin,1998),或者是采用从经典案例研究文献中归纳出的其他数据分析方法,但读者看到的只是机械的模仿,而没有看到诸如以下信息:理论如何指导了作者的数据分析,数据分析过程中产生了哪些中间构念和最终构念(甚至要给出数量),构念与构念之间的关系是如何确立的。

 

与现有理论比较方面。案例研究的终极目标是要构建新的理论,理论构建的一个特征是将涌现的概念、理论或假说同现有文献进行比较(Eisenhardt,1989)。样本论文中有很多尽管理论回顾很到位、案例数据也很丰富、数据分析也很严谨,但最后_步,只是匆匆做个总结便以此结束,以至于读者无从知晓此案例研究到底产生了什么样的理论贡献,例如对哪些现有理论进行了修正或情境化。

篇(5)

关键词:信用卡;信用卡数据;信用卡业务;数据分析

近年来,很多银行为促进信用卡业务发展投入了人财物力。截至目前,信用卡业务覆盖了全国各地,发卡数量急剧扩张,设备装机数量形成相当的规模,产生了大量数据。这些数据有着重要作用,可以用来进行客户关系的管理,进行风险管理,分析收益,进行绩效评估,为银行更好的发展业务提供有效的科学数据支持。通过数据分析,银行能够对客户进行分类,针对不同群体的客户实施不同的服务策略,为银行卡的营销提供准确的数据信息。

1. 信用卡研究内容及风险类型

本课题主要从信用卡数据库设计和总体技术两个方面入手,以数据仓库以及数据集市形成理论基础,通过企业目前具备的信息系统的发展现状,用实际开发的项目与开发成果做指导,阐述了我国某大型银行在引用卡数据分析集市中在设计方面的价值实现。

随身携带大量现金不仅不安全也十分麻烦,因此银行设立了一项信用卡业务,这也是一种信贷服务。信用卡通常是一张小小的塑料卡片,长、宽、厚都有固定的尺寸,小巧轻便,银行或是发放信用卡的企业会根据持卡人的信誉与财富状况派发此卡,利用信用卡可以在消费的时候免除现金,等到结账的时候再一起还钱。除了一些和金融卡相关的信用卡,大部分的信用卡都与借记卡与提款卡有区别,其最显著的特点就是不会直接扣除客户账户的资金【1】。

2. 信用卡数据分析系统

银行的信用卡管理信息系统,以数据仓库为基础,结合银行的业务需求,通过对当前存在的业务数据的分析,将主要的消费群体特征,如性别、年龄、学历等呈现给管理人员,主要潜在的风险人特征呈现给管理人员。本设计按照软件工程的原理、对信用卡数据分析系统的系统需求,系统分析,系统设计,数据库设计以及系统测试作了详细的阐述,同时介绍了数据库和asp和网页设计基本知识,如何在实现网页于数据库的连接,如何存取数据等。本系统的主要功能模块包括:用户管理模块、效益分析模块、风险管理模块。其中风险管理模块提供了图形报表功能,为系统使用者提供了更为直观的数据信息,使用户能够轻松地使用系统【2】。

2.1信用卡数据来源的多元化

目前办理和使用信用卡已经十分频繁,国内的信用卡业务的信息管理包括了进件、客户收单、客户服务及催收等多个子系统,将这些系统与外部数据相连就可以具备诸如个人征信等功能。然而,各个子系统之间并没有形成内在联系,就连格式与编码都明显不同,数据分析的难度很大【3】。因此对数据进行规范和统一迫在眉睫。

2.2 信用卡数据的关联和整理

客户的年龄、性别、收入状况、授信额度等构成了客户的基本信息,这些信息之间的关联性会影响到客户的消费状态,反之也一样,客户的消费也会影响授信额度。所以,子系统之间是有紧密的数据联系的。比如,风控部门时不时检查一下客户的消费状态,分析将会产生的消费行为,从各个系统的数据关联、整合起来获得客户的全面资料,反馈到市场部,以致决策者做出积极的决策。

2.3 信用卡数据量庞大

当今,越来越多的人使用信用卡,随之而来的则是客户数量、交易额度、授权记录等的陡然增加,这时候就需要用到针对个人账户、客户、交易的大批量数据操作的信用卡分析了。本课题利用我国一个大型国有银行作为调查对象,发现,这一银行的信用卡用户有一千八百万,交易额每天能达到八十万,还有一些积分、通讯等业务,况且还有预留数据分析的时间,因此数据分析效率问题就凸显出来。

3. 信用卡数据分析平台

怎样在许多数据源中,建立一个实用、高效的数据分析平台系统是现在国内信用卡行业最想解决也是最难解决的一项研究。

数据分析平台是以应用于报表类和数据挖掘类两种数据分析

为目的,分析企业如今的信息数据系统以及业务发展的需要,研究数据分析平台的规划特征,这样就可以实现一个设计完善的数据仓库及数据分析集市和生产环境的信息分析集市。

4. 信用卡数据架构的设计和实现

信用卡数据以信用卡数据分析的独特特点,建立一个实用、高效、现代化的灵活的信用卡分析集市,而且也在银行中实践验证成功,这一次的验证也是这一银行首次有了信用卡数据分析集市。相对于传统的信用卡管理方式来说,有以下几个方面的优点:

1、通过对信用卡相关的6大信息系统源数据的关联和整合,极大丰富而又全面了许多数据源,其中有进件、催收、交易、电话服务、收单以及积分等多个系统,也实现了整体化的数据分析整合。

2、为了让信用卡的数据可以融合edw,让企业信息保持一致与完整,需要针对edw的数据模型进行扩充,尤其是要新增4个主题域信用卡相关实体。因此,改造原架构,变更为系统更易于扩充整合新的源系统―企业数据仓库―数据分析集市这三方面的数据源系统,如此也就能让信用卡的数据分析平台得到更为全面的数据支持,从而降低数据分析的成本。

3、数据结构需要面向数据分析优化设计。为实现在海量数据(l0tb)级别的成功运行,必须要以分析信用卡的可能风险、财务会计、服务渠道与市场状况等为先决条件,要实现信用卡可以灵活报表、多层次统计与挖掘数据,让汇总层数据的设计更加出色,才能使其有充分扩展的可能性。

而基础层、汇总层、应用层3大层次构成了从数据源到应用数据流向的数据分析集市系统。其中,企业数据仓库整合来自各个源系统的数据主要用到其基础层来存储细节和历史数据。而数据集市,支持应用层与数据挖掘一同到汇总层。这因为如此,使多方面灵活分析报表中更多的用到应用层。星形模型与规划、反规划渐渐汇总形成三层次的结构特点。而不同的数据粒度需要各个层次在内部对主题域及实体进行合理的规划,这样才能满足多层次需求。

5. 结语

迄今,发达国家的信用卡业数据分析手段多样且先进,数据来源全面而丰富,同时也存在不少问题,尤其是在美国的金融机构中,因为欠缺一体的制度,就无法形成统一、方便、高效率的信息分析系统,也没有可供进行分析的数据库、受到普遍认可的共同指标以及可以共享信息的平台等。一般会形成各部门、小组及个人之间互不干涉,数据库的来源地、衡量标准各不相同,研究报告时有重复缺乏全面,有时更是互相矛盾。这些都是我国目前信用卡数据分析常见的问题,这也是今后需要避免和解决的问题。

参考文献:

[1] 穆欣欣 . 中美银行信用卡业务之比较分析 [期刊论文] -经济师2011(7)

篇(6)

近半个世纪以来,科学技术迅猛发展,新知识、新成果不断涌现,数字化特点凸显。根据2002年度美国国家科学基金会资助的研讨会报告,目前我们收集的数据需求呈指数增长,而数据分析的需求呈二次增长,但统计的专业人才呈线性增长并且目前统计学的教育远远落后于实际需求。邵启满教授“给当今毕业生的建议,就两个字:统计”。我们当前的数理统计课程的教育还处于“非常狭窄的计算机时代前的统计学”,严重滞后于不断发展中的现代统计学。大部分的研究生教科书内容仍然是从统计量到点估计,继而假设检验、回归分析和方差分析等基础知识的呈现及统计方法的推导。课程的教学大纲中也以理论推导为重点,注重统计方法的理论基础和演绎证明,而对于实际应用较多的现代统计方法缺乏介绍,忽视与各种统计软件的结合。因此,我国工科研究生毕业论文实验数据处理手段较为低级,对异常数据缺乏理性说明。我们的研究生往往在学完数理统计课程后,虽然掌握了基本的统计方法和推导,但进入科研工作碰到实际数据时,对数据的收集、处理和分析仍然一筹莫展。这也是促使我们教学理念转换的主要原因,研究生数理统计课程应以现代统计应用为中心,不仅要求学生理解和领会统计思想,还应正确使用统计方法,根据计算结果作出正确的推断,给出合理的解释。

2教学变革的尝试

由于课程的实用性和重要性,学生普遍对数理统计课程比较感兴趣。如何调动学生的主观能动性,变“被动灌输”为“主动探索”,在有限的课时内学习较多的统计知识呢?我们教学变革主要采取如下措施。

2.1教学内容的调整为了避免重复学习,我们对原来本科时已经学习的统计量与抽样分布、参数估计这部分内容只简单复习,温故知新,不再细讲。而对目前生物医学工程中应用较普及的方差分析、回归分析,我们补充了生物医学方面的实例,运用软件进行统计分析,并对运行结果详细讲解。对于教材未介绍的非参数检验和实验设计部分,补充几种常见的统计方法。对于较复杂的多元统计和现代统计学部分,我们引入PBL教学模式,通过分组、问题探究、成果汇报、反思和完善几个步骤,完成学习内容。

2.2教学方式的改进在课程的教学中,我们尽量做到深入浅出,回避复杂的推导、运算和证明,强调对统计思想的理解以及统计方法的运用,同时注重和统计软件的结合。统计从某种意义上说是与数据打交道的科学,没有实际数据的统计分析,不利于学生对统计方法的理解和应用。教学中如果仍然当成数学课程,注重统计理论中定理和公式的推导演算,而缺乏实际的数据分析训练,学生就无法对统计的广泛应用性及重要性有深刻的体会,也不利于保持和提高他们的学习兴趣。我们补充了生物医学方面的实例,通过数据分析,提高他们对统计方法的实际应用能力,也为后续PBL教学的顺利开展做准备。大部分学生在本科阶段已学习Matlab软件,而且工科学生计算机应用能力较强,因此我们要求学生自学一门统计软件(如SPSS、R等)或使用Mat-lab,对所有的实例在软件中实现数据分析。软件输出的是数值或图表,并没有详细的解释、分析和结论,学生必须结合数据背景知识,应用所学统计方法,进行分析推断,最后给出结论和合理的解释。

2.3考核方案的变革注重平时考核,淡化期末考试。考试不是最终目的,只是促进学习而已。因此,成绩是对学生学习情况的全面评价,不仅包括教材知识点的掌握情况,还有自主学习和实际应用的能力。我们将PBL案例分析的评价和期末考试的成绩各设置为50%的比例,鼓励学生自主学习,提高实际数据分析的能力。

3结合PBL教学模式

统计学的飞速发展要求研究生掌握必备的统计基础知识外,能够进行知识的自我更新,具有不断学习现代统计新知识的能力。PBL教学模式在提高学生分析问题、解决问题的能力,培养学生成为自主学习者、终身学习者等方面已被广泛认同。虽然生物医学工程专业研究生基础知识比较扎实,但统计学的发展以及软件的学习交叉,要想学好这门课程并不轻松。在研究生教班开展PBL教学的有利条件是:①教班人数较少,分组进行问题探索可以实现。②学生对数理统计课程比较感兴趣,积极性较高。③现代统计学和计算机科学紧密联系,但医学工程学生计算机应用能力较强,在统计软件的学习和编程方面具有优势。④教研组在数模竞赛培训和本科毕业设计中积累了一些素材,可以将内容完善成PBL问题。我们引入PBL教学模式,进行了初步探索。

3.1前期准备推荐一些统计应用的网站和书籍。简单介绍前沿的方法和知识,补充回归、相关、时间序列分析以及实验设计等内容,对于随机模拟、MC-MC方法也举例说明。教师将原先积累了一些实例设计成若干问题,让学生进行选题,组成学习小组(每组5-8人),确定分工。我们将多元统计分析和传染病预测的案例编写成4个问题,提前半个月交给学生,等他们分组确定后,分别给予一定指导。

3.2问题探究小组成员分工合作,查找文献、学习算法,围绕选定的问题进行准备。通过交流和讨论,将各自学到的知识进行整合,进而运用这些知识重新分析上一阶段提出的问题,思考并提出解决方案。最后,对问题形成一个附有详细统计算法和计算结果的论文报告交给教师。

3.3成果展示和汇报各组将问题的解决方案和结果做成PPT,在课堂上进行汇报。其他小组可以提问和质疑,开展课堂讨论。教师预先阅读各小组的论文报告,引导学生的课堂讨论,针对学生模糊不清的问题进行讲解,强调重点和难点,对每个小组的报告给予建设性意见和评价。

篇(7)

信息时代,数据俨然已成为一种重要的生产要素,如同资本、劳动力和原材料等其他要素一样,而且作为一种普遍需求,它也不再局限于某些特殊行业的应用。各行各业的公司都在收集并利用大量的数据分析结果,尽可能的降低成本,提高产品质量、提高生产效率以及创造新的产品。大数据无处不在

“大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方法,成为新发明和新服务的源泉,而更多的改变正蓄势待发……”互联网专家维克托·迈尔一舍恩伯格在《大数据时代》一书中这样描述大数据。在这个时代大数据无处不在。Gartner公司的分析师声称信息量每年正以最少59%速度在递增。IDC最新的数字宇宙(DigitalUniverse)研究估计,到2020年世界上的数据存储总额将达到35 ZB(zettabytes)(lzettabyte等于一万亿GB字节)。

信息爆炸让数据像空气那样无处不在。和朋友一起吃饭,对新上桌的美味进行拍照,上传到自己SNS账号与更多的人分享。这个过程在产生大数据;在淘宝上购物,选择中意的物品,填写送货地址,点击确定,进入付款页面,选择付款银行付款,这个过程也在产生大数据。工厂机器的GPS数据、维修记录等也是大数据,产品销售记录、客户行为习惯资料等也是大数据;矿山、气象等资料也是大数据;平安城市计划中的物联网更是大数据。

大数据来自无所不在的IT设施,人人成为了数据制造者:短信、微博、照片、录像、可穿戴设备产生的信息都是数据;数据来自无数自动化传感器、自动记录设施,生产监测、环境监测、交通监测、安防监测等等;来自自动流程记录:刷卡机、收款机、ETC、互联网点击、电话拨号等设施以及各种办事流程登记等。大量自动或人工产生的数据通过互联网聚集到特定地点,如电信运营商、互联网运营商、政府、银行、商场、企业、交通枢纽等机构,形成了大数据之海。总之,你信或不信,大数据就在我们身边。

数据分析才是关键所在

拥有大数据并不是我们的目的,我们的目的是从这些数据中了解真实信息,使数据能够真正在管理、决策、监测、评价,以及人们的生活中产生价值。大数据分析上可影响国家政治,没有大数据分析奥巴马就不会赢得美国总统大选;下可改变我们的日常生活,就连追女孩子都可以使用大数据分析的方法来制定策略。

“面对海量数据,谁能更好地处理、分析数据,谁就能真正抢得大数据时代的先机。”这几乎是业界所有人的共识。对海量数据的分析已经成为了企业、政府非常重要且迫切的需求。在数据分析方面的能力将决定企业市场份额的得失、政府决策能力的高低。大数据分析让IT有机会增加价值,增进业务部门间的关系,增加收入和提高利润。

大数据分析对医疗行业的发展非常重要。医疗行业早就遇到了海量数据和非结构化数据的挑战,大数据分析技术的发展让这些数据的价值得以充分发挥,其中,基因组学是大数据在医疗行业的经典应用。以云计算为基础的大数据分析技术不仅加速了基因序列分析的速度,也让其成本不断减低。

经济的快速发展促使城市机动车辆大幅度增加,传统的交通系统已难以满足当前复杂的交通需求,交通堵塞成为城市的通病。随着交通信息化与交通规划的融合程度越来越高,大数据发挥的功能和信息获取渠道都将更加广泛。中国城市交通研究中心吴洪洋博士表示,公交刷卡数据挖掘、出租车轨迹挖掘、手机数据挖掘、社会化网络数据挖掘将成为未来大数据应用的主要方向。

大数据分析技术加速制造业从传统的以生产为核心向客户需求为核心转型。在大数据分析技术的驱动下,一些制造业的企业开始转向与订单用户或者最终消费客户群进行直接的互动。通过更透明、更可用的数据,企业可以释放更多蕴含在数据中的价值。实时、有效的数据可以更好的帮助企业提高产品品质、降低生产成本。企业领导者也可根据真实可靠的数据制订正确战略经营决策,实现企业效益最大化。

破解密码——Hadoop

数据的非结构化已经成为企业的重大挑战。由于这些数据的结构问题及大数据类型的复杂关联,导致无法应用现有的传统技巧进行大数据分析。这为企业带来了新的任务,需要开发一套全新方法,不仅能够处理传统数据,而且可以便捷地分析和应用这些新兴数据。Hadoop恰恰可以满足大数据分析这种需求。

Hadoop已成为公认的新一代大数据处理平台。Hadoop是一个能够对大量数据进行分布式处理的软件框架。它以谷歌的MapReduce及谷歌文件系统技术研究论文为基础。Hadoop充当着众多“大数据”分析工具的底层技术,旨在对由web访问、服务器日志及其它各类数据流所产生的海量数据进行筛选,在分布式环境下提供海量数据的处理能力。

Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。它以计算元素和存储会失败为前提,维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop以并行的方式工作,通过并行处理加快处理速度,能够处理PB级数据。此外,Hadoop依赖于社区服务器,所以它又具有低成本的优点。

目前,几乎所有的主流厂商都提供了基于Hadoop的大数据分析工具。如IBM、EMc、英特尔、甲骨文等都纷纷投入到Hadoop怀抱。

IBM很早就开始在实验室尝试使用Hadoop,但是,直到2012年才推出了首款大数据分析产品:IBM InFoSphereBigInsights。该产品既可以分析数据库中的传统结构化数据,也可以分析例如文本、视频、音频、图像、社交媒体、点击流、日志文件、天气数据等非结构化数据,帮助决策者根据数据迅速采取行动。

EMC基于Hadodp的发行版PivotalHDs可以让数据团队和分析团队在该平台上无缝共享信息、协作分析。其最大的优势是能够与Greenplum数据库进行整合,而不仅仅是在Hadoop中运行SQL这么简单。

英特尔推出的Hadoop发行版不但改写了Hadoop框架的核心功能,强化对处理器指令集的支持来提高效能,可直接支持Xeon进阶运算加密指令集AES-NI.并在数据储存到HBase的过程。用芯片原生的加密功能保护,这是英特尔进军大数据的杀手锏软件。