时间:2023-05-24 17:22:44
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据分析设计范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
关键词:习题设计;发展 ;数据分析观念
【中图分类号】G 【文献标识码】B 【文章编号】1008-1216(2016)12C-0029-02
简单的数据统计重在让学生经历数据的收集、整理和分析过程,掌握一些简单的数据处理技能,感受数据蕴含着的信息,培养初步的数据分析观念。在课堂教学中,这一核心知识受到教师的足够重视,然而我们的课堂时间有限,仅仅依靠教材提供的有限的统计活动还不足以发展学生的数据分析观念。如果能够依托统计教学的核心,灵活设计习题,从不同侧重点进行有针对性的训练,有意识地让学生运用数据分析解决问题,将能发展学生的数据分析观念,使习题成为教材的有益补充。
一、丰富统计素材,主动收集整理数据
培养数据分析观念的首要方面是引导学生有意识地从数据的角度思考有关问题,就是遇到有关问题时能够想到通过设计简单的数据收集计划收集所需数据,解决所求问题,从而体会到数据是有用的,数据中蕴含着我们想要的信息。教师在进行练习设计时,要考虑不同年龄学生生活经验和认知水平的差异,赋予习题鲜活的背景,激励学生主动收集整理数据。
在学习了简单的统计图表之后,我设计如下统计练习:
夏天到了,吃冰激凌成为很多孩子的爱好,学校门前的张老板想通过一个调查来了解哪种口味的冰激凌在我们学校最流行。
(1)小组讨论:要完成这项任务,你们需要做哪些工作?请在下面的表格中,圈出需要的选项。
1 确定调查时间,设计调查用的统计表。
2 以小组为单位,每班随机抽取15名学生,对他们最喜欢的冰激凌进行调查统计。
3 以小组为单位,对我校学生的年龄进行调查统计。
4 汇总统计表,绘制条形统计图。
(2)小组合理分工,展开调查统计。
(3)根据分析结果给张老板提出一些建议。对爱吃冰激凌的同学又会提出什么建议?
吃冰激凌是孩子们的最爱,与学生的生活密切相关,很容易引起他们的共鸣。学生意识到要想帮张老板解决这一问题,调查收集数据是必需的,有用的,激发学生热情投身学习活动。真实的统计数据,会帮助张老板解决现实的问题。而对爱吃冰激凌的同学提建议,又有意识地对学生进行健康常识教育。由扶到放的习题设计,帮助学生逐步提高开展实际调查的能力。
二、精心设计问题提高分析数据信息能力
从不同角度分析数据,以便从数据中获得尽可能多的信息,并发现蕴含其中的一些规律,是数据分析观念的基本内涵之一。练习中通过精心设计问题串,引导学生从不同角度理解和分析数据信息,感受数据分析方法的多样性,并为发现和提出更有意义的问题提供机会。
小明家每两个月交一次水费,每次用水的吨数如下表:
月份 1~2月 3~4月 5~6月 7~8月 9~10月 11~12月
用水量(吨) 8 5 6 16 7 6
根据上表回答以下问题:
(1)从上表中知道,用水量最多的是哪两个月份?最少呢?分别占全年总用水量的百分之几?
(2)全年平均每个月用水多少吨?
(3)根据生活常识,你能解释一下为什么7~8月份的用水量最多吗?
(4)如果想说明7~8月份的用水量比全年的1/4还多,选( )统计图表示最容易使人明白。
本题中前两题从一组数据的极值入手,大致了解数据的分布范围,对于家庭用水量有个初步了解。然后通过计算解决其中一个月份与全年之间的关系,并通过平均数分析用水情况,对于出现的极端情况,尝试利用生活常识进行解释,使学生体会极端数据出现的原因,最后通过选择统计图,加深对各种统计图的特征的把握,进一步增强学生根据解决问题需要灵活选择统计图分析数据的能力。
三、连贯使用数据提高收集整理数据意识
对于同样的数据,由于背景和目标不同可以有多种分析的方法,需要根据问题背景选择合适的方法。每年学校都会组织学生进行体检,我将学生的身高情况及时收集,保存。在解决“ 铁道部门规定,儿童身高在120厘米以下乘火车免票,120~150厘米之间享受半价。我们班有多少人乘火车可以享受免票?有多少人需要购买全价票?”这一习题时,我组织学生讨论并形成一些可行的收集学生身高的方法,将最近学生体检的身高数据及时呈现在大屏幕上,学生感到非常惊讶,感到老师真是个有心人,根据提供的数据学生很快列表整理信息,顺利解决问题,老师这种收集和整理重要数据的习惯,使学生也受到潜移默化的影响。这时,我进一步追问,看到这些身高的数据,它们还能帮助我们解决什么问题。学生想到可以了解自己身高在班级处于什么情况,学校可以根据身高给我们定做课桌椅,可以定做校服……这时我又呈现,定做校服时大号、中号、小号和特号相关的身高要求,然后让学生根据需要重新对刚才的数据进行分组整理。通过变换问题情境,使学生体验到同一数据由于要解决的问题不同,整理、分析的方法往往会不同。
到了五年级学习了折线统计图,我再一次将学生身高情况呈现给学生,不同的是这次我将每个同学1~5年级的身高情况都呈现出来,学生感到非常兴奋,“你能将自己这5年的身高情况绘制成折线统计图吗?”,学生绘制非常用心,在组内交流近5年身高增长情况时更是积极主动,分析得头头是道。这时我又引导学生根据自己身高增长情况对六年级的身高进行预测,并学习老师,做一个“数据收藏家”,记住自己的身高,到时看看自己预测得准不准。
等到六年级复习时,我再次呈现,学生将六年来的身高增长情况绘制完整,并检验自己的预测,同时对自己15岁时的身高情况再次进行预测,此时,给学生增加了我市近年来男、女生平均身高增长统计图,发现男女生13~15岁身高增长的一些规律,很多同学又调整了预测。同样的身高数据由于解决的问题不同,分析方法大不相同,对数据进行横向及纵向的比较,会使我们的判断和预测更准一些。
四、巧设矛盾冲突促进动手实验能力提升
游戏是激发学生主动参与统计活动的很好方式,在游戏实验活动中通过数据体会概率事件的随机性,在教学可能性时,我设计这样一题:
小明和小军两人玩游戏,袋子里放有2个和1个,每次任意从中摸出两个图形,摸完后放回,如果摸到的两个图形能拼成平行四边形为小明赢,如果能拼成小房子图形,则是小军赢。你认为这样的游戏公平吗?同桌的同学玩一玩,看看拼成哪种图形的人赢的次数多?想想为什么?
游戏中的三个图形中有两个是相同的,任意从中摸两个,结果只有2种情况,学生很容易认为游戏是公平的,实际上两种情况出现的可能性大小不同,极易引发学生争辩,促使学生主动通过实验活动求证结论。动手实验正是学生体会随机现象的最佳路径,通过学生的实验,认识到游戏的设计是不公平的,与原有猜测产生冲突,学生急于一探究竟,发现小军赢的可能性会大一些。当然,游戏试验中,也会出现拼成平行四边形的次数等于或超过小军的现象,这一非常规情形的出现也是体会随机现象的重要资源,使学生深刻体会小军赢的可能性大一些,游戏是不公平的,但是小军不会一定赢,更有利于学生感悟随机现象的特点。
五、适度综合运用,全面感受分析数据的意义
统计与概率的内容和其他数学领域的内容有着紧密的联系。这部分课程的教学,应为发展和运用比、分数、百分数、度量、图像等概念提供活动背景,为培养学生综合运用知识解决问题能力提供机会。
王阿姨在汽车销售公司上班,工资由基本工资和销售奖金组成,即每销售1辆汽车给予一定数量的奖金。下表显示王阿姨今年3~6月份销售汽车的辆数与工资情况:
销售汽车辆数 8 10 11 12
月工资(元) 3000 3300 3450 3600
根据上表提供的信息你能算出王阿姨的基本工资是多少,每销售1辆汽车的奖金是多少元吗?
本题紧密联系社会生活实际问题,学生需要在认真理解题意的基础上,借助计算分析题中的数量关系,发现不同信息之间的联系,从而得出正确的计算方法,提升学生数据分析能力,在综合解决问题的过程中全面感受分析数据的意义。
关键词:数据分析;数据挖掘;大数据;云计算
0引言
商业银行作为经营信用、货币的企业,面向的客户是几乎全方位的,同时银行业的竞争也是异常残酷的[1]。从网点、ATM、POS、网银、手机银行乃至其他网络信息等各类渠道数据信息中,挖掘、分析出有效的数据,可以增加营销效率、加快产品创新,快人一步扩大业务发展空间和市场份额[2]。大数据可以使商业银行决策由经验依赖到数据依赖的转变,实时、深入地把握业务和市场动态,从而更加科学、有效地决策,让商业银行能够稳健、可持续发展[3]。大数据的挖掘、分析可以有效地提高商业银行精细化管理水平,在风险控制、成本核算、资本管理、绩效考核等各个方面发挥出巨大作用,让经营管理能力大幅提升,更理性、更高效、更精确[4]。
1大数据技术
1.1HadoopMapReduce技术
Hadoop是一种分布式系统的平台,通过它可以很轻松地搭建一个高效、高质量的分布系统[5]。Hadoop的最核心的设计思想:MapReduce是Hadoop的核心组件之一,Hadoop主要包括2部分:一是分布式文件系统HDFS,HDFS为海量的数据提供了存储;二是分布式计算框MapReduce,为海量的数据提供了计算。MapReduce是大规模数据计算的利器,Map和Reduce是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集。Hadoop采用并行工作模式,同时维护多个工作数据副本,确保失败的节点能够重新分布处理,具有可靠、高效、可伸缩、低成本的优点。
1.2NOSQL数据库技术
NOSQL(NotOnlySQL)数据库是指非关系数据库。这是相对于传统关系数据库提出的概念,随着Web2.0网站的兴起,数据量越来越大,传统关系型数据在处理大数据、实时读写以及多表联查已经越来越力不从心,而NOSQL以键值对存储,机构不固定,每个元组可以根据需要增加、减少键值对,减少了时间和空间的开销,同时NOSQL可以处理大数据,能够良好地运行在廉价的PC服务器机器上,便于扩展[7]。
1.3内存分析技术
内存分析(In-memoryAnalytics)技术是在内存中直接获取分析数据。随着64位操作系统的普及,系统可用内存大幅度提升,同时由于工艺不断成熟,内存容量不断,价格不断下降。由于内存容量暴增,人们开始直接将数据预读到内存中,对内存中的数据进行分析加工,而不用如传统的那样将数据反复不断地读入内存、写入磁盘,从而极大地提升了数据分析效率。
2商业银行数据应用现状
目前,商业银行对于大数据的挖掘还处于起步阶段,没有一个在设计之初就目标明确的定位于大数据挖掘、分析的系统[8]。现有的几个与数据挖掘相关的管理信息系统有PCRM系统(个人优质客户系统)、RPTS系统(综合报表系统)、GDP系统(基础数据平台系统)等,这些系统在设计之初就具有先天的局限性,它们仅仅是针对某个或者某几个业务部门的应用开发的,远远还谈不上大数据分析。同时这些系统由于没有统一的规划设计,物理架构大致相同,一些重要数据,如定期、活期主档及明细表全部重复加工,造成人力、财力的浪费,效率较低[9]。在上面提到的几个管理信息系统中,GDP系统是相对比较典型的应用,现在对GDP系统物理架构和逻辑架构进行分析。如图1所示的GDP物理架构图,采用成熟的3层B/S架构,2台乃至多台PC服务器部署WEB前置服务,做表示层;由1台小型机部署应用服务程序,做逻辑层;1台小型机上运行数据库系统,做数据访问层。数据库由控制库和日终库组成,其中控制库使用SYBASEASE库,将不同的处理任务划分成一个个的作业链,作业链中包含不同的作业,通过对作业和作业链调度次序进行控制;日终库采用SYBASEIQ库,对日终数据进行高效处理。控制库与日终库可在同一台小型机上。2台PC服务器使用IBMWebSphere部署高可用集群,提供WEB服务,包含作业调度服务和前台展示。
3构建商业银行数据分析
系统模型商业银行作为传统金融企业,与新兴的互联网企业不同之处在于:行内的数据中含有许多机密、隐私的信息,同时无论媒体还是客户都关心银行数据的安全性。在数据挖掘、分析包括使用的时候,效率与安全的选择需要慎重考量。为了避免资源的浪费,本文在设计模型前,必须对现有数据进行详尽分析,剔除重复、无效的数据,将有效数据进行分类。商业银行数据应用中大致可以分为2种类型:一类是高可靠数据,以数据的准确性为主,需要提供给统计部门、核算部门及监管部门,对于这类数据我们必须在使用前进行数据清洗、筛选后,才能够真正使用;另一类则不需要很精确,只需要一个大致数量级或者一个大的方向,主要供决策层、管理经营层及产品研发、营销等部门使用,对于这类数据其实才是真正符合现今大数据的概念,无需对数据进行清洗,可以直接进行挖掘。针对侧重于安全可靠和快速高效这2种不同的需求,以及结合商业银行现有技术发展,本文设计出下面2种模型。
3.1高可靠模型
基于商业银行对数据的精度要求较高,在设计模型时首先考虑的是数据的完整性和安全性,其次才考虑效率等其他的问题。因此,本文对现有成熟和完备的商业银行GDP系统3层架构和业务定位深入分析的基础上,进行了一些改进,克服现有GDP系统3层结构的不足。
3.2高效率模型
对于商业银行精度要求不高,但是非常具有时效性和海量的数据,不需要考虑数据的完整性、安全性。为此,本文使用一些互联网的新技术以及开源的软件,抛弃原有3层架构,引入大数据挖掘新技术,实现大数据的挖掘需求。
4数据分析
当将海量的数据挖掘出来后,怎样使用这些数据?投入这么多人力、物力当然是希望它能带来更多的收益,怎样将数据变成收益?这就需要对数据进行分析,结合自身以及行业的现状进行分析。在传统的数据中,以少量的数据为依据,以数据的准确性为目标进行的统计工作,其实这样的统计是有偏差和片面的。而大数据则以海量数据为依托,强调数据的完整性、综合性和复杂性,通过答题轮廓,捕捉发展脉络,确定未来发展方向。从决策层出发,大数据可以为我们更快地找出未来银行的发展方向,最大限度地避免在决策方向上出现偏差。一直以来商业银行的决策是由个人或小团队进行的,但是在这些决策中往往有很多依靠过往的经验、主管判断的,这就带来决策缺少扎实的依据,很多决策适合一些地方,但在另外一些地方却未必很适合。特别是现在科技发展日新月异,对传统银行业带来了巨大的冲击,原来的很多经验不但不能带来帮助,甚至会制约决策层的思维,决策远远满足不了前瞻性、有效性和针对性的要求。
而大数据的分析则可以更准确、更快捷地帮助决策层把握脉络,从而做出具有前瞻性、及时的、精准的决策。从管理执行层来看,通过大数据的分析可以更快捷地推出精品产品,更有效地营销客户,更高效的使用行内各种资源,提高管理能力,创造更多利润。通过大数据的分析,管理层能够分析出哪些产品受哪些客户的喜好,分析各类客户都有什么需求,可以根据这些有针对性地开发一些受客户欢迎的产品。可以对一些高质量的VIP客户进行分析,对他们的资金利用进行跟踪,尽量将资金链锁定在行内,利用资金空闲时段进行中间业务的营销,可以对这些客户在贷款的利率上进行一定幅度的优惠等等。可以对基层行、网点人员效率进行分析、优化,对行内的电子设备,如ATM、POS机等进行分析,在使用量庞大的地方可以加大投放,收回一些效率低下的设备等等。从监管层来看,通过大数据的分析可以更加直观、有效地对商业银行的合规经营做出监管。可以从大数据中对各地的经营、营销费用、采购招标等需要进行监管的地方进行分析,一旦发现某个地方有异常情况,就可以进行重点关注、重点监管,而不是像以前那样无差别的监管,或者靠经验去进行监管,从而能够更快、更有效地进行监管,提前去发现问题,制止问题事件的扩大,为商业银行减少损失,更有效保障商业银行的利益。
5结语
大数据在商业银行决策、生产运行和经营管理中越来越重要,构建商业银行自身的大数据挖掘、分析系统已经迫在眉睫了,如何构建大数据分析系统、利用分析系统实现数据到价值、利润的转化,这需要不断的研究。本文通过深入分析商业银行的数据分析现状,总结其数据分析的优、缺点。并针对侧重于安全可靠和快速高效2种不同需求,以及结合商业银行现有技术发展,设计了商业银行数据分析系统,使商业银行从珍贵数据中分析、挖掘对其战略发展和业务经营有巨大推动作用的信息。
参考文献:
[1]薛良飞.云计算在新型信息化系统中的综合研究[D].济南:山东大学,2013.
[2]李斌,黄治国,彭星.利率市场化会降低城市商业银行投融资水平吗?——基于中国24家城市商业银行数据的实证研究[J].中南财经政法大学学报,2015(1):40-47.
[3]方先明,苏晓珺,孙利.我国商业银行竞争力水平研究——基于2010—2012年16家上市商业银行数据的分析[J].中央财经大学学报,2014(3):31-38.
[4]刘晓茜.云计算数据中心结构及其调度机制研究[D].北京:中国科学技术大学,2011.[5]陆嘉恒.Hadoop实战[M].北京:机械工业出版社,2012.
[6]张世明,徐和祥,钱冬明,等.云架构模式下“网络学习空间人人通”体系探析[J].华东师范大学学报(自然科学版),2014(2):30-39.
[7]江务学,张璟,王志明.云计算及其架构模式[J].辽宁工程技术大学学报(自然科学版),2011(4):575-579.
[8]韩浩.大数据技术在商业银行中的运用探讨[M].苏州:苏州大学,2014.
供电服务是供电企业的一项重要综合管理指标。在供电服务管理实践活动中,可以发现供电服务与营销业务管控、电网运行、设备运维、供电能力、电建施工、员工素质、工作标准、管理者思维等诸多因素有关,如何将供电服务管理中存在着的诸多变化和离散因素,运用系统的科学的方法进行分析,寻求管理上的精细化和实现风险最小化,是各级供电企业所面临的最迫切最现实的亟待解决的问题,最终实现客户服务智能化、优质高效。
【关键词】互联网+ 大数据分析 供电服务 管控系统 设计与应用
目前,供电公司系统中存在着庞大的数据分析工作,利用数据分析结果进行有效的诊断分析,以更好地指导营销服务,提升客户服务功能,是供电公司必选的最佳途径和手段,开发《基于互联网+大数据分析模式创建供电服务管控系统》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托设计是创建大数据分析模式的供电服务管控应用系统,融合拓展开发《开放式用电信息服务平台的应用系统》{《开放式用电信息服务平台》(The Opening Electricity Service Platform――简称:OEEP系统)}是基于互联网模式、计算机通信技术、GIS地理信息系统、用电信息服务的开放式面向客户端的信息平台,通过开发利用计算机、手机智能式服务系统,在确保电网和营销管理系统的安全前提下,链接供电生产系统、营销服务系统与客户端服务大数据系统信息共享,实现互联网+多媒体的一体化开放式管控系统和公共服务平台。
1 供电服务管控系统设计思路
1.1 供电服务管控应用系统设计
(1)建立与营销系统完整链接的营销服务主系统,基础数据来源和依赖于营销系统数据,分类建立不同功能模块,设定客观的量化指标,加入赛马博弈竞赛评分功能,客观真实的反映出各层级供电单位供电服务业绩,通过营销服务在线管控系统实现综合评价。
(2)搭建供电服务应用系统,实时实现首端与末端、纵向与横向、分级管控的全方位管控和应用,开发手机客户端APP下载到每个员工手机上,达到供电服务全天候、全过程的在线操作。
(3)主要实现功能:供电服务法规及政策、信息公开及、工单受理与流转、服务指标体系、竞赛积分系统、工作动态与经验推介、综合评价与奖惩。
(4)供电服务管控系统设计上,重点突出系统工程管理思维,力求规范化、标准化和可操作化,建立相应人性化管理的信息保障机制,对供电服务提升将会起到很好促进作用。
1.2 开放式用电信息服务平台
(1)依托互联网和计算机软件技术,建立GIS地理和供电设备集成系统,实现模糊查询实时链接。
(2)采用互联网+模式,将95598客户服务系统和营销服务系统嵌入,经过数据研判分析,建立开放式的客户端即时使用和交换界面。
(3)建设依托计算机通信系统拓展的电力多样化、智能化的服务,通过多媒体系统、掌上APP、微信等客户端系统,实时与金融、气象、交通等其他资讯系统融合的通讯交换功效。
(4)借助电力系统的调度D5000系统、生产PMS系统、营销MIS系统、用电信息采集系统等以及拓展的营配调贯通系统,实现全方位全天候的停电信息实时、设备故障查询、客户报修服务系统合一功能。
2 系统功能性设计界面
2.1 大数据系统性分析
(1)应用数理统计学原理和解析法开展供电服务大数据分析、筛选、研判操作,通过数据分析结论,以系统的管理理念、科学的管理方法揭示业务管控、运行过程、管理现象内在规律性问题,拓展供电服务领域措施和更大的提升空间。
(2)对供电服务管理的归类统计和分析,可以达到过程清晰,由整体、局部到个性离散元素之间逻辑关系和关联链接实现了闭环,便于发现问题,从而改进供电服务管理的统计方法和分析思路。
(3)在供电服务管理中,能把影响供电服务指标变化的因素,以及诸多因素影响的程度,进行量化和筛选出来,有效的解决了投诉事件分析的盲目性和无序性,增强了投诉事件分析和管理流程的针对性、目的性和规律性,提高了精细化管理水平和工作效率。
(4)把营销服务活动过程中,具有规律性和关联性的诸多离散因素及物理现象,以及过程化的实践控制流程,建立数据分析的逻辑链接,进行分类归纳和运算分析,展现不同的管控对象所需要的应用界面、过程管控以及个性需求。
2.2 客户信息服务平台
(1)基于互联网+模式与计算机网络通信规约,将GIS地理系统为基本内核,实时进行导航链接,运用多媒体功能界面,在计算机终端和手机端加载运行。
(2)建立一个个不同数据结构的模型,设计若干程序模块和接口,实现内置固化和跟踪嵌入的方式,实时数据链接相关功能模块,在不同的支撑界面进行灵活交互。
(3)鉴于信息安全管控要求,在确保电力网物理隔离和逻辑隔离满足安全运行的情况下,在设计入口时设置唯一身份验证和电子钥匙,有条件的开放调度、生产和营销系统数据接口,防止发生数据破坏和病毒侵害。
2.3 系统设计构架图
如图1、2、3所示。
3 系统功能及性价比
3.1 实现功能
(1)该系统实现跨专业海量的信息资源共享,系统公共管理和专业个性的管理,实现专业融合、互动和协同,可满足各级供电公司和不同管理层级的人员管理需求。
(2)该系统可实现实时的在线研判、指挥和分析,实现各层级供电服务在线实时跟踪管控,提升了工作时效性、针对性和真实性。
(3)开放式的用电信息服务突破传统服务技术瓶颈,建立了客户与供公司自由、方便、快捷的服务通道,对客户诉求和业务办理实现在时间和空间上的即时响应和一对一服务。
(4)该系统开发使用可实现供电公司各种系统资源的纵横协同和拓展延伸,实现内部资源有效应用,最大限度的发挥各系统管理效益和经济效益,资源高效利用提升了企业资产良性运行成效。
(5)该系统应用可提高工作效率,减轻和降低了人员繁重和重复的工作量,解放了一线人员劳动资源。
3.2 性价比分析
3.2.1 软硬件投资
一次性投资该系统的开发费用较低,基本上是用于已有的各类系统的接口技术处理,实现诸多系统和平台之间的链接,该系统软件运维成本较低,除了已有的各类系统自身的运维费用外,该系统只需解决接口费用即可。
主系统需配置较高标准的新设备,各级工作站现按照统一标准配置计算机和交换机等设备,即可满足使用。建议各级供电服务指挥中心建设不同规格的大屏幕监控工作室。
3.2.2 应用效益分析
(1)该系统开发后,实现了全省供电系统技术服务资源的整合高效利用,精细了管控过程和环节,评价客观真实,公司的管理效益十分显著。
【关键词】智慧仓储 物联网 大数据平台
大型供应链管理服务商通常具备多条成熟的运输线路以及遍布全国的货物仓库,企业日益扩大的交易规模和业务范围,各地仓储和物流运输每日可采集丰富的交易、物流、仓储、供应商等数据,单一的企业ERP系统只能完成资源管理,对于海量数据的分析和企业更高要求的数据分析能力有限,于是,企业智慧仓储大数据平台应运而生。
本文提出的智慧仓储运营支撑平台,运用了先进的RFID技术、视频分析技术及大数据分析技术,不仅解决了分散在各处的仓库智慧化管理,还可将仓库和物流各类运营及管理基础数据同步上传至大数据平台,实现仓库运营和管理信息资源的整合与共享,并依托各类基础信息库,为企业管理者提供智能决策支持。
1 智慧仓储运营支撑平台
智慧仓储运营支撑平台是一个功能完备的基础平台,系统架构如下图所示,分五层结构:感知层、传输层、数据层、服务层和应用层。
1.1 感知层
包括RFID读写器、激光雷达、视频终端、门禁对讲、温湿度传感器和警报器。
1.2 传输层
采用有线局域网或WIFI无线通信方式与支撑平台连接并传输数据。
1.3 数据层
包括设备信息库、业务信息库、监控信息库和人员信息库。
1.4 服务层
包括RFID中间件、ESB总线和第三方接口等模块,为整个系统的运行提供服务支撑。
1.5 应用层
包括仓库的业务管理、安防管理、人员管理、报表分析和系统管理等功能。
通过智慧仓储运营支撑平台可实现对货物入库、出库、移库、盘点等基本业务的智能化处理,其中,视频分析技术还可实现仓储的安防管理、人员管理等功能,不仅实现了对仓库的智能化管理,还能够收集物流和仓储的各个生产过程和任务执行中产生的运营数据,作为大数据分析平台数据源的重要组成部分,为企业实现智能分析提供了基础。
2 智慧仓储大数据应用
智慧仓储运营支撑平台将各地的仓储运营数据统一上传至企业大数据平台,进行分类和对分散及重复数据进行筛选、汇总、抽取、挖掘、分析形成物流与仓储有价值的大数据,便可应用于企业管控和管理全过程的协调、管理、协同、决策。大数据平台架构如下图所示,分为数据源、大数据获取、大数据处理、大数据服务四层。
数据源层主要实现采集前端各类感知设备以及各仓储运营平台数据。
大数据获取层实现结构化数据、非结构化数据、半结构化数据的导入导出。
大数据处理层实现数据的分布式存储和并行计算,并统一提供资源的调度服务、访问服务、管理监控服务和权限控制服务等。
大数据应用层实现物流运输调度、储位管理、可追溯管理、精准营销等各类智慧化应用。
2.1 运输调度
通过大数据优化任务发运计划,使运输任务最大程度地衔接起来,达到整个运输网络任务协调排程,合理组织运输工作和车辆调配,提高运输调度水平。
2.2 储位管理
通过对产品的进出货数据进行分析、整理、分类,深度挖掘不同类别之间的相关关系,再配合波次作业手段,优化拣货单,提高仓储工作效率。
2.3 可追溯管理
借助大数据平台智能分析及智慧仓储前端采集信息,建立产品档案,全面直观地展示品牌形象,借助供应链系统与电子商务交易平台,实时监督产品生产、交易和运输全过程。
2.4 精准营销
通过收集各个电子商务平台上同类产品的销售价格、数量、潜力,以及老客户的个人资料、交易行为、忠诚度等信息,同时深度挖掘潜在客户,制定一些优惠政策,激发购买的积极性,定向推送产品信息,实现精准营销。
3 结束语
基于大数据分析的智慧仓储运营支撑平台,适用于拥有多个分散仓库的大型企业,不仅使仓库管理者能够及时掌握仓库运行情况,更将大数据技术应用到物流领域,对于建设智能仓储体系,优化物流运作流程,提升物流仓储的自动化、智能化水平有着积极的推进作用。
参考文献
[1]肖建辉.浅谈仓储管理[J].物流工程与管理,2010,32(06):130-132.
[2]张仁彬,李玉民.基于物联网技术仓储管理系统研究[J].物流科技,2011(06):35-38.
[3]宫夏屹,李伯虎,柴旭东,等.大数据平台技术综述[J].系统仿真学报,2014, 26(03):489-496.
关键词:大数据 交易平台 数据资源 数据分析服务 融合
1.引言
目前发展大数据产业已经上升为国家战略,大数据的价值也得到了社会的广泛认可。众多研究[1-5]表明,大数据不仅为政府治理开辟了新思路,还是企业创新的重要源泉和高校科研的重要支撑。大数据交易平台是整个大数据产业的基础与核心,它使得数据资源可以在不同组织之间流动,从而让单个组织能够获得更多、更全面的数据。这样不仅提高了数据资源的利用效率,更重要的是,当一个组织拥有的数据资源不断丰富和立体化,有助于其通过数据分析发现更多的潜在规律,从而对内提高自身的效率,对外促进整个社会的不断进步。
在现有的大数据交易平台上,数据供应方和需求方各自供需信息,交易双方浏览这些信息,如果发现合适的交易对象,则进行大数据资源的买卖,交易平台只作为信息中介存在。这类大数据交易的本质,其实是单独的大数据资源交易,现有平台可以统称为第一代大数据交易平台。第一代大数据交易平台在供需平衡、数据定价和时效性三个方面都存在较大的不足。本文针对这些不足进行改进,设计了一种全新的第二代大数据交易平台,命名为:融合数据分析服务的大数据交易平台,该平台将数据资源交易与数据分析服务进行深度融合,实现了数据与服务的一体化交易。本研究不仅为当下正在建设的各类大数据交易平台提供有益的借鉴,也丰富了大数据交易的基础理论体系。
2.相关研究
目前大数据交易的相关研究中,比较有代表性的有:
(1)大数据的财产属性和所有权。王玉林等[6]对大数据的财产属性展开研究,认为大数据的法律属性会直接影响大数据产业的发展,而大数据交易实践本身就反映出大数据具有财产属性。但大数据与传统的财产权客体存在较大不同,它符合信息财产的特征,是信息财产权的客体,应受到相关法律的保护。齐爱民等[7]从宏观的角度分析了国家对于其主权范围内数据的所有权,剖析了个人拥有的数据权以及数据的财产权。
(2)大数据的定价问题。刘朝阳[8]对大数据的定价问题展开研究,首先分析了大数据的基本特征、价值特征等定价基础。接着讨论了效用价格论、成本价格论等定价模式。最后分析了大数据的定价策略,并对大数据定价的双向不确定问题进行了详细论述。刘洪玉等[9]认为在大数据交易过程中,由于缺乏足够的历史参考,其数据资源的交易价格很难确定,因此提出一种基于竞标机制的鲁宾斯坦模型,用于大数据交易双方进行讨价还价,以求达成一个交易的均衡价格。翟丽丽等[10]从资产的期权价值角度来评估大数据资源的价值,并指出数据在不断变化和更新,加上数据的非独占性等情况的出现,数据资产的价值可能会下降,最后综合这些因素构建了一个评估模型来计算数据资产的价值。
(3)大数据交易的安全与隐私保护。史宇航[11]认为非法的数据交易会对个人数据等高价值信息的安全造成影响,对非法数据交易的购买方和协助方都应进行处罚。提出应先明确数据的法律属性,再以数据交易所为平台进行交易,并对数据交易所的法律地位进行了分析。殷建立等[12]为应对大数据时代数据采集、交易等过程中的安全问题,综合考虑技术、政策和管理平台等方面的因素,构建了一种个人数据溯源管理体系,该体系可在数据应用时实现个人数据的追踪溯源,从而保护其个人隐私。王忠[13]认为大数据环境下强大的数据需求会导致个人数据的非法交易,为应对这种情况,应该建立个人数据交易许可机制,通过发放交易许可证、拍卖授予等措施实现隐私保护。
(4)大数据交易的发展现状与问题。杨琪等[14]认为我国的大数据交易还处于行业发展的早期,大量数据源未被激活,原因是大数据产业价值链的各个专业环节发展滞后,并且对数据交易中的安全问题和隐私泄露等有较大的担忧。应该对数据产品进行改造,使其更商品化,并且通过政府开放公共数据等措施逐渐消除数据流通中的安全顾虑。唐斯斯等[15]首先分析了我国大数据交易的发展特点、交易类型等现状,接着指出目前大数据交易存在法律法规相对滞后、行业标准不完善、交易平台定位不明确、数据质量不高等问题,最后提出应加快相关法律和标准建设,并推动数据开放,加强交易方式的创新。
除了上述四个主要研究方向以外,李国杰等[16]从理论的角度分析了大数据研究在行业应用和科学研究方面的重要作用,这从客观上反映了大数据流通的必要性。涂永前等[17]认为大数据时代企业管理和运用数据资源的相关成本会成为企业的主要交易成本,这会改变企业的组织结构,并导致企业边界的变化,企业会进行多方向的扩张,这为促进大数据产业发展的相关法律的制定提供了理论支持。总的来看,由于大数据交易本身属于较新的领域,因此相关研究总体上较少,已有研究也大多集中在上述几个研究方向上。实际上,大数据交易平台是实现大数据交易的重要载体,是大数据资源流通转换的主要节点,交易平台本身需要随着整个大数据产业的发展,不断的改进和升级,而现有研究中恰恰缺少对大数据交易平台本身进行创新的研究。由此,本文针对现有大数据交易平台的不足,结合实际设计了一种全新的融合数据分析服务的大数据交易平台,为实践和科研提供借鉴和参考。
3.现有大数据交易平台的不足
大数据本身作为一种新兴事物,当把它作为一种商品进行交易时,其交易平台的设计很自然会参照传统的商品交易模式,即:交易双方先供求信息,再经过讨价还价,达到一个均衡的价格则成交,卖方将大数据资源经过脱敏处理后,交付给买方。目前无论是政府主导的大数据交易所,还是企业或者高校创建的大数据交易平台,都是采用类似的交易模式,这也是第一代大数据交易平台的突出特点。实际上大数据与传统商品有很大的区别,照搬传统商品的交易模式会出现很多问题。本文将从供需平衡、数据定价和时效性三个方面分析现有大数据交易平台的不足。
3.1 数据供需的错配
现有大数据交易平台的第一点不足就是数据供需的错配,即:供应方提供的数据资源往往不是需求方所需要的,而需求方需要的数据在交易平台上找不到,即使有相近的数据资源,也存在很大的数据缺失或冗余,买回去也无法使用。对数据供应方来说,由于无法准确预知数据买方多样性的需求,它只能从自身角度出发,将可以公开的、并且自认为有价值的数据资源放到平台上待售。对需求各异的买方来说,供应方提供的标准数据很难与自己的应用方向精准匹配,这也是目前大数据交易还不够活跃的原因。当然,当供需双方建立初步联系以后,供应方甚至可以为需求方个性化定制大数据资源,但即使这样,供需错配的问题仍然无法解决,原因就在于单个的数据供应方无法提供多维的数据资源,只有多维的数据资源才具有较高的分析价值。
3.2 大数据资源定价困难
大数据资源定价困难是现有大数据交易平台的第二点不足。大数据资源和普通商品不同,普通商品可以直接消费或者作为再加工的原材料,其价值都可以通过最终的消费品价格得到体现。而大数据本身的价值无法直接衡量,需求方购买它的目的是作为数据分析的信息源,但是否能发现潜在的规律还未可知。因此无法在购买前,准确判断出待售数据资源的价值大小。此外,需求方在不确定某大数据资源是否能真正能给组织带来收益情况下,很难给出一个较高的价格,这在客观上会影响数据供应方的交易积极性,加大了供需双方达成交易的难度。
3.3 数据的时效性不强
现有大数据交易平台的第三点不足,就是数据资源的时效性不强。目前很多大数据交易平台上待售的数据资源都以历史数据为主,这是因为数据资源在交易前需要经历脱敏处理,将涉及政府信息安全、企业商业机密和个人隐私等敏感信息进行变换和替代。此外,供应方还需要对原始数据进行初步的清洗,整理成一定的数据格式集中存贮和交付,方便需求方进行数据分析。由于一般的数据供应方并不具备对大数据进行实时脱敏和清洗的能力,只能将采集到的数据资源,经过一段时间的离线处理后,再放到交易平台上,所以只能供应历史数据。随着社会节奏的不断加快,历史数据很可能并不能反映当下的真实情况,越来越多的数据分析都需要用到实时数据作为信息源,这是未来大数据交易必须克服的一个短板。
4.融合数据分析服务的大数据交易平台设计
本文提出将数据分析服务融合到目前的大数据交易中,以此来克服现有交易平台的不足,本节将首先对数据分析服务进行概念界定,再依次介绍平台设计的总体思路和核心模块的设计,具体如下。
4.1 数据分析服务的概念界定
数据分析是指运用各类数据处理模型和信息技术手段,对数据资源进行深度的挖掘,从而发现其中蕴含的规律,作为管理决策的依据。数据分析本身是一种能力,如果一个组织将其数据分析能力提供给其他组织或个人,并收取一定的费用,这就是数据分析服务。在大数据环境下,数据资源不仅体量巨大而且种类多,对数据分析能力的要求不断提高。在这种情况下,只有少数组织具备独立处理大数据的能力,其他的组织比如大量的中小企业,都需要从组织外部寻求专业的数据分析服务,来满足自身的需要。因此,数据分析服务和大数据资源一样存在巨大的市场需求。
4.2 平台设计的总体思路
本文将提出的融合数据分析服务的大数据交易平台,定位为第二代大数据交易平台,它将大数据资源交易与数据分析服务两者进行深度融合,在交易平台上实现数据与服务的一体化交易。大数据交易平台的角色也从原来的数据资源买卖的信息中介,转变为大数据综合服务商。在融合后的大数据交易平台上,数据需求方不再提交数据资源的需求信息,而是直接提出自己的应用方向和想要得到的结果,交易平台再根据需求方的应用方向,反向匹配数据资源和数据分析服务。这个匹配的过程不是单一的数据集或服务的查找,而是对全平台的数据资源进行有效整合,形成高价值的多维数据,再结合复合型的数据分析技术,得到最终的分析结果,最后将分析结果与基础数据一同交付给需求方。交付基础数据的目的,一是方便需求方进行分析结果的对照,为决策提供更精准的参考。二是需求方可以根据基础数据进行衍生挖掘,进一步提高数据的利用效率。平台设计的总体思路绘制成图1。
图1 平台设计的总体思路
4.3 核心模块的设计
融合数据分析服务的大数据交易平台共划分为四大模块,具体如图2所示。
图2 融合数据分析服务的大数据交易平台的主要模块
系统管理模块具体又分为用户管理、系统维护和安全管理。安全管理是系统管理模块的重点,主要包含三个方面的功能:第一,负责整个交易平台的系统安全,通过对交易平台进行实时监控,阻止外部的非法入侵行为,保障平台的正常运行。第二,对数据供应方提交的数据资源进行审核,如果发现是非法数据,则阻止其交易,并及时将有关情况反馈给相关的政府监管部门,由它们进行调查处理。第三,检查所有数据是否经过脱敏处理。如果发现部分数据存在未脱敏或者脱敏不合格的情况,交易平台将负责对该数据资源进行脱敏处理,从而保护数据中的隐私不被泄露。
大数据资源池模块、数据分析服务模块和协同模块是交易平台的三大核心模块,是数据与服务两者融合并实现一体化交易的关键,本文接下来将对这三个核心模块的功能进行详细设计。
4.3.1 大数据资源池模块
大数据资源池模块主要包含三个方面的功能:数据资源格式的整理、数据的多维度整合、大数据资源的云存贮。具体如下。
(1)数据资源格式的整理。由于大数据交易平台上的数据资源来自不同的数据供应方,因此其数据资源的格式会有较大的差异。如果不经过格式整理就直接进行数据分析,很可能会因部分数据无法准确读取,而影响数据处理的效率,严重者还会导致数据分析中断。数据资源格式整理的主要任务是将同一类型数据的格式进行统一,对部分缺失的数据属性进行补充,对错误的数据格式进行修正。
(2)数据的多维度整合。在上文3.1中提到供需错配的一个重要原因,就是单个数据供应方无法提供高价值的多维数据。所谓多维数据是包含用户或者行业多个背景和情境的大数据资源,这些多维数据使用户或行业多个侧面的信息产生了关联,有利于发现深层次的潜在规律。融合数据分析服务的大数据交易平台应该作为数据整合的主体,将单个数据供应方提供的零散的数据资源,进行多维度的整合,当缺少某一个维度的数据时,再向相应的数据供应方进行定向的采集,最后得到相对完整的多维数据,具有很高的分析价值。
(3)大数据资源的云存贮。大数据资源经过格式整理和多维度整合以后,已经可以作为数据分析服务的信息源。下一步就是将这些数据资源进行统一的云存贮,以便数据分析服务调用。以往部分大数据资源由于体量巨大或实时更新的需要,无法上传到交易平台上,或者只提供部分调用接口。融合数据分析服务的大数据交易平台通过建立云存贮中心,将整合后的多维数据进行统一存放和调用,有助于提高数据资源的存取效率。
4.3.2 数据分析服务模块
数据分析服务模块首先根据数据需求方的应用方向,匹配出合适的多维数据资源,再选择相应的数据分析模型分配所需的计算能力,最后将得到的分析结果反馈给需求方。本文将数据分析服务划分为三个大类:基础性分析服务、高级分析服务、深度定制的分析服务。具体如下。
(1)基础性分析服务。基础性分析服务是指那些常规的数据统计,比如:总体中不同对象的占比分析,基于不同属性的关联分析或相关性分析等。这些分析服务耗时较短,分析技术较为简单,只要数据资源本身完备,就可以迅速得到结果。基础性分析服务由大数据交易平台本身来提供,可以面对不同的需求方,实现快速交付。
(2)高级分析服务。高级分析服务是指那些较为复杂的数据分析服务,比如:精准的趋势预测、全面的用户兴趣画像、非结构化的信息挖掘等。这些分析服务需要大量专业的数据处理技术,比如:兴趣建模、视频分析,音频分析、深度语义分析等,必须由大数据交易平台对接第三方的数据分析服务商,由它们来提供高级分析服务。大数据交易平台在同一数据分析领域,应引入多家数据分析服务商,通过动态的竞争,来保证服务的质量。
(3)深度定制的分析服务。大数据分析目前还处在快速发展阶段,很多前瞻性的技术还在试验当中,应该说数据分析技术的发展相对于旺盛的现实需求来说是滞后的。当需要用的某一数据分析技术,在目前的市场上还找不到现成的提供方时,就需要大数据交易平台为其进行深度的定制,交易平台通过多方位的研发能力评估,寻找合适的技术主体来进行专门的技术攻关。
4.3.3 协同模块
协同模块主要包含两个方面的功能:数据分析服务之间的技术协同、交易各方的管理协同。具体如下。
(1)数据分析服务之间的技术协同。在面临较为复杂的数据分析任务时,可能需要用到多个领域的数据分析技术,这时单个的数据分析服务商可能无法独立完成。因为不同的行业领域,都有其行业技术的独特性,需要长时间的专业积累。在这种情况下,就需要多个数据分析服务商相互合作才能完成。数据分析服务之间的技术协同,就是通过一定的技术标准和操作规范,让多个数据分析技术提供方,能够在完成同一任务时,在技术上不冲突,能够相互并行的完成对数据资源的处理,按时按质的交付最终的分析结果。
(2)交易各方的管理协同。在融合数据分析服务的大数据交易平台上,交易的参与者一共有四类,分别是数据资源的供应方、数据分析服务商、需求方和交易平台自身。数据需求方在提交自己的应用方向和预期结果的同时,提交自己的交易预算。交易平台根据需求方提交的应用方向和预期结果,对数据资源和数据分析服务进行反向的选择。如果数据分析任务中只用到了基础性分析服务,则整个交易为平台方、需求方、数据资源供应方的三方交易。如果某数据分析任务,平台自身无法完成,需要用到第三方的数据分析服务商,则整个交易包含了全部四类参与者,是一个四方交易。交易的基本原则是实现参与各方的利益共享。交易各方的具体利益分配如图3所示。
图3 交易各方的利益分配
需求方希望在获得预期结果的同时,其支付的成本在可接受的范围内。交易平台在对数据和服务进行反向匹配后,会出现两种不同的情况:第一种情况是在原交易预算下,可以达到需求方预期的结果,则可成交。第二种情况是,原交易预算较低,在该预算下无法达到需求方要求的结果,这时交易平台会和需求方沟通,提出新的报价,需求方经过考虑后,与平台进行讨价还价,它们在价格上达成一致时才能完成交易。由于交易数据是整合后的多维数据,因此原始数据资源供应方的收益,由平台从总交易价中支付,具体的支付方式可分为平台一次性买断或按次数支付。同一数据资源对于不同的需求者来说,其价值是不一样的,融合数据分析服务的大数据交易平台根据最终的一体化交易成交价,反向对数据资源进行定价,相对于现有的大数据交易平台来说,是一种进步。交易平台的深度参与,会使数据交易的频率加快,原始数据资源供应方会获得更多的收益。数据分析服务商根据具体的数据分析任务,直接参与由平台发起的竞价,达成交易后由平台支付。交易平台本身的收益则是需求方支付额减去其他各方收益的差价。
5.融合数据分析服务的大数据交易平台的优势
本文3.1到3.3中指出现有大数据交易平台存在数据供需错配、大数据资源定价困难、数据的时效性不强三大不足。融合数据分析服务的大数据交易平台作为改进后的第二代大数据交易平台,可以很好地克服上述三点不足。除了这三个方面的优势以外,由于融合后可实现数据与服务的一体化交易,这将扩大交易对象的覆盖范围,提升交易的活力,具体如下。
5.1 直接面向应用,从根本上避免了数据供需的错配
在融合数据分析服务的大数据交易平台上,需求方对交易平台直接提出应用方向和预期结果。交易平台对全平台的数据进行多维度整合,如果缺失某个维度的数据,可以进行定向的采集和补充,最后形成高价值的多维数据。这些多维数据才是真正具有分析价值的数据资源,这是单个数据供应方无法提供的。在得到多维数据后,结合平台自身和第三方数据服务商的分析能力,得到最终的分析结果。交易平台最后交付给需求方的是数据分析结果和基础数据,这种直接面向最终应用的大数据交易方式,从根本上避免了数据供需的错配。
5.2 融合后定价更有根据
在现有的大数据平台上,数据需求方是将数据资源买回去以后自己分析,而在购买数据资源之前,不能预知数据分析效果的好坏,因此无法进行有效的价值判断,这是定价困难的关键点。在融合数据分析服务的大数据交易平台上,需求方不再直接对数据资源付费,而是对最终的数据分析结果付费,并且数据分析结果是根据需求方的要求反向定制的,是符合需求方利益的。需求方可以通过评估预期结果对自身的重要性或收益的改进程度,给出适当的交易预算。交易平台以该预算为参照,对数据和服务进行选择,若出现原预算约束下无法实现预期结果的情况,交易平台再与需求方进行沟通,双方讨价还价后达成交易。这样相对于现有的大数据交易平台来说,融合后定价更有依据。
5.3 融合后可提供实时数据
在融合数据分析服务的大数据交易平台上,数据资源采用云存贮的模式,由平台进行统一管理,这提高了数据资源的安全性。在数据安全有保障的前提下,由交易平台出面和数据资源供应方进行实时数据的对接,将实时数据纳入大数据资源池中。对于单个的数据资源供应方来说,实时的数据脱敏难度太大。但大数据交易平台不一样,它可以利用规模优势,组建强大的计算能力,对大数据资源进行实时的脱敏和清洗,极大地提高了数据资源的时效性。
5.4 融合后将扩大交易对象的覆盖范围,提升交易的活力
融合后可实现数据和服务的一体化交易,让很多自身不具备数据分析能力的组织和个人,也能方便地利用大数据,特别是大量的中小企业,这将大大增加交易对象的覆盖范围。
交易对象的增多会促进交易频率的增长,从而为数据资源供应方带来更多的收益,这样会提升它们参与交易的积极性,鼓励它们供应更多的数据资源,从而提升交易的活力,整个大数据交易行业就形成了正向循环的良好发展态势。
6结语
本文对大数据交易平台本身进行了改进与创新,设计了一种全新的第二代大数据交易平台,即:融合数据分析服务的大数据交易平台。该交易平台可以直接面向需求方的应用方向,实现数据和服务的一体化交易,不仅从根本上避免了数据供需的错配,还使大数据交易的定价更有依据,平台的深度参也让提供实时数据成为可能,这些将从整体上提升大数据交易的效率。融合后数据和服务的一体化交易降低了大数据应用的技术门槛,鼓励更多组织和个人参与,增加了交易活力。未来笔者将继续关注大数据交易平台的创新研究,为实际应用和学术科研提供更多有益的参考。
参考文献
[1]赵强,单炜.大数据政府创新:基于数据流的公共价值创造[J].中国科技论坛,2014(12):23-27.
[2]徐继华,冯启娜,陈贞汝.智慧政府:大数据治国时代的来临[M].北京:中信出版社,2014.
[3]李文莲,夏健明.基于“大数据”的商业模式创新[J].中国工业经济,2013(5):83-95.
[4]侯锡林,李天柱,马佳,等.大数据环境下企业创新机会研究[J].科技进步与对策,2014,31(24):82-86.
[5]张峰,张迪.论大数据时代科研方法新特征及其影响[J].科学学研究,2016,34(2):166-170,202.
[6]王玉林,高富平.大数据的财产属性研究[J]。图书与情报,2016(1):29-35,43.
[7]齐爱民,盘佳.数据权、数据主权的确立与大数据保护的基本原则[J].苏州大学学报:哲学社会科学版,2015(1):64-70.
[8]刘朝阳.大数据定价问题分析[J].图书情报知识,2016(1):57-64.
[9]刘洪玉,张晓玉,侯锡林.基于讨价还价博弈模型的大数据交易价格研究[J].中国冶金教育,2015(6):86-91.
[10]翟丽丽,王佳妮,何晓燕.移动云计算联盟企业数据资产评估方法研究[J].价格理论与实践,2016(2):153-156.
[11]史宇航.个人数据交易的法律规制[J].情报理论与实践,2016,39(5):34-39.
[12]殷建立,王忠.大数据环境下个人数据溯源管理体系研究[J].情报科学,2016,34(2):139-143.
[13]王忠.大数据时代个人数据交易许可机制研究[J].理论月刊,2015(6):131-135.
[14]杨琪,龚南宁 .我国大数据交易的主要问题及建议[J].大数据,2015(2):38-48.
· 为什么要做数据分析?
· 数据分析的目的是什么?
· 数据分析的一般过程是怎样的?
· 有哪些数据分析方法?
· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?
· 在国内最容易犯哪些数据分析的错误?
因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。
(一)数据分析的核心作用
根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。
这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。
(二)数据分析的分类
最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。
所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。
探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。
而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。
(三)数据分析的一般过程
通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。
现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!
其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。
接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。
最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。
(四)客户中心常用的数据分析工具及简介1 Excel
Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。
2 SPC
SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。
3 SAS
SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。
4 JMP
JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。
6 Minitab
Minitab软件是为质量改善、教育和研究应用领域提供统计软件和服务的先导,是全球领先的质量管理和六西格玛实施软件工具,具有无可比拟的强大功能和简易的可视化操作,对一般的数据分析和图形处理都可以应付自如。
【关键词】 大数据 HDFS MapReduce CIMS
一、研究背景
工业化和计算机技术的发展,使制造系统每天产生的数据量不断增加,整个制造业产生的数据量远高于其他行业[1]。面对日益复杂的制造业生产系统,通过保存其运行过程中的中间数据,并对数据进行研究,能够解决当前的系统建模手段无法解决的问题。传统的数据分析方案一般先将数据保存到关系型数据库中,然后借助联机分析、处理等手段为决策提供支持[2]。
当面对制造业的海量数据时,可能会有如下缺陷[3]:
(1)数据来自不同地区的工作站、传感器等,而且数据格式不统一,既有结构化数据,也有非结构化数据,不利于处理;
(2)联机分析处理过程中会有大量的数据移动操作,当数据量达到PB级时,大量数据移动造成的开销变得难以接受。
因此,有必要研究并实现一个能够合并存储异构数据、并且可以完成基于大数据的CIMS数据分析处理的平台。本文将Hadoop大数据技术引入到CIMS海量工业数据的监测和分析中。
二、研究现状
范剑青[4]阐述了大数据独有的特点,说明大数据提供的海量数据给统计、处理以及统计估算和检验带来的问题。Jiang 等人[5]对电子商务网站的大量商品数据进行分析处理,提出了基于Hadoop的协同过滤算法。
Duke能源公司模拟大数据解决方案,使维护专家远程观看设备和记录异常指数,甚至可以及时采取纠正操作,但还不能真正实现大数据分析和处理平台。通用电气(GE)于2013年推出其大数据分析平台,用以将云平台中的工业机器产生的海量数据转化为实时信息,此平台可以认为是第一个能够真正管理工业海量数据的平台,但是难以处理来自多个数据源的数据。美国国家仪器公司和IBM联手推出InfoSphereStreams大数据解决方案,能够以很高的数据吞吐率分析来自多个数据源的信息,但其处理带有一定的数据延时,实时性不佳。
为解决海量数据处理时的实时性问题,本文拟采用开源的Storm流处理技术,并借助类SQL和Piglatin等过程化语言扩展,以实时监控整个大数据平台。
三、大数据技术在CIMS监测与分析平台中的设计
工业应用数据在数据量上远超普通应用,其海量数据存储的要求超过了传统的关系型数据库的存储能力。另外,工业应用数据也由传统的结构化数据扩展到结构化、半结构化以及非结构化数据并存,对这些数据格式以及数据类型都存在不同的工业数据进行采集、分析和处理的方式有别于传统方式,因此需要对监测和分析平台进行设计,从软件结构、通信方式以及数据存储方式等各个方面进行分析。
3.1 CIMS海量数据监测与分析平台的设计
在将大数据技术应用于CIMS海量数据的监测与分析时,海量的工业数据不再存放在传统的关系型数据库,而是存放到HDFS分布式文件系统上。因此,软件结构设计要与Hadoop的HDFS文件系统相对应。
3.1.1 软件结构
本文设计的CIMS海量工业数据监测和分析平台(以下简称“平台”)采用Master-slave主从架构,Hadoop集群的NameNode节点作为监测和分析平台的管理节点,完成数据采集、数据分析等各功能的功能模块是工作节点。管理节点管理整个集群的相关信息,并维护包括节点的主机名、IP地址等机器状态。工作节点可以根据工业应用的需求进行灵活的配置,也可以动态增加或减少。
平台主要分为如下部分[6]:客户端、消息中间件、数据查询模块、数据分析模块、数据采集模块以及Hadoop集群。客户端接收用户请求,向平台发出任务请求;数据采集模块、数据查询模块以及数据分析模块是平台的功能组件,分别提供工业大数据分析流程中的对应功能[7]:数据采集模块对外提供数据的访问接口,其功能是从不同的数据源获取数据,并将这些数据存储到Hadoop的HDFS文件系统上。
数据查询模块从HDFS文件系统中查询数据的存储索引,并返回给数据分析模块;数据分析模块中实现不同的数据分析配置方法,并交由MapReduce框架分布式地实现数据分析任务。
3.1.2 系统功能模块
平台中监测和分析的数据一般都是离散数据,所以选择消息中间件作为通信管理模块,消息中间件实现平台中各个模块间的通信。
以功能节点上线为例,由于管理节点存储了所有节点的状态信息,所以为保证整个集群信息的一致性,功能节点上线时需要先向管理节点注册其信息,管理节点会向消息中间件订阅“注册”这一主题,消息中间件接收到订阅请求后会创建相应的队列,并持续监听此队列的消息情况。消息队列中的消息是以文本格式存在的,本文的消息传递方式采用XML。平台中的操作请求都会发送给任务管理模块,由其解析后,再发送给相应的功能模块执行。
数据采集模块从基于HDFS文件系统的Hbase数据库中获取来自客户端的数据,由于工业数据的采集并发量可能比较大,因此要在采集端部署大量数据库;除此之外,ETL工具负责将异构数据源的数据抽取处理进行数据清洗。Hadoop上的数据分析模块能够完成多维分析,由于MapReduce的具备很强的并行处理能力,因此分析维度的增加并不会使数据分析的开销显著增加,这无疑是传统的数据分析平台所无可比拟的。
3.1.3 数据存储方式
传统的关系型数据库不能很好的支持结构化和半结构化的数据,HDFS分布式文件系统克服了这一缺陷,将非结构化数据和结构化数据都以文件形式存放,实现了廉价而又可靠数据存储。
工业数据可能来自多个不同的数据源,平台借助中间件屏蔽了它们之间的异构性,然后将这些原本异构的数据存储到HDFS文件系统中。这种异构数据存储方式不需要昂贵的存储设备,廉价的服务器即可组成可靠的存储集群;另外,存储集群节点同时还是Hadoop集群的工作节点,提高了数据存储节点的利用率[8]。
四、大数据技术在CIMS监测与分析平台的性能优化
软件工程思想中,不能只设计软件的结构,同时要对软件进行不断优化。平台集中了多个数据来源的数据,因此平台间的数据传递吞吐量比较大;另外,平台各个组件间的网络依赖关系比较复杂,合理分配网络资源对提升平台性能有重要的影响。
系统动力学研究复杂系统的结构、功能以及动态行为模式,可以利用系统动力学的相关原理和方法,对本文设计的平台进行模拟仿真研究。
在进行实际的大数据平台仿真分析时,为搭建Hadoop集群本文配置4台服务器,其中一台作为NameNode,其他服务器作为DataNode。具体的配置信息如表1所示:
系统动力学分析软件系统的基本思路是把与系统相关的网络变量转换为因果图及流图,因果图表征了变量间的相互影响关系,流图说明了变量的反馈积累;然后利用DYNAMO方程描述变量间的关系。因果图反应了平台中的反馈回路的正负极性,表示出系统元素间基本的相互影响关系。
基于以上分析,对本文设计的平台进行系统动力学分析如下:由于平台是一个非线性时变系统,影响其性能的因素不仅包括管理节点、消息中间件、Hadoop集群等,还包含网络带宽、服务器配置等客观因素。根据系统建模目的,可以知道系统边界应该包括如下因素:用户请求数目、数据采集模块采集到的输入数据、消息中间件队列中的消息数量、消息中间件路由消息的延迟、Hadoop集群的性能等。
平台的系统边界确定后,接下来需要分析系统边界内的元素间的影响关系,以及它们之间是否有因果关系。经分析可知,用户请求的增加会导致消息中间件队列中的消息增加,而消息中间件路由消息的延迟降低会降低系统中消息传递的整体时延。
消息中间件的工作性能和系统各个模块的工作时延组成正反馈回路,说明消息中间件和系统模块是正相关的,所以平台整体性能的提升依赖于消息中间件和系统模块的合理资源配置。
消息中间件的各种配置参数,比如响应速度、吞吐量等参数对提升平台的分析性能影响很大,在优化消息中间件的各种参数后,比较本文设计的基于大数据的数据分析平台和传统的工业数据平台的性能,在同时对PB级别的工业数据进行分析时,当CPU数目相同时,响应速度的结果如表2所示:
对于不同的数据级别,两种大数据平台的处理效果如表3所示:
由结果可知,在处理相同的数据量时,在响应速度的性能上,本文设计的工业数据分析平台要优于传统的数据分析平台。
当处理不同的数据量时,随着数据量的增加,传统的大数据处理平台的处理时间也呈现显著增加,而本文设计的大数据处理平台处理时间是线性的,明显优于传统大数据处理平台。
五、总结与展望
本文首先介绍了Hadoop大数据技术,分析了其HDFS文件系统和MapReduce计算框架;
接下来对基于大数据技术的CIMS海量工业数据监测和分析平台进行设计,从软件结构、通信方式以及数据存储方式等各个方面进行了分析。最后利用系统动力学的原理,对影响平台性能的因素进行了研究。
与Duke能源公司模拟的大数据解决方案相比,本文设计的平台已经能够采集、分析并处理海量数据,真正意义上在工业领域引入了大数据技术;而且此平台还能够处理来自多个数据源的数据,比通用电气的大数据分析平台具备一定的优势。
参 考 文 献
[1] 韩燕波,赵卓峰.面向大规模感知数据的实时数据流处理方法及关键技术[J].计算机集成制造系统.2013,19(3):641-653.
[2] 邓华锋,刘云生,肖迎元. 分布式数据流处理系统的动态负载平衡技术[J]. 计算机科学. 2007(07)
[3] 胡茂胜.基于数据中心模式的分布式异构空间数据无缝集成技术研究[D].武汉:中国地质大学,2012.
[4] 杨林青,李湛,牟雁超等.面向大规模数据集的并行化Top-k Skyline查询算法[J].计算机科学与探索.2014, 12(26).
[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.
[6] 王黎维,黄泽谦,罗敏,彭智勇. 集成对象数据库的科学工作流服务框架中的数据跟踪[J]. 计算机学报. 2008(05)