时间:2023-03-16 16:00:38
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇大数据技术范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
一、分布集群数据库在大数据中的应用
目前,许多数据增长率很高的大型数据库系统正被用于改善全球人类活动,如通信、社交网络、交易、银行等,分布集群数据库已成为提高数据访问速度的解决方案之一。为多种类型的用户在多个存储中组织数据访问,分布集群数据库的问题不仅在于如何管理大量的数据,而且在于如何组织分布式存储中的数据模式。智能数据组织是提高检索速度、减少磁盘I/O数量、缩短查询响应时间的最佳方法之一。基于规则的聚类是提供数据库自动聚类和数据存储模式解释的解决方案之一,基于规则的集群通过分析属性和记录上的数据库结构,将数据模式表示为规则。使用不同规则池分区的每个集群,每个规则与内部集群中的规则相似,与外部集群中的规则不同。分布集群数据库是一种有向图结构的进化优化技术,用于数据分类,在紧凑的程序中具有显著的表示能力,这源于节点的可重用性,而节点本身就是图形结构的功能。为了实现基于规则的集群,分布集群数据库可以通过分析记录来处理数据集的规则提取。分布集群数据库的图形结构由三种节点组成:起始节点、判断节点和处理节点。开始节点表示节点转换的开始位置;判断节点表示要在数据库中检查的属性。分布集群数据库规则提取的节点准备包括两个阶段:节点定义和节点排列。节点定义的目的是准备创建规则,节点排列是选择重要的节点,以便高效地提取大量规则。节点排列由以下两个顺序过程执行,第一个过程是查找模板规则,第二个过程是结合第一个过程中创建的模板生成规则。提取模板以获得数据集中经常发生的属性组合。在模板提取过程中,分布集群数据库规则提取中只使用了少数几个属性,它旨在增加获得高支持模板的可能性。与没有模板规则的方法相比,该节点排列方法具有更好的聚类结果,这两个过程中的规则生成都是通过图结构的演化来实现。
二、在线规则更新系统的应用
在线规则更新系统用于通过分析所有记录从数据集中提取规则,在大数据应用中,每个节点都有自己的节点号,描述每个节点号的节点信息。程序大小取决于节点的数量,这会影响程序创建的规则的数量。起始节点表示根据连接顺序执行的判断节点序列的起始点,开始节点的多个位置将允许一个人提取各种规则。判断节点表示数据集的属性,显示属性索引。在大数据应用环节,从每个起始节点开始的节点序列用虚线a、b和c表示,节点序列流动,直到支持判断节点的下一个组合不满足阈值。在节点序列中,如果具有已出现在上一个节点序列,将跳过这些节点。在更新每个集群中的规则时,重要的是要找到与最新数据不匹配的属性。因此,规则更新中要考虑的属性由以下过程确定。当计算集群中每个属性和数据之间的轮廓值时,阈值设置为0.85,只有轮廓值低于0.85的属性。将为规则更新过程中的判断节点的属性选择。一些数据的库存值和权重值低于0.85,因此这些值不包括在国民生产总值的规则更新中。在线规则更新系统中包含用于更新规则的属性,每个集群都具有属性的主要值,这些属性是集群质量的锚定点,进而影响轮廓值。在线规则更新系统应用中,完成主要的规则提取过程,这是一个标准的规则提取,在线规则更新系统考虑到数据集中的所有属性。执行该过程,对初始数据集进行初始集群;改善规则更新过程,仅对轮廓值低于阈值的数据执行。
三、大规模并行处理技术的应用
大规模并行处理技术主要用于编写和调试现代处理器的程序,而不是本地汇编程序,所有的书面代码都是从C/C++语言翻译成一个低级的核心汇编程序。在大数据应用中,会产生很多数据,在数据的分析和计算中,应该结合编程技术,标准语言是面向传统体系结构的,这就是为什么编译器不能使用所有可能的DSP体系结构以最佳效率生成代码的原因。为了获得一个良好的优化代码,有必要直接在低级汇编语言上编写代码。为了简化编写程序的任务,可以在某个处理器上使用面向代码生成器。使用一个专门的汇编代码生成器,使用并行结构化的编程语言可以获得比在C/C++中翻译的应用程序更高效的代码,生成高效的汇编代码,该代码积极利用DSP内核的并行性和其他特性。低级汇编代码是由所有编译器生成的,但是它们与传统的基于文本的语言(如C/C++)一起工作。大数据应用环节,在数据分类和计算中,当两个计算操作在不同的操作单元上执行时,才能在一个dsp核心的vliw命令中并行执行两个计算操作。根据运算执行单元的不同,计算运算可分为op1和op2两种类型。属于不同组使得在一个命令中执行两个操作成为可能。第一种类型包括由算术和逻辑单元执行的操作,第二种类型包括由乘法器、移位器ms执行的操作。在模板中,标记“1”表示第一种类型的标识,标记“2”分别表示第二种类型。如果两个操作具有不同的类型并且没有数据依赖关系,则可以进行并行化,DSP核心的并行性是通过在一个核心中存在多个操作单元来保证的。在大数据计算和分析中,如果有足够多的通用寄存器来执行这两个操作,并且它们可以并行执行,代码就会并行化,提升数据计算的效率。
“大数据时代的预言家”维克托近日在北京面对一万多名技术信徒再次预言。
显然,这三大经典的技术信条在大数据时代面临动摇,
技术信徒的思维模式也即将发生颠覆。
那么,大数据对技术信徒意味着什么?
他们又将如何面对这一颠覆性的变革?
“技术汇成一条大河,一波推动另外一波。”IBM中国开发中心首席技术官兼新技术研发中心总经理毛新生带着对技术的满腔痴迷这样形容道。
一波未平一波又起,移动、社交商务、云计算、大数据等先后涌现的新趋势正在融合成一股巨大的潮流,将所有的行业IT化,进而推动商业和社会的演进。这也就意味着“科技是第一生产力”在当下有了更深层次的涵义——“IBM认为,在由新一代技术组成的智慧运算时代,中国的企业家们需要更为战略地思考信息科技的定位,将其运用到自身的变革转型之中。” IBM全球副总裁兼大中华区软件集团总经理胡世忠为企业新发展出谋献策。
由2012年的“软件技术峰会”改名为2013年的“技术峰会”,在这么一个盛会上,IBM试图展示的内容涵盖范围更为广泛——移动应用、大数据、云计算、DevOps软件持续交付、应用整合、社交商务、专家集成系统等热议话题,上百场技术主题演讲、28场分论坛、22场动手实验室和80个未来产品的现场演示,再加上被誉为“大数据时代的预言家”的《大数据时代》作者维克托·迈尔-舍恩伯格以及数十位来自IBM的院士、杰出工程师、相关领域的全球首席技术官和首席架构师的现场分享,IBM 2013技术峰会再次成为技术精英们关注的焦点。 大数据的新信条
《大数据时代》作者、牛津大学网络学院互联网治理与监管专业教授维克托·迈尔-舍恩伯格的出现着实让场内数以万计的技术信徒激动了一把。作为深刻洞察大数据给人类生活、工作和思维带来的大变革的第一人,维克托以价格预测网站的例子作为开场白,论证了大数据已经悄然在大众的身边出现并给他们的生活带来改变。
“全体性、混杂性和相关性是大数据的三个主要特点,而且这三个特点是互相加强的。”维克托归纳出了大数据对应的思维变革。收集和分析更多的数据才能获取足够的数据隐含的细节,这些细节恰恰是随机抽样所错失的。“干净”的、高质量的数据不再是标的,大数据需要我们摒弃对宏观上精确性的追求,转而获得微观上的准确性,即接受混杂的数据。最重要的是,人们不再沉迷于追寻数据之间的因果关系,即不再纠结于为什么,而是直接获得“是什么”的答案,并通过应用相关关系,更好地捕捉现在和预测未来——抽样因错失细节得不偿失,盲目追求精确性已经过时,执着于因果关系丧失机遇。
如何在大数据时代生存?维克托指出了两个关键点:一是意识到技术或者规模并不是成功的充分条件。遗忘规模经济,因为它的效益会逐渐淡化。20年前,一个公司只有拥有上十万台的服务器才能提供搜索服务,但在大数据时代,由于云计算的便利性,不拥有实体服务器的公司,如前文提到的,它只有30个员工,但它有能力为其上10亿的用户提供数据分析。二是为了在大数据时代获得胜利,大数据的思维模式不可或缺,工具的力量不容小视,分析能力是必要的。蓝色被谷歌选为搜索窗口的色彩,但蓝色实际上有51种,而且这51种蓝色人依靠裸眼无法明确区分,却能在心理层面给人带来不同的感受。经过大数据分析,谷歌发现原本由人工选出来的蓝色会导致谷歌损失200亿~300亿美元的收入,因为这一种蓝色并不最具备诱惑力,无法激起人们点击的欲望。
大数据的力量需要具备大数据的思维模式,并有效利用大数据的工具去发掘。IBM杰出工程师、InfoSphere Stream高级开发经理James R Giles阐述了IBM对大数据的看法:“我们正一步步走到了一个新纪元——大数据时代。如同对待自然资源一样,我们需要开掘、转变、销售、保护大数据资源;不同的是,大数据资源是无穷无尽的,我们不能任由大数据淹没自己,而应该在获得洞察需求的驱使下获得价值。”
大数据的类型广义而言有移动数据和静态数据,还有结构性数据和非结构性数据,这对应着不同的处理方式。“技术人员的责任是,能够去管理这些数据,能够理解这些从不同的数据源而来、不同类型的数据,能够分析这些数据,得出结论,让其提供决策支持,为企业拥抱新的大数据时代提供技术支撑,以保证管理、安全、商业的持续性。” James R Giles号召技术人员积极行动,以大数据的思维模式展现技术的价值和魅力。
找到内在联系
技术的趋势总是融合,也只有有机融合才能形成合力,发挥更大的威力,而实现这一合力的前提是明确各个趋势之间的内在联系。
“实际上,社交商务、移动、大数据、云计算是一体化的。”毛新生建议技术人员用一个全面的、融合的范式来沉着看待和应对纷繁的热点技术,理解这些热点会如何影响整个IT的走向,进而明晰IT如何可以很好地支持各行各业的业务转型和创新,“让每个行业都可以从新的技术转型当中获得足够的原动力”。
从贴近最终用户的角度来看,移动技术、社交技术改变了商业机构与其雇员、客户进行互动的方式。“就我个人的经历而言,航空公司的移动应用可以提供更好的客户交互。我是西北航空公司的粉丝,因为它家的移动应用服务很贴心,比如查询航班信息、根据我的喜好预留位置、定制化地进行社交推荐等。”毛新生以一个普通消费者的感受证明了企业通过移动应用收集并利用用户行为数据所带来的服务质量的提升。
移动催生了“一种崭新的服务交付端点”,即为用户提供了更多样化的服务体验点,让用户随时随地可以利用碎片化的时间去获得业务服务,也为企业带来了全新的服务交付渠道。移动这个渠道提供了更为丰富的全样性数据,在此基础上,大数据分析就更可信。“移动所具备的碎片化特点会带来更大量的用户行为信息。当把所有的人的行为结合在一起,就可以做群体的社会性分析。社会性分析会得到比较准确的群体特征。而群体特征足以获得很好的交叉销售与线上销售机会。”毛新生认为移动与大数据结合给企业提供了新的商业机会。
移动的设备无处不在。人、汽车,甚至建筑物、道路、桥梁,它们无时无刻不在提供数据,这就是新的数据源,是它们引领我们来到维克托所描述的更为广阔的大数据世界。
移动和社交商务的便捷性使得企业的整个业务流程变得非常自动化,用户可以享受自助服务,对应到企业端就意味着业务流程对前端的需求要反应得更为迅速,也意味着各个业务系统之间无缝连接,否则没有办法支撑以最终用户为中心的服务体验,但跨部门和跨应用的整合实属不易。进一步延伸开来,对用户体验的追求是无止境的,合作伙伴的API和服务可以作为补充,这即是“跨企业边界”的行为。这种行为必然导致大规模的用户访问。这些整合和外部拓展都需要云计算提供灵活有效的基础。没有云计算,移动前端的体验、大数据分析的效果都会大打折扣。“云的基础设施使大规模互动、大规模数据处理、大规模应用可以更好地服务我们。”毛新生指出。
环境变化加速,竞争更加激烈,要求企业的反应速度越来越快,应用以及端到端解决方案快速改变。毛新生饶有兴致地介绍道:“这个改变有多快呢?我们有的客户尝试以天为周期去改变,这意味着应用和业务流程的设计、开发、部署、测试、维护的整个过程要大大加快,也就是所谓的DevOps。只有把敏捷的开发和运维结合起来,生命周期变得以天为周期,才能响应新的商业环境。”
“移动、云计算、大数据、社交商务之间的紧密联系让我们应该以整体的眼光来审视它们。”胡世忠坚信,它们的组合可以创造可持续的竞争优势,可以迸发变革的力量。
至于一个企业应该从哪里下手来实现这一幅宏伟蓝图?毛新生给出的答案是:“每一个企业,因为它所处的行业或者特定的情况而拥有不同的切入点,有一些企业需要从移动开始,有一些企业需要从云计算开始,有一些企业需要从大数据开始,但是它们是不可分割的整体,只有综合地运用它们,找到适合自己的切入点,一步一步脚踏实地,才能掌握先机,打造竞争力。在这个过程中,要拥有正确的思维,改变既有思维,理解趋势,制定策略。”
例如,银行、保险、零售业这一类和最终消费者打交道的服务业在很大概率上需要先从移动、社交商务入手,从而使其有机会改善和用户交互的过程。而以数据为生的行业会琢磨如何将自己的内容和资源数据增值,而传统的运营基础设施的重资产企业,会追求将资产数字化,得到数据并进行分析,以优化资产的生命周期管理来预防性地降低维护成本,这些企业是以大数据作为切入点的。还有一些企业希望跨行业整合进行业务创新,背后牵扯到它们自身现有的业务模式和新业务模式的整合,这种情况下需要以云的方式构建新的应用、服务、商业流程。
毛新生认为切入点不同只是表象,每一种场景到最后都是综合性的运用,要把这几个技术综合运用起来。从前端开始,首先是利用移动,并借助社交渠道交流,很快这些渠道会得到新的数据,这些新的数据和原有的交易数据和积累的数据结合起来做进一步的数据分析,这就是大数据分析。大数据分析以后可以做社交推荐、关联推荐了。随后,能不能跨界再实现更广泛的销售?跟别的价值链上的合作伙伴合作,那么引入云是解决之道。数据量增大,用户数增多,云的基础设施可以让成本更合理。“所以说,到最后都是综合性的应用,尽管起点不一样”,毛新生说。
对技术人员而言,IT就是交付业务流程的基础,是信息化的工具。它的目标无非是优化业务流程或者创新业务流程。创新到达一定程度后,业务流程的量变会导致质变。“这就解释了为何全球越来越多的CEO将技术视为驱动企业发展的首要因素。” IBM软件集团大中华区中间件集团总经理李红焰强调,技术人员有能力,也有责任将“看不见的技术转变为看得见的享受”。
移动开发的转变
在大数据的带领下我们进入移动时代,企业有了新机遇,技术人员却有了新挑战。为什么移动开发和之前不一样呢?有什么不一样呢?这成为了萦绕在技术人员脑子里最主要的两个问题。
IBM杰出工程师及IBM移动平台首席架构师Greg Truty解答了这两个疑问。他认为,很多企业现在所做的事情与在移动的状态下做的事情是不一样的,移动状态下的任务和规划更具有战略性。移动应用是在不稳定的网络上运行的,所占用的资源更少。用户在移动设备上和非移动设备上的体验是完全不一样的,他们会希望在不稳定的网络上仍然能够获得良好的体验。企业现在需要思考的是,怎么样把大量数据、大量体验变成一些有意义的体验。同时,移动管理的需求也不一样了,开发的特性也不一样了。比如对一个企业来说,移动开发周期更短,有更多设备需要支持,有更多开发方法可供选择,也有更多的工具和库可供选择,这时候企业就需要仔细斟酌,哪些开发方法和工具是自己需要的。
自然而然,对于设备的管理也有了变化,因为应用变化了。“一直以来,客户端服务器的应用架构是企业在使用的。你需要协调在服务器端的服务以及在客户端的服务,挑战非常大。你不可能强迫客户运行你的应用,而必须能协调和兼容原有的系统。这是非常关键的一点。” Greg Truty强调了设备管理的重要性。
此外,产品种类也非常多,新应用层出不穷。Greg Truty 认为多而新的局面下更需要冷静处理:“我们会把应用和数据结合起来,移动和社交网络结合起来,这样做会创造一些新的得到数据的机会,需要进行管理。新的机会、新的技术,给整个IT组织带来了更多的挑战。”
关键词:大数据;智能交通;数据技术
随着国民经济的不断发展,人们生活水平的不断提高,居民购买汽车能力加强。我国的汽车保有量随之增加,在一些大城市机动车拥有量以超过10%的速度加速,机动车成为每个家庭代步的交通工具,在有限的交通资源配置下,机动车的增加缩短了道路使用周期,城市主干道路超负荷使用,违法停车致使道路不能合理使用、行车不文明、乘车环境不良等现象有增无减。大数据时代,如何改善当前的交通状况是本文阐述的核心内容。文章从以下几个方面来阐述:大数据的现状、大数据的概述、大数据的应用、智能交通的需求、智能交通体系的建立、数据技术。
1 大数据的现状
据权威数据显示,大数据应用在我国还处在起步阶段。但在未来三年,通信、金融领域将在大数据市场突破100亿元。市场规模在2012年有望达到4.7亿元,到2013年增至11.2亿元,增长率高达138%,2014年,保持了与2013年基本持平的增速,增长率为114.38%,市场规模达到24.1亿元,未来三年内有望突破150亿元,2016年有望达到180亿规模。自从2014年以来,各界对大数据的诞生都备加关注,已渗透到各个领域:交通行业、医疗行业、生物技术、零售行业、电商、农牧业、个人位置服务等行业,由此也正在不断涌现大数据的新产品、新技术、新服务。
大数据行业“十三五”规划主要目标:在2020年,将大数据打造成为国民经济新兴支柱产业并在社会各领域广泛应用,推动我国大数据产业稳步快速发展,基本健全大数据产业体系,推动制定一批相关大数据的国标、行标和地方标准,引进具备大数据条件的企业,建设大数据产业孵化基地,提高全国信息化总体水平,以跻身世界先进水平。
2 大数据的概述
2.1 大数据定义
大数据即巨量数据集合,目前还没有一个统一的定义。大数据的概念最早是由全球著名的管理咨询公司麦肯锡提出,2011年Mckinsey研究称,大数据通常是指信息爆炸时代产生的海量数据,在各个行业和业务领域,数据已经渗透到行业中并逐渐成为重要的要素,人们能够从海量数据中挖掘出有用的数据并加以应用。对大数据定义的另一说法是利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。
随着信息时代的高速发展,大数据已经成为社会生产力发展的又一推动力。大数据被称为是继云计算、物联网之后信息时代的又一大颠覆性的技术革命。大数据的数据量巨大,一般10TB规模左右,但在实际应用中,多个数据集放在一起,已经形成了PB级的数据量,甚至EB、ZB、TB的数据量。
2.2 大数据的特点
2.2.1 数据量巨大
数据量级别从TB级别跃升到PB级别。随着可穿戴设备、物联网和云计算、云存储等技术的发展,用户的每一个动作都可以被记录,由此每天产生大量的数据信息。据有关人士估算:1986~2007年,全球数据的存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;2007年,人类大约存储了超过300EB
的数据;到2013年,世界上存储的数据能达到约1.2ZB。
2.2.2 数据类型多样化
即数据类型繁多,产生了海量的新数据集,新数据集可以是关系数据库和数据仓库数据这样的结构化数据到半结构化数据和无结构数据,从静态的数据库到动态的数据流,从简单的数据对象到时间数据、生物序列数据、传感器数据、空间数据、超文本数据、多媒体数据、软件程序代码、Web数据和社会网络数据[1]。各种数据集不仅产生于组织内部运作的各个环节,也来自于组织外部。
2.2.3 数据的时效性高
所谓的数据时效性高指以实时数据处理、实时结果导向为特征的解决方案,数据的传输速度、响应、反应的速度不断加快。数据时效性为了去伪存真,采用非结构化数据剔除数据中无用的信息,而当前未有真正的解决方法,只能是人工承担其中的智能部分。有些专员负责数据分析问题并提出分析后的解决方案。
2.2.4 数据真实性低
即数据的质量。数据的高质量是大数据时代重要的关注点。但在生活中,“脏数据”无处不在,例如,一些低劣的伪冒产品被推上市场,由于营销手段的成功,加之其他因素的影响导致评分很高。但是这并不是真实的数据,如果对数据不加分析和鉴别而直接使用,即使计算的结果精度高,结果都是无意义的,因为数据本身就存在问题出现。
2.2.5 价值密度低
指随着物联网的广泛应用,信息巨大,信息感知存在于客观事物中,有很多不相关的信息。由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。
2.3 大数据的应用
2.3.1 医疗大数据
利用大数据平台收集患者原先就医的病例和治疗方案,根据患者的体征,建立疾病数据库并对患者的病例分类数据库。一旦患者在哪个医院就医,凭着医保卡或就诊卡,医生就可以从疾病数据库中参考病人的疾病特征、所做的检查报告结果快速帮助患者确诊。同时拥有的数据也有利于医药行业开发出更符合治疗疾病的医疗器械和药物的研发。
2.3.2 传统农牧业大数据
因为传统农牧业主要依赖于天气、土壤、空气质量等客观因素,因此利用大数据可以收集客观因素的数据以及作物成熟度,甚至是设备和劳动力的成本及可用性方面的实时数据,能够帮助农民选择正确的播种时间、施肥和收割作物的决策。当农民遇到技术市场问题可以请教专业人员,专业人员根据实时数据做出科学的指导,制定合理的优化决策,降低农民的损失成本,提高产品的产量,从而为转向规模化经营打下良好基础。
2.3.3 舆情大数据
利用大数据技术收集民众诉求的数据,降低社会,有利管理犯罪行为。通过大数据收集在微博的寻找走失的亲人或提供可能被拐卖人口的信息,来帮助别人。
3 智能交通的需求
随着城市一体化的快速发展,新时代农民工涌入大城市,促使城市人口的增大不断给城市交通带来问题。究其原因主要有:一是机动车的迅猛发展导致城市主次干道的流量趋于饱和,大量机动车的通行和停放占据主干道路。二是城市交通的道路基础设施供给不平衡导致路网承担能力差。三是停车泊位数量不足导致机动车使用者不得不过多依赖道路停车。四是公共设施的公交车分担率不高导致交通运输效率降低。五是城市的土地开发利用与道路交通发展不均衡。六是行人和机动车主素质不文明导致道路通行效率降低。为此,智能交通的出现是改善当前城市交通的必要需求,能够在一定程度上有效的解决城市交通问题。
大数据是如何在智能交通的应用呢?可以从两个方面说明:一是对交通运行数据的收集。由于每天道路的通行机动车较多,能够产生较大的数据,数据的采集并发数高,利用大数据使机动车主更好的了解公路上的通行密度,有效合理对道路进行规划,可规定个别道路为单行线。其二是可以利用大数据来实现主干道根据道路的运行状况即时调度信号灯,提高已有线路运行能力,可以保障交通参与者的生命和提高有关部门的工作效率,降低成本。对于机动车主可以根据大数据随时的了解当前的交通状况和停车位数量。如果交通拥堵,车主则可选择另一路线,节约了车主的大量时间。
4 智能交通体系的建立
4.1 智能交通建立的框架
主要包括感知数据层、软件应用平台及分析预测和优化管理的应用。物理感知层主要是采集交通的运行状况和对交通数据的及时感知;软件应用平台主要整合每个感知终端的信息、将信息进行转换和处理,达到支撑分析并做出及时的预警措施。比如:对主要交通干进行规划,对频发交通事故进行监控。同时还应进行应用系统建设的优化管理。比如:对机动车进行智能诱导、智能停车。
智能交通系统需要在各道路主干道上安装高清摄像头,采用先进的视频监控、智能识别和信息技术手段,来增加可管理的维度,从空间的广度、时间的深度、范围的精细度来管理。整个系统的组成包括信息综合应用平台、信号控制系统、视频监控系统、智能卡口系统、电子警察系统、信息采集系统、信息系统。每个城市建立智能交通并进行联网,则会产生越来越多的视频监控数据、卡口电警数据、路况信息、管控信息、营运信息、GPS定位信息、射频识别信息等数据,每天产生的数据量将可以达到PB级别,并且呈现指数级的增长。
4.2 智能交通数据处理体系的构成
主要包括交通的数据输入、车辆信息、道路承载能力等的数据处理、数据存储、数据检索。其中交通数据输入可以是静态数据或者是动态数据。数据处理是针对实时数据的处理。数据主要存储的是每天采集的巨大数据量。为了从中获取有用的数据,则需要进行数据查询和检索,还要对数据进行规划。
5 大数据技术
5.1 数据采集与预处理
数据采集与预处理主要对交通领域全业态数据的立体采集与处理来支撑交通建设、管理、运行决策。采集的数据主要是车辆的实时通行数据,以实现实时监控、事先预测、及时预警,完成道路网流量的调配、控。这些数据获取可以采用安装的传感器、识别技术并完成对已接收数据的辨析、转换、抽取、清洗等操作。
5.2 数据存储与管理
大数据的存储与管理是把采集到的数据存放在存储器,并建立相应的数据库,如关系数据库、Not Only SQL即对关系型SQL数据系统的补充。利用数据库采用更简单的数据模型,并将元数据与应用数据分离,从而实现管理和调用。
5.3 数据分析与挖掘
数据分析及挖掘技术是大数据的核心技术。从海量数据中,提取隐含在其中,人们事先未知的,但又可能有用的信息和知识的过程。从复杂数据类型中挖掘,如文本、图片、视频、音频。该技术主要从数据中自动地抽取模式、关联、变化、异常和有意义的结构,可以预测模型、机器学习、建模仿真。从而实现一些高级别数据分析的需求。
5.4 数据展现与应用
数据技术能够将每天所产生的大量数据从中挖掘出有用的数据,应用到各个领域有需要的地方以提高运行效率。
6 结束语
大数据时代,能对智能交通信息资源进行优化配置,能够改善传统的交通问题。对非机动车主而言,利用大数据可以更好的规划线路,更好的了解交通状况,在一定程度上可以对问题预先提出解决方案,起到节省大量时间、额外的开支。同时对交管部门而言,能够在限的警力情况下合理配置人员资源和交通设备,主干道路在高峰期出现的问题能够合理利用大数据信息配置资源,在刑事案件侦查中也能发挥更重要的作用。
全国要实现智能交通的联网,依然有问题需要突破,这都是大数据的数据技术应用所在。
【关键词】数据挖掘 数据分类算法
在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。
1 决策树分类算法
1.1 传统算法
C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。
(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。
2 其他分类算法
2.1 Bayes分类算法
Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。
2.2 CBA分类数据算法
基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。
2.3 MIND和GAC-RDB算法分类算法
在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。
2.3.1 MIND算法
MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。
3 总结
大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。
参考文献
[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).
[2]刘红岩.数据挖掘中的数据分类算法综述,2002(06).
信息时代的到来不断改变着我们的生活和工作方式,在当前不断发展的新型大数据时代之下,我们必须要不断促进大数据软件工程技术的融合和发展,这样才能够不断提高各行各业的工作效率和工作质量,不断降低生产成本。在未来很长一段时间的发展过程中,我们必须要不断研究大数据时代下软件工程的应用和创新。
1大数据与软件工程技术概述
当前大数据已不断渗透到我国各行各业的发展和创新中去,迅速成为社会主义现代化事业发展的重要组成因素,对于数据的搜集整理和应用都具有非常重要的作用,大数据是未来世界发展不可避免的趋势,在经济、文化等众多领域得到了大规模的应用和发展。当前我国社会主义现代化事业不断发展,各个行业的生产力发展水平也越来越高,大数据技术开始不断创新和融合,正式带领人类进入大数据时代。软件工程技术的不断发展为当前各行各业的生产和创新提供了较大的动力,能够不断减少各个行业的财力投入以及人工资源。当前社会主义下的软件工程技术是指应用标准化系统化的过程方法对软件进行开发以及维护,从而研制软件信息工程技术,涉及到的领域众多,存在着多种多样的研究方法,在当前各个行业的发展中至关重要。近些年来科学技术不断进步社会也不断发展,人们开始不断尝试将大数据与软件工程技术互相融合和发展,在大数据的时代之下充分发展软件工程,技术不断减少各行各业成本开支,促进社会主义现代化事业的平稳发展。
2大数据时代下软件工程技术的应用
2.1数据搜集以及处理
大数据对于当前社会和时代的基本作用就是不断收集社会主义发展过程中产生的数据,在不断发展的软件工程技术当中,数据的搜集、储存、分类、整理也是一个非常重要的部分,因此我们必须要将当前不断发展的软件工程技术与大数据技术互相结合,使大数据时代下的软件工程技术拥有更多的突破和创新,对产生而来的信息进行有效的整理和快速的分类,使各个软件的协同能力迅速提升,建立起一个科学、规范、完整的现代化空间进行信息的储存,这样才能够方便各行各业发展过程中的信息使用需求。
2.2数据信息的存储
当前我国社会主义现代化事业不断发展,大数据时代的到来也加快着各个行业的发展和创新,因此产生了越来越多的数据信息,由传统的文字储存发展到图片、视频共同组成的现代化数据。我们在进行数据信息储存的过程中,需要对大量的信息进行整理和储存,不断要求计算机性能的提高以及储存空间的扩大。运用传统的信息储存方法已不能满足当前信息产生的需要,极其容易产生信息缺失现象,因此必须要不断应用软件工程技术,这样能够不断节省信息储存的空间,同时能够保证信息储存的完整性和安全性。通过对软件工程技术进行创新和应用能够极大地为计算机节省必要的空间,不断提高信息储存效率及使用效率。
2.3利用大数据进行软件服务工程建设
近些年来我国计算机科学水平不断进步,软件工程技术研究领域也不断创新和发展,不断拓展和延伸软件工程技术的发展方向。在当前大数据时代的不断发展之下我们必须要对大数据技术以及软件工程技术进行融合和创新,进一步对网络数据进行编程,使各个软件具有可操作性、稳定性、安全性和科学性,能够更好地实现数据的协调,不断提高软件工程系统的集成度。
2.4信息安全技术的应用
大数据时代之下各行各业的发展都会产生大量的数据信息,而众多的数据和信息容易互相干扰和影响,因此为了不断提高数据的安全性,必须对数据进行进一步的管理和提升。当前必须要运用到大数据时代之下软件工程技术,对当前可能存在的网络风险进行查杀以及预防不断提高数据收集以及储存的安全性。
3结束语
总而言之,信息时代的到来大大改变了人们的生活和工作方式,也在一定程度上促进着社会主义现代化事业的不断发展当前大量涌出的数据信息存在着一定的风险,因此必须要运用软件工程技术,促进数据信息产生以及储存应用的安全性,不断促进大数据时代之下软件工程技术的创新和发展,推动软件工程技术建设。
参考文献
[1]杨品军.解析大数据时代下软件工程关键技术[J].网络安全技术与应用,2020(3):54-55.
[2]黄恺.大数据时代下软件工程关键技术探讨[J].计算机产品与流通,2020(2):32.
【关键词】大数据 信息系统 关键技术
近年来,信息技术发展迅速,对以移动互联网技术和云计算机技术为主的现代数字信息系统的发展起到重要的推动作用,并使得信息获取量及途径呈现几何增长态势,同时降低了数据获取与存储的成本,极大提高了数据处理的有效性,为社会各行各业发展奠定了坚实的技术基础。基于此,如何实现从复杂的数据中提炼有效信息,进而推动相关产业发展成为社会关注的重点,相关部门必须采取有效措施,保证当前信息系统的高校运行。
1 大数据技术概述
1.1 数据采集
在数据采集中,一般运用多个数据库,以此接收来自客户端或者传感器等途径的数据,在具体采集中会面临并发量较高的挑战,为了便于后续分析工作的有效开展,在采集中需要将数据导入分布式存储集或者数据库中,并在导入过程中进行相应的预处理。比如在互联网企业中,多数企业均创建了诸如包含Ⅱadoop的cloudera的系统日志数据采集工具,采取分布式结构,以此满足高并发量的日志数据采集需求,并实现有效的数据传输。
1.2 数据存储
在数据存取方面,互联网企业多采用PostgreSQL,其在设计中主要满足OLTP交易型需求,进而具备人机会话功能。也有很多企业使用传统的关系型数据库,其中以Oracle较为常见,在频繁的数据修改、增加和删除操作中具有明显优势,但是在数据统计分析查询方面效率较低。针对这一问题,很多公司选择Teradata,主要利用MPP架构,在销售过程中以软硬一体机的形式呈现给客户。
1.3 基础架构
在对大数据技术运用中,很多企业指出在归档和备份过程中数据冗余度高达92%,必须采取有效措施高效删除存储系统中的重复数据,其中分布式重复数据删除系统发挥了重要的作用,其主要由元数据服务器、客户端和数据服务器组成,元数据服务器主要实现元数据的维护和储存,而客户端则在提供文件操作接口的同时,实现数据的预处理,数据服务器主要启动去重引擎,并对有效数据进行储存和管理。
1.4 数据挖掘
数据挖掘必须以现有数据为基础,通过各类算法进行计算,进而起到预测效果,以此达到客户高级别的数据分析要求。在大数据分析理论中,数据挖掘算法处于核心地位,但是由于挖掘算法复杂性较为明显,且计算过程中涉及巨大的计算量,导致数据挖掘技术面临研究挑战,在具体应用中必须保证不同的算法对特定的数据类型及格式,进而达到深入计算的效果。
1.5 结果呈现
在大数据技术应用中,注重处理结果的直观化和可视化,通过数据的分析与处理,能够清楚地了解海量数据的维度和指标,进而按照具体标准呈现复杂数据隐藏的关系。并且随着技术的创新与发展,在数据输出过程中出现了多屏联动、主从屏和自动翻屏等功能,保证了输出的清晰度,并在输出中支持触控交互操作,帮助客户更好地了解数据的走势与规律。
2 基于大数据的信息系统关键技术探讨
2.1 分布式文件管理
在大数据技术应用中,数据的存储和管理发挥着基础性作用,现阶段基于大数据信息系统而设计研发的分布式文件管理技术具有明显的实用性,广泛应用于各大互联网企业之中,以Google创设的GFS管理技术为例,其具有成本低廉的优势,已成为使用量较大的服务器,为客户建立了高效的文件管理系统,并且具备较高的拓展性能。在这一系统中,很多数据存储于不同的服务器之中,呈现分块式的状态,客户可利用追加更新和关联连接的方式开展数据管理工作。
2.2 分布式数据处理
在大数据信息系统中,实现了对各类数据的封装操作,基于此用户可享受随时、随需且标准化的检索与分析服务。例如在分布式数据处理系统中,主要采用流处理技术和批处理技术,其中前者将大数据视作不间断的流,对进入系统的数据流进行实时处理,并及时返回结果,进而提升了数据处理的及时性;而后者的核心则在于划分数据的方式、分配数据的方式和处理数据的技术,该技术先存储需要处理的数据,再根据特定的分割方法,将数据分割为多个数据块,接下来将各个数据块分给不同的处理器进行并行处理,进而降低了数据的关联关系,使得数据具有极高的集群性和可调度性。
2.3 分布式数据库
通常情况下,传统数据库以关系型为主,考虑到大数据具有体量巨大,种类繁多的特点,传统类型的数据库在数据处理时存在诸多弊端,并且大数据还具有价值密度低的特质,对数据库本身提出了更高要求。因此在大数据处理中,必须建立新型的数据库模式,其中分布式数据库系统具有明显的优势,该系统模型简便,在数据管理中将数据视作字符串,并且在字符串解释过程中采取间接手段,从而保证了数据的半结构化特征,简化了整个数据库的运行程序,提高了数据处理效率。
3 结束语
综上所述,大数据技术具有巨大的潜在价值,合理有效地开展大数据分析与处理工作,能够帮助客户了解数据背后的隐藏信息,进而制定精准且可行的决策,推动社会各领域的信息化发展。
参考文献
[1]禹禄君.基于大数据的信息系统关键技术研究[J].湖南邮电职业技术学院学报,2015(03):40-42.
[2]王本胜,殷阶,朱旭,等.指挥信息系统大数据技术发展趋势[J].指挥信息系统与技术,2014,5(03):12-16.
[3]卢川英.大数据环境下的信息系统安全保障技术[J].价值工程,2016,35(04):188-190.
>> 大数据关键技术 大数据关键技术分析及系统实例分析 浅谈大数据基础理论与关键技术发展 电力信息大数据高速存储及检索关键技术研究 电力大数据可视化系统开发关键技术研究及趋势 投资统计大数据处理关键技术 基于大数据的信息系统关键技术 浅析云环境下的大数据关键技术 面向大数据的Deep Web数据系统关键技术研究 大数据安全和隐私保护技术体系的关键技术研究 移动数据库关键技术及应用探讨 社会网络大数据分析框架及其关键技术 农业云大数据自组织推送关键技术综述 基于大数据的信息系统关键技术研究 云计算环境下的大数据可靠存储关键技术概述 面向大数据的分布式系统设计关键技术研究 大数据时代下软件工程关键技术分析 移动互联网的大数据处理关键技术 电信运营商大数据变现之关键技术 移动通信网络中大数据处理的关键技术 常见问题解答 当前所在位置:l.
[4]Big data[EB/OL]..
[18]丁智,林治.MapRdeuce编程模型、方法及应用综述[J].电脑知识与技术,2014,10(30):70607064.
[19]江舢,金晶,刘鹏展,等.分布式海量数据批处理技术综述[Z].中国科技论文在线,2012.
[20]吴哲夫,肖鹰,张彤.大数据和云计算技术探析[J].互联网天地,2015(4):611.
[21]马红玉,张柳.大数据中的可视化分析技术[J].山东农业大学学报:自然科学版,2014,45(s):5658.