时间:2023-05-31 15:11:02
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据分析分析技术范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
关键词 数据挖掘技术 警务系统 数据分析 应用
中图分类号:TP311 文献标识码:A
1数据挖掘技术在警务数据分析系统中的重要性
警务系统由于工作的特点,要不断地接受外来数据和有序存储旧数据,这就对警务系统的数据处理系统有越来越高的要求,传统的警务数据处理系统在信息量巨大的现今社会已经不能再有效的完善数据库的运行,这就需要新型的数据处理系统接替工作。新型的数据处理系统在案件的信息提取、视频分析等方面都应该有卓越的性能,将对案情有帮助的信息从大数据库中有效的提取出来。数据挖掘技术是一项在能够提高警务系统在数据的提取和挖掘效率的一项技术,能在短时间内将案件中的数据作为数据源,将其进行分析和建模,从而从这些数据中获得有力的线索。
2目前警务系统特点
现今的警务系统是跟随时代不断发展的一个工作效率高、工作素质强的组织系统,有案件处理速度快、案件分析效率高的特点。这些特点,都需要警务系统中数据处理系统的有效应用,通过对数据的处理分析、检查对比得出较有价值的案件线索,从而提高效率。警务系统的正常运行离不开数据处理系统,而数据挖掘技术更是数据处理系统的重要组成部分,它确保了整个系统的运行速度,对案件的侦查有促进作用。
3构建警务系统数据存储器
基于警务系统的数据特点,警务系统应该建立一个高速运行的警务系统数据存储器。“数据存储器”在结构上分为三个部分,分别是关系系统、OLAP服务器以及客户处理系统。这三个部分的作用效果如下:
3.1关系系统
关系系统是这三个组成部分的基础部分,这个系统负责对系统中的数据进行整理和提取、刷新,将数据在整个系统中的存储位置有序的排列好,防止数据丢失和数据残缺的现象发生。关系系统在运行的过程中通过警务系统不断的收集新的信息,将其整理保存,始终将数据系统中的有效信息得到较完好的保护。
3.2 OLAP服务器
OLAP是联机处理的缩写,是将多角度的信息共享并由一个关键的出发点而联机进行数据处理分析的一个软件技术,在警务系统中可将需要处理的信息进行联机处理分析,将信息较快的处理出来,得到有效的结论。
3.3客户处理系统
客户处理系统是将数据进行分析处理以及检索和报告的一个系统,通过对数据之间的联系将数据的信息整理和挖掘出来,形成有用的线索,供警务系统人员进行案件的侦破和处理,是数据存储器的重要部分,特别是数据挖掘技术的应用时整个系统的运作重心。
4数据挖掘技术
数据挖掘技术是将数据库中的数据进行采集、集成以及分析的一项技术,其应用到警务系统中可以对案件相关信息进行检索和分析,应用了多维数据分析处理及关联规则的应用、聚类分析方法的实际处理等数据挖掘分析处理模式将警务系统中的数据有效的联系起来,形成一个较为完整的数据挖掘模式。
在挖掘出境数据时,数据挖掘技术的决策树技术有效应用,与县赢得算法技术相互应,将数据较为完整的从警务系统中巨大的信息库中挖掘出来,实现了数据挖掘的分级处理模式的有效应用。
5数据挖掘技术在现代警务系统中的应用
在警务系统中,数据挖掘系统在案件的相关数据中整理生成了一个多维数据模型,使信息可视化、将案件信息的关系更加清楚的展现在警务系统的工作人员面前,通过多角度、多方面的分析和挖掘,将系统中的有用信息全部呈现在报告中,实现了信息的有效用。
6结语
警务系统中的信息有多样化、复杂化、信息量巨大的特点,使用传统的数据库是不能按照现代的社会发展速度生存的,对数据进行高效的分析处理和采集,是现代警务数据处理系统应该具有的一项特点。在数据处理速度快的前提下,数据处理系统的管理能力和联系能力也应该是突出的,本文中提到的数据挖掘技术就是解决数据处理问题的有效解决办法,其运行通过对数据的建模、分析、采集等手段强化了数据处理系统的能力,为警务系统中案件处理效率的提升做出了一定的贡献。目前社会的高速发展离不开大数据的支持,大数据时代对数据的处理系统要求越来越高,数据挖掘技术近些年在警务信息系统中的引用为警务系统的发展提供了技术上的有效支持,警务系统未来的发展肯定也离不开数据的有效处理工作,数据挖掘系统在未来的警务数据分析系统中也会有不断地改善和提高。
参考文献
[1] 刘敏,朱鹏,方有轩.面向市场分析人员的经分模型库的设计与实现[J].电脑与电信,2016(09) .
1计算机大数据分析中云计算技术作用分析
云计算技术可以给提供计算机数据传递与共享的条件,融合软硬件数据保存,促进计算机处理工作更好的开展。云计算技术可以给用户提供良好的网络环境与保存空间,处理数据传递环节的各项问题。与传统大数据分析技术相比,云计算计算可以提高大数据分析质量。人们借助云计算技术获得云终端的数据,切实满足人们对于数据的需求。现阶段计算机市场形成完善的结构体系,围绕云计算技术推动计算机大数据分析工作的开展,奠定后期云计算技术发展的基础。目前,人们生活中全面运用云计算技术,基于云计算技术研发的服务器及操作系统方便人们处理各类信息技术。同时,云计算技术数据保存有着较强的安全性,极小可能出现数据丢失情况,满足人们的实际需求,直接体现出云计算技术的优势。优化云计算环境下计算机的数据处理中心,就可以不断提升计算机的云计算能力,让云计算不仅为网络信息所用,还在计算机网络安全中发挥极为重要的作用。目前,计算机的使用人群更为注重的是在高速发达的信息社会,自己的信息,也就是使用计算机网络的安全性能是否能得到保障,这时候考验的就是云计系统的完善性。目前存在的最主要计算机安全问题就是黑客问题和系统漏洞问题。系统漏洞这一人为因素可以通过不断检索进行漏洞的发现和修补,面对黑客的攻击,能够做的就是防患于未然,不断地升级和优化系统,最终达到完善的数据处理效果。
2云计算技术下计算机大数据分析面临的问题
2.1网络技术安全
由于相关技术的不断发展,云计算环境下的网络安全技术正在朝着稳定和成熟的方向发展,但在具体的应用过程中依然表现出一定的网络安全问题,因此用户在使用过程中应该做好相关的应对工作。网络安全问题具体表现在用户在使用信息传输的过程中,一旦出现服务性中断问题,难以保证数据的安全性,启动被动保护模式的情况使信息的安全性更加难以保障,这也成为云计算模式下的网络技术安全中的重点问题,一旦得不到及时有效的解决,用户在使用过程中就会受到不同程度的威胁。
2.2网络环境安全
网络环境安全是保证网络正常使用,信息传输质量有保证的重要前提,一旦网络环境存在不安全因素,将会引发病毒的入侵和黑客的攻击。因此网络环境安全也是云计算技术价值得以发挥的重要前提。计算机在使用过程中如果长期受到病毒的困扰和黑客的威胁,将会降低人们对计算机的信赖性,甚至在工作和生活中将会在网络环境安全方面投入更多的成本。
3计算机大数据分析中云计算技术的具体应用
3.1数据传输安全分析
在云计算的作用下,云安全含义逐渐形成,具体来说,云安全主要指在用户借助云计算技术来实现计算机大数据分析时,让数据安全性得到了保证。用户端数据和数据安全往往呈现出正比关系,随着应用群体数量的增多,涉及的计算机数据范畴将不断扩充,假设计算机遭受病毒的攻击,可以在云计算技术的作用下实现病毒的拦截,以此让计算机数据安全性得到保证。从云计算技术自身角度来说,其提供的各个服务均是由IaaS基础设施级服务以及PaaS平台级服务两项内容构建而成。首先,IaaS基础设施级服务其作用在于,可以给用户提供对应的服务,也就是对各个计算机基础设备进行操作和应用,其中包含了CPU处理、数据保存、数据传递等。其次,PaaS平台级服务则是指,把云计算中各个服务器及开发环境当作服务,通过PaaS平台用户能够结合自身需求实现对应操作流程的部署和应用。
3.2监督数据资源共享
网络资源在传输过程中遭遇到的安全威胁是用户时时刻刻关注的问题,因此在具体的工作和管理中,需要提高云计算网络安全技术的应用程度,通过不断创新安全模式,完善相应的防护体系,从而有效消除安全性问题,提升数据传输的安全性和稳定性。具体在应用过程中,可以借助云计算技术的优势,对数据传输的整个路径进行监控,保证传输通道环境的安全性,一旦出现问题及时进行预警,有效预防黑客的攻击,降低网络安全事故发生的概率。对此,有关部门应该提高重视程度,同时完善相应的监督管理制度,采用科学的管理方式,实现预期的监测目标。
3.3提高数据使用安全
计算机用户本身的安全意识也是当前需要关注的重要方面,为了进一步提升用户数据信息和计算机系统的安全系数,需要重视身份认证工作的提升,具体可以使用实名制的方式进行认证处理,从而不断提升整个网络结构的安全性。对于网络应用过程中涉及到的安全问题,可以通过实名追踪的方式进行可疑目标锁定,从而有效控制恶意攻击情况的发生。但在应用过程中也需要重视假人名情况的出现,提高网络数据信息窃取的预防水平。计算机网络环境算是一种相对开放的环境,在使用过程中会面向大量的用户,通过重视用户的身份认证,可以有效避免用户对数据的非法访问。同时在使用者进行计算机登录和使用的时候,需要对用户名和密码进行核实。按照权限的不同,确保数据库信息的安全有效性。通过对数据库信息加密处理,可以确保数据库信息的安全性。这种加密处理可以在原有数据信息的基础上进行算法的处理改进,使用者可以通过自身的权限获取想要了解的信息,如果没有解密方式,不法分子将会难以获取数据的原始信息。
3.4网络安全等级防护
在云计算环境下的安全管理中心具备系统管理、安全管理和安全审计等功能,能够满足不同云计算环境下不同安全等级的保护要求,并且通过服务层的安全保护框架,实现对不同等级云服务客户端的安全保护,为使用者提供安全可靠的资源访问服务。在访问云服务商时,用户可通过通信网络、API接口和Web服务方式访问云服务器,但是用户终端系统的安全防护不在网络安全等级保护框架体系内。在保护框架体系内,资源层和服务层安全是云计算环境安全保护的重点,资源层包括物理资源安全和虚拟资源安全,应按照安全设计要求构建资源层安全保护框架。云计算环境下的网络安全等级保护要针对不同等级云计算平台确定不同的安全目标,一般情况下安全保护等级最低为二级,并根据安全目标和等级要求实施安全设计步骤,具体包括:第一步,根据云平台的租户数量和业务系统情况确定云计算安全保护标准,制定云计算平台的安全保护策略,以避免在云计算平台上发生安全事件;第二步,细化安全技术要求,针对安全计算环境、安全区域边界、安全通信网络以及安全管理中心制定出相应的安全保护策略;第三步,根据云计算功能框架中的各层功能和保护要求,制定安全技术机制,使其满足云计算功能框架的安全保护要求。在完成云计算环境下的网络安全等级保护设计之后,还应增加虚拟化安全、镜像安全、接口安全等安全控制点,并采用访问控制技术、身份识别技术等安全防护技术,实现与云计算平台上各功能层次的对接,提出各层的安全保护措施。
3.5重视相应程序开发
网络安全应用程序需要随着技术的进步和人们生活和工作的需要进行逐步提升,从而及时对病毒程序进行开发和处理,确保计算机系统可以敏锐捕捉到病毒的活动迹象,提升自身的防御能力。通常情况下,对于计算机的服务,内网隐蔽处理,可以提升网站平台的访问速度,可以避免不安全网址带来的不良效应,从而为计算机的安全防御提供一定的屏障。在计算机数据的使用中,由于安全性威胁导致的数据丢失问题,可以通过备份和恢复改善。这种恢复性功能也可以保证数据的一致性和完整性。通常由逻辑备份、动态备份以及静态备份等几种情况。计算机黑客数量增多,净化网络环境显然存在较大难度,但通过必要的防范措施依然可以在数据库信息的保护中起到关键作用。而使用防火墙保护工具就能很好的为计算机网络提供一种安全保障。通过防火墙,可以在一定程度上防止黑客的侵害。
关键词:油田生产;大数据;数据挖掘
前言
新疆油田重油开发公司是以稠油开采为主的采油厂。有着将近10年的数字油田建设历史。而且中心数据库已经做得很成熟,主要包括五大业务板块数据。即勘探业务板块、开发业务板块、生产业务板块、经营业务板块的数据库。数据库包括的内容主要有单井、区块的日月报数据、试井与生产测井数据、分析化验数据、井下作业和地理信息数据等。数据库的数据资源种类齐全,质量高。2010年新疆油田重油开发公司正式开始进行智能化油田建设工作,利用物联网诊断单井问题,使用大数据技术对油田进行全面感知、分析预测、优化决策找到油水井的生产规律,从而有助于油田生产工作进行。
1 油田大数据的概念及处理流程
大数据有四个特点即量大(Volume)、快速生产(Velocity)、类型丰富(Variety)、真实性(Veracity),被称为4V[1]。由于数据的数量非常大,就将数据组成数据集,进行管理、处理实现数据的价值。大数据对数据库的整理流程是将数据转化为信息,将信息转化为知识,再将知识转化为智慧。这个过程应用于油田可以理解为是对油田的生产和管理工作。大数据的七个处理步骤包括:对数据的提取和收集、清洗数据、分析数据找到潜在的内在价值规律、建立预测模型、对结果进行可视化的估计、验证结果、评估模型。
2 大数据分析平台及体系架构研究
新疆油田为了满足生产应用,构建了一个有效的大数据分析平台及体系架构。此平台主要包括四个基础架构:数据抽取平台、进行分布式的存储平台、大数据的分析与展示平台。最底层是数据抽取平台主要是实现数据的整合,将数据转化成适合进行数据挖掘或者建模的形式,构建可靠的样本数据集。存储平台主要是对数据进行汇总、建模、分析,最后将处理好的数据进行储存。其功能与数据仓库相似。大数据分析层,是在大数据建模的工具和算法基础上,挖掘隐藏的数据模式和关系,利用数据软件进行分类、建模,生成预测的结果,结合专家经验利用测试的样本选定评价方案不断提高模型的精度,更好的用于油田的决策。数据应用层主要是把建立的模型设计为运行软件,运用建模方法实现数据的可视化界面设计,更好的实现人机交互。
3 大数据分析技术研究
进行大数据分析时我们经常采用两大技术即大数据预处理和抽取技术,大数据分析技术。
3.1 大数据抽取及预处理技术
大数据预处理和抽取技术的原理是指将不同名称,不同时间,不同地点的多种不同结构和类别的数据抽取处理成一种所表达的算法和内涵一致便于处理类型的数据结构[2]。在检查数据缺失、数据异常时可以使用数据清洗方法确定有用的数据,一般采用剔除法或估计值法、填补平均值替换错误的数据。为了满足建模所需的大量数据,创建新的字段时需要进行数据库的构建。将原始数据用一定的方法如归一法转换为可用于数据挖掘的数据,这个过程为数据转换。
3.2 大数据分析技术
应用于油田的大数据分析技术为:因子分析技术、聚类分析技术、回归分析技术和数据挖掘技术。其中的因子分析技术是指,利用少数的因子对多个指标和因素间的相关性进行描述,一般将密切相关的多个变量归纳为一类,这一类数据就属于一个影响因子,用较少的因子反应大量数据的信息。聚类分析技术是指把具有某种共同特性的事物或者物体归属于一个类型,并按照这些特性划分为几个类别,同种类型的事物相似性较高。这样更利于辨别预先未知的事物特征。回归分析是指在一组数据的基础之上,研究一个变量和其他变量间隐藏的关系。利用回归方程,进行回归分析,从而有规律地把变量之间的不规则,不确定的复杂关系简单得表示出来。
在使用大数据进行分析时,数据挖掘技术是最关键的一门技术。该技术将大量复杂的、随机性的、模糊的、不完整的数据进行分析,挖掘出对人类未来有用的数据,即提前获得未知信息的过程[3]。数据挖掘功能分为预测功能和描述功能。数据预测是指对数据进行处理推算,完成预测的目的。数据描述是展现集体数据的特性。数据挖掘功能是与数据的目标类型有关,有的功能适用于不同类型的数据,有的功能则只适用于特定功能的数据。数据挖掘的作用就是让人们能够提前得到未知的消息,提升数据的有效性,使其可以应用于不同的领域。
4 大数据分析在油田生产中的应用研究
4.1 异常井自动识别
油田生产过程中影响最大的一个因素是异常井的出现,因此生产管理人员加大了对异常井的重视。最初,异常井的识别主要是依靠生产部门的生产人员,必须经过人工查阅许多关于油田生产的资料才能确定异常井,这种人工检阅的方法存在很多缺陷。比如说大量的检索工作、耗费时间长等,对异常井的诊断和措施制定造成很大的困难。异常井是指油井当天的产油量和上个月相比波动很大,并大于正常的波动范围。目前广泛采用数据挖掘技术和聚类分析技术对异常井进行识别,提高效率。为了实现算法编译使用技术,系统架构B/S模式进行,能够及时发现异常井的存在。
4.2 异常井智能诊断
异常井诊断是油田每天进行生产必须要完成的工序。而大部分油田采用人工方法对其进行异常诊断,工作量极大,影响因素较多,诊断结果的可靠性较低,对后期进行计划实施造成很大的影响。这时可以采用智能诊断方法,利用灰度图像处理技术和人脸识别算法建立抽油井的特征功图库,对比油井当前的功图和所建立的特征功图,实现异常井的诊断。若是相似则不属于异常井,反之,则为异常井。但是有时一种工况可能会有许多中表现方式,致使功图解释存在很多种状况,可以采取因子分析法,分析每个工况下关联的因子间是如何变化,然后建立参数诊断数据库,对比相关因子的指标项,找到异常的原因,采取适合的方案进行修改,从而提高单井的生产效率。
4.3 间抽井开关井计划制订
当油田开发进入后期阶段就会出现很多问题,过度开发使得地层的能量越来越少,致使更多供液不足的井开发出来。将这类井称之为间歇出油井。新疆油田一般会使用人工方法制订间歇出油井的开关时间计划,但是对于计划的合理性没有进行检验。若是能够控制好间歇出油井的开关时间,对油田实现节能减排是至关重要的。这时可以采用因子分析方法和回归分析法进行研究,利用数据挖掘技术找出影响间歇出油井的开关时间的因素,建立合适的分析模型,对模型进行线性回归,进行归一化处理。从而为业务人员提供制订间歇出油井开关时间的合理方案,达到节能减排的效果。
4.4 油井清防蜡预测
目前油田上对于油井清蜡采取平均每口井一个月清洗一次蜡的措施,按照人工计划进行,出现了许多问题。比如,一些井还没有结蜡就已被清洗,有些井已经结蜡,却没有得到及时清洗。这样既浪费大量的人力物力,而且还对油田的生产效率产生不利影响。若是利用因子分析法,将收集的关于结蜡周期、清蜡方式、清蜡用量、油井状况等数据进行分析,建立油井Y蜡模型,再利用回归分析法对建立的模型建立曲线方程,进行预测,找到结蜡时间,推断出结蜡周期,更好的指导油田清蜡工序的进行,提高油田的精细化管理。
5 结束语
总之,对比以前利用人工进行油田生产可以发现大数据对于油田生产是非常必要的,可以更快的挖掘油田的生产作业规律,解决油田生产的困难。而且,可以利用油田数据进行可视化分析,关注问题的主要影响因素找到管理中存在的不足,预防未来问题的出现。大数据的核心价值就是通过以往大量数据进行分析,预测出未来,从而更好地指导油田的生产工作。
参考文献
[1]杨泽民.数据挖掘中关联规则算法的研究[J].软件,2013(11):71-72.
论文摘要:电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。
本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。
一、绪论
互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。
电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。
电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。
在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。
在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。
二、站点信息统计方法
Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的
主要特点:
1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。
2.结构是隐含的。如电子文档SGML格式。
3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。
4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。
5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。
三、数据分析的方法
Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。
知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:
1.依赖性分析
依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。
2.聚类和分类
在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。
3.神经网络
神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。
4.数据挖掘中的关联规则
关联规则是数据挖掘的一个重要内容,通常关联规则反映的是数据间的定性关联关系。如一个商品交易数据库,一条记录表示用户一次购买的商品种类,每个属性(A、B……)代表一种商品,每个属性都是布尔类型的。一条关联规则的例子是:{A、B}{D}[2%][60%],规则的含义是“如果用户购买商品A和B,那么也可能购买商品D,因为同时购买商品A、B和D的交易记录占总交易数的2%而购买A和B的交易中,有60%的交易也包含D”。规则中60%是规则的信任度,2%是规则的支持度。数据挖掘就是要发现所有满足用户定义的最小信任度和支持度阀值限制的关联规则。数据只是定性地描述一个交易是否包含某商品,而对交易量没有定量描述,这种布尔类型数据间的关联规则被称为定性关联规则。但数据记录的属性往往是数值型或字符型的,这些数据间也存在对决策有帮助的关联规则,相对于定性关联规则,这些规则被称为定量关联规则。
另外,数据挖掘目前仍面临着数据质量的问题。由于数据仓库中的数据来自多个数据源,而在合并中存在很多障碍,如:没有建立合并视图所需的公共关键字;数据值相互抵触;元数据的说明不完备或丢失;数据值的不洁净等等。数据挖掘是在标准化的数据基础上进行的,因而这些都会严重破坏数据的准确性,导致最终决策的失误。所有这些问题都在等待着人们去发掘更好的解决方法。
参考资料
1.周斌,吴泉源,高洪奎:“用户访问模式数据挖掘的模型与算法研究”,《计算机研究与发展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
4.Inmon,William H,Building the DataWarehouse(2nd ed.).Wiley.NewYork(1996);
【关键词】Hadoop 电力行业 大数据分析
随着互联网+时代的到来,各行业数据的共享与融合越来越迫切。电力生产关系民生和经济发展,随着电力信息化的发展,涉及发电、输电、变电、配电、用电等各个环节的数据呈爆发性增长,PB数量级的数据,已无法通过传统的数据管理、抽取、分析技术挖掘数据间的多重关联关系,从而更有效的实现电力风险预警,提高生产效率和智能调度功能。
1 Hadoop平台介绍
Hadoop是Apache软件基金会旗下的一个开源分布式计算平台。以Hadoop分布式文件系统和MapReduce为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统,MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序。所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。
Avro是doug cutting主持的RPC项目,有点类似Google的protobuf和Facebook的thrift。是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程PRC调用以及简单的动态语言集成功能。
实现了MapReduce编程框架,用于大规模数据集的并行运算。能够使编程人员在不理解分布式并行编程概念的情况下也能方便将自己的程序运行在分布式系统上。
HDFS分布式文件系统,其设计目标包括:检测和快速恢复硬件故障;数据流的访问;简化一致性模型等。
Zookeeper是Google的Chubby一个开源的实现。它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。
Pig是SQL-like语言,是在MapReduce上构建的一种高级查询语言,把一些运算编译进MapReduce模型的Map和Reduce中,并且用户可以定义自己的功能。Yahoo网格运算部门开发的又一个克隆Google的项目Sawzall。
Chukwa是基于Hadoop的大集群监控系统,是开源的数据搜集系统。通过HDFS来存储数据,并依赖MapReduce来处理数据。
2 数据抽取分析模型
目前电力行业数据包含结构化数据如常规oracle,MySQL等数据库类型,同时也存在大量log日志文件,e文件等非结构化数据,为能全面有效的实现多业务,多数据综合建模分析,设计如图2所示,数据处理模型。主要由数据抽取、格式清洗和DFS分布式文件系统构成,同时为下一步大数据建模分析打好基础。
数据抽取模块主要负责从原业务系统获得结构化和非结构化业务数据。通过在数据抽取工具中配置前端机器名称、端口号、加密用户名密码、数据表等信息,实现结构化数据的抽取工作。对于日志类文件由于在原服务运行期间日志文件是持续写入状态,因此必须在原系统设置,系统日志按时间节点分割,一般可按具体业务运行情况和日志产生量和产生大小进行设定,避免因日志文件过大或网络繁忙,在抽取时对业务造成影响。
格式清洗模块主要是对原始数据中多种不同配置格式进行统一,特别是对非结构化数据,需定义每个字段的含义和位置以及统一分隔符,同时还会去掉一些记录不完整的坏数据,保证数据的格式统一,信息完成。最后导入HDFS文件系统进行存储。
数据分析通过Map/Reduce操作实现,通过设计业务分析模型,定位此项数据分析所需输入数据,并将数据数据分割成若干独立的块,并根据Inputformat把Y料读入成一组(key,value)对,然后通过mapper count分给不同的mapper进行处理。再设计模型中,通过设置满足要求的map任务值,并引入哈希算法,将mapper对应初始的(initialkey,initialvalue)生成中间数据集(interkey,intervalue)划分为多个任务,将模值相等的任务丢到统一节点上计算,以实现比较平衡的分类效果。
Reducer对mapper产生的(interkey,intervalue)中间数据集,进行驱虫、过滤等后期处理后,得到结果。为实现输出文件格式支持通过key来高效的自由访问,并得到有序的数据输出,在reducer中加入排序环节,将所有的中间数据集根据key来排序的。这样每个小块都很容易生成一个序列化的输出文件。
通过展示系统,实现各业务模型数据分析结果图形化的展示在监控大屏上,同时桌面用户还可通过浏览器或客户端在终端上查询分析结果。
3 总结
通过hadoop平台构建电力行业大数据分析模型,可按照业务需要进行灵活进行组合,提高各专业间的数据共享融合,实现由点状业务分析模式,到贯穿“三集五大”各专业的网状业务分析模式,可进一步提高电网的健壮性、互动性和智能化,为社会经济稳定发展提供保障。
关键词:大数据分析; 工程造价; 精确性
一、大数据分析对工程造价精确性的影响原理
(一)工程造价影响评估数据优化处理利用大数据分析技术开展工程造价分析的过程中,需要针对工程收集相关的数据,针对数据进行全面的分析。针对工程确定造价的过程中,可以更好的收集相关信息,实现对于信息的全面管理。利用大数据分析技能够对于工程造价项目进行精准评估,具体应用公式如下X=X-XminXmax-Xmin。根据该公式我们能够看到,利用大数据分析技术减去最低值与最高值,通过这种方式确定工程造价的评估范围,该范围具有很强的适用性。
(二)恢复评估结果原值针对评估结果需要恢复其原值,这样才能进一步缩小工程造价的影响范围。具体的公式如下:X=X′(Xmax-Xmin)+Xmin。通过这一公式针对工程总价结果恢复原则,最终进一步提高评估数据的科学性与合理性,这样工程造价数据更具真实性与可靠性。
(三)建立数据分析机制施工项目应该建立数据分析机制,建立专门的数据分析机构,针对施工项目的特征以及相关数据进行数据分析,全面评估施工项目的相关成本。施工企业应该在内部购入信息化设备,建立符合工程项目的模型,确定粒子群模型,通过建立相关的模型简化计算过程,提升工程造价的核算价值。同时施工项目还要训练相关的工作人员应用大数据技术的能力,这样才能最大限度的保证数据分析工作的顺利开展,提升大数据分析效果。
(四)灵活开展数据分析利用大数据分析技术开展工程造价工作的过程中,应该保证数据分析的灵活性,从不同的角度开展数据分析,全面的分析施工项目中的各种数据,及时发现问题。不同的数据之间能够形成相互验证的关系,这对于提升工程造价工作水准具有积极的效果。
二、大数据分析对于提升工程造价精准性的影响
(一)提升工程造价的合理性。大数据分析能够对于大量的数据进行全面的分析,数据更加全面合理,因此能够全面的提升工程造价的合理性,对于提高工程造价数据的科学性具有积极意义。大数据分析技术的应用能够从不同角度提供工程预算数据,这样能够多方位的印证施工项目工程造价中的相关数据,发现问题能够及时的进行更改,这样才能全面的提升工程总价水平,为施工项目的开展提供更加可靠的数据。
(二)增加工程造价的动态性。传统的工程造价项目数据都是固定的,不会根据工程项目的开展进行变动,这种情况下一旦实际工程中出现一些偏离,工程造价数据的利用价值就会降低。利用大数据分析进行工程造价的过程中,在项目施工的过程中能够根据项目施工情况的变化调整工程施工项目数据,改变前期确定的工程造价。由此我们能够看到大数据分析能够提升工程造价的动态性,对于全面提升工程造价水平具有积极意义。
(三)增加工程造价的全面性工程造价需要对于工程项目各个方面进行数据分析,这样才能全面提升工程造价数据的科学性。大数据分析是对于工程项目的各个方面的数据进行全面的收集,这样工程项目的全面性得以提升。利用大数据分析计算不仅能够分析工程项目数据中的各种财务数据,还会分析一些非财务数据,这些数据非常的全面,能够从不同的角度体现工程项目施工情况,这对于提升工程造价精确性具有积极意义。
(四)增加工程造价的指导作用工程造价是为了更好的指导工程项目的施工工作,利用大数据分析技术能够全面的开展对于工程项目相关数据的收集与分析,提高工程造价的可参考性,因此项目开展施工的过程中会更多的参考工程造价数据进行施工管理,这样能够全面的提升工程造价的实用性,对于提升工程项目管理水平具有积极意义。为了更好的发挥其指导意义,利用大数据分析计算开展工程造价工作的过程中,应该加强数据与施工项目数据之间的联系,这样才能保证工程造价的可参考价值,为施工项目的顺利完成提供可靠的保证。
三、利用大数据分析提升工程造价精准性的措施
(一)优化硬件设施大数据分析的应用需要拥有良好的硬件设置作为保证,为了能够更好地利用大数据分析技术开展工程造价工作,施工项目单位的工作人员应该不断的优化数据分析相关的硬件设施。首先,施工项目应该引进更加先进的设备,通过硬件设备的完善为工程造价工作的开展提供良好的环境。其次,施工单位需要培养大量的优秀人才。大数据分析工作属于一种系统性非常强的工作,需要大量的掌握计算机技术的人才,因此为了能够让大数据分析技术更好地应用工程造价,施工单位内部应该培养与之配套的人才,这样才能让大数据技术真正的应用工程造价工作中去,为工程造价工作更好地开展提供可靠地保证。再次,施工项目人员应该在内部建立一个数据库,把项目施工中的各种数据信息都存在在数据库中,这样能够更方面数据分析人员利用大数据技术开展数据分析,全面提升数据分析水准。
(二)加强软件管理大数据技术的应用不仅需要硬件支撑,还需要与之配套的软件设施,这样才能最大限度的发挥大数据分析的优势作用。因此,施工项目单位开展工程造价工作前应该加强对于单位内部的软件管理。首先,应该优化人力资源,提升员工对数据分析技术的掌握程度,针对工作人员进行技能培训,让相关的工作人员掌握必要的大数据技术开展数据分析。其次,施工单位应该建立与施工项目适应的软件设置,根据施工项目实际情况以及数据分析需要设置必要的数据分析职能,建立属于施工项目自身的软件系统,这样才能更好地发挥大数据分析的优势,让数据分析全面的服务于工程造价工作,全面提升工程总价水准。
(三)建立造价分析工作常态化分工协作体系工程造价分析工作需要各个部门互相配合,这样才能最大限度地提升工程总价工作水平。因此为了能够更好地利用大数据分析技术开展工程造价工作,施工单位应该建立造价分析工作常态化的分工协调体系。优化单位内部工作流程,落实工作责任,把大数据分析的具体职能深入的落实到单位内部的各个人员以及相关部门手中,这样才能最大限度的保证工程施工项目能够更好地开展施工,提高工程造价数据的精确性。在数据收集的过程总,应该让每个工作部门都积极的参与进来,这样能够提升数据的范围,保证数据更加真实可靠。只有真实可靠的数据来源才能更好地保证大数据分析结果更加的科学。另外,还要做好数据的存储与保管工作,把大量数据存储于数据库内部,这样才能够扩大大数据分析的范围,提升分析结果的科学性。
(四)加强对于大数据分析环境下对于工程造价的监督为了能够更好地利用大数据分析开展工程造价工作,施工单位利用大数据分析技术的过程中,应该加强对于大数据分析工作的监督与管理,这样能够及时的发现大数据分析中的问题,针对问题提出有效的解决措施,防止大数据分析技术应用不充分影响工程造价工作的开展。在监督管理工作开展的过程中,需要保证相关工作人员的独立性与专业性,只有保证独立性才能提升监督管理效果。保证专业性是为了更好地发挥监管职能,及时的发现问题,解决问题。
一、制约税收风险数据分析的因素分析
1.基础数据质量不高,影响风险数据分析的准确度。数据分析应用必须建立在真实、准确、完整的数据基础之上。在目前的数据分析应用实践中,一些基础数据质量不高,还不能适应税收风险数据分析的需要。外部数据方面表现为纳税人税务登记、日常申报及财务数据中存在错误或不完整,导致信息采集缺失或分析失误;第三方涉税信息不足,缺乏有效流转渠道,导致不能进行纵向比对,不能获取更多地数据资源,不能检验纳税人自行报送数据的真实性和准确性。内部数据方面表现为前台工作人中责任心不强,录入基础数据不准确、不完善;基层税源管理部门对信息采集不重视,不能及时更新纳税人相关生产经营数据等导致信息分析不准确。2.数据来源应用范围窄,影响风险数据分析的深入性和实用性。从目前风险数据分析的来源来看,主要依靠金三系统风险预警评估系统的风险预警信息、部分省区数据综合分析利用平台的预警信息和上级部门推送的专项分析任务,真正依靠自己挖掘出的数据进行分析的部分还较少。在日常税源监控、纳税评估工作中运用分析多,针对税收收入变化、税收政策变化、税制改革影响等方面应用较少,对区域经济有针对性和指导性的分析少。在宏观指标的分析上应用少,导致数据分析的实用性变弱。3.信息化水平不高,影响风险数据分析的质量与效率。在基层税务部门,目前的信息化应用水平还不够高,成为制约数据分析应用的重要因素之一。主要表现为基层税务干部信息化水平普遍不高,受年龄和学历限制,税收知识更新换代慢,计算机基础薄弱,不能主动利用手中掌握的数据资源发现问题或进行分析。复合型人才缺乏,不能适应数据分析的需要。另一方面,上级局在下达专项分析任务后需要基层进行落实时,无法按照疑点进行深入分析和落实,影响了工作质量和效率。4.综合涉税信息不健全,影响风险数据分析的完整性。全面掌握纳税人涉税信息是做好数据分析应用的基础和前提之一。目前仅依靠税务部门的信息资源,还不能全面、及时、准确的掌握纳税人所有的数据资源。与供电、财政、银行、海关、银行、房管、土地等政府部门缺乏有效的信息传递与反馈渠道,信息的集中度和共享度不高,导致风险分析和识别质量不高,指向性不强,不能适用数据分析应用的要求。日常工作中真正采集到的第三方信息运用的很少,信息的不对称导致数据的完整性受限,分析应用的作用得不到有效发挥。
二、深化税收风险数据分析应用的思路
1.提高思想认识,牢固树立信息管税理念。一是基层税务部门应该树立风险管理和信息管税的理念,充分利用现代信息技术,对涉税信息进行采集、分析和利用,从宏观上加以把握和引导,达到提高税收风险管理水平的目的。二是引导广大税务干部树立信息管税的理念,适应信息化时代的要求,及时更新自己的观念和知识。在日常工作中要注意采集涉税信息,熟练掌握税收政策,并进行各种税收软件进行基本的分析,提高信息化应用管理的能力。2.提高数据质量,打好风险数据分析应用基础。做好数据分析工作,首先要保证数据采集的质量。一是做好基础数据的采集工作。针对纳税人自行报送的税务登记、日常申报、财务数据等要加强审核,确保录入的真实性和完整性。二是做好第三方信息的采集工作。加强与政府有关部门的沟通和协调,做好第三方信息的采集和利用工作,确保信息渠道畅通,通过内外部信息数据的分析,及时掌握税源管理的情况。三是加强对数据的监控工作。通过数据综合分析利用平台加强对数据的分析监控,发现存在疑点数据时及时进行通报,并传递到前台和基层税源管理部门进行处理和反馈。3.拓宽分析范围,提高风险数据分析系统性。风险数据的分析是一项综合性工作,数据的选取、分析目标的选择、分析的手段等,都要从税收工作的多方面入手,而不应局限于某一方面。一是综合确定分析选题,坚持宏观定方向,微观找问题的原则。宏观方面可以根据税收政策的变动、税制改革的影响来选择,从税源结构、收入变化、税源增减变化等等入手,围绕领导关注的热点、阶段工作重点、业务管理难点等寻找数据分析的突破口。微观方面可以通过日常税源监控发现有价值的信息,再由业务部门和技术部门进行数据的提取和分析,查找问题存在的原因,提出专题分析的措施和意见。二是完善分析手段。充分利用金税三期系统、数据综合分析利用平台等,密切注意信息技术的发展和新形势,利用先进的数据库技术、数据展现工具和数据挖掘工具,不断创新分析手段。进一步完善分析指标体系,拓展数据分析模型,提高对数据的深度挖掘能力和综合分析能力。4.加强协调配合,健全风险数据分析应用机制。税收风险管理工作是一项系统性的工程,风险数据产生于税收工作中的多个环节,也涉及到多个部门,因此风险数据的分析应用需要各个部门的通力配合。一是做好统筹规划,设立专门部门,具体承担数据分析应用工作的组织、协调、监督等工作,制定风险数据分析的工作流程,明确各部门的职责,设置相应的岗位,确保数据分析工作流畅运转。二是各级、各部门要共同参与、密切配合,政策法规、税收、收入核算、征管、信息中心等部门都要参与进来,形成数据分析的工作机制。5.积极培养人才,提高风险数据分析应用水平。风险数据分析工作对数据分析人员提出了更深更高的要求。要胜任数据分析工作,需要既掌握税收业务知识、计算机知识,又掌握税收政策的变化、经济形势发展变化的复合型人才。一是善于用人,把业务能力强、信息技术水平高的人才充实到数据分析岗上,给予他们施展才华的平台。二是加强对人才的培训,通过短期培训、继续教育等多种形式,促进数据分析人才的快速成长。三是强化基层税务干部的培训。采取不同方式,加强对税收政策、业务以及计算机知识等的培训,使全体干部掌握数据分析方法,提高数据分析的综合能力,为数据分析应用打好人才基础
作者:黎涛