时间:2022-07-17 22:06:00
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据挖掘技术研究范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
1 空间数据挖掘研究概述
空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。
空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。
空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。
2 空间数据挖掘在GIS中的应用
空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。
利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。
3 空间数据挖掘面临的问题
(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。
(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。
(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。
(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。
(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。
(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。
上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。
4 空间数据挖掘的发展趋势
(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。
(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。
(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。
【关键词】数据挖掘 数据分类算法
在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。
1 决策树分类算法
1.1 传统算法
C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。
(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。
2 其他分类算法
2.1 Bayes分类算法
Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。
2.2 CBA分类数据算法
基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。
2.3 MIND和GAC-RDB算法分类算法
在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。
2.3.1 MIND算法
MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。
3 总结
大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。
参考文献
[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).
[2]刘红岩.数据挖掘中的数据分类算法综述,2002(06).
关键词:Web数据挖掘;电子商务;XML应用
中图分类号:TP311.13文献标识码:A文章编号:1007-9599 (2010) 10-0000-01
Web-based Data Mining Technology
Wang Wanchen
(Tianjin Polytechnic University,Tianjin300160,China)
Abstract:Web data mining referred to as Web mining,development from the data mining technology,also a new area of Web information.It help people intelligently and automatically get valuable knowledge from the mass information,reveal the objective world and the law of internal relations from these data,to solve practical problems in social development and for macro supporting decision-making.
Keywords:Web data mining;E-commerce;XML applications
一、引言
在20世纪60年代末,为了有效地管理和存取大量的数据资源,因此产生了数据库技术。到了9O年代,人类的数据量可以用海洋来形容,同时也出现了一个问题,那就是“数据丰富,但信息贫乏”,为了解决这一问题,数据挖掘技术应运而生。
二、基于web的数据挖掘需要解决的几个问题
(一)异构数据库环境
Web上的每一个站点就是一个数据源。每个数据源都是异构的,因而每一站点之间的信息和组织都不一样,这就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据挖掘,首先,必须要研究站点之间异构数据的集成问题。其次,还要解决Web上的数据查询问题。
(二)半结构化的数据结构
Web上的数据非常复杂,没有特定的模型描述,每一站点的数据都各自独立设计,并且数据本身具有自述性和动态可变性。因而。Web上的数据具有一定的结构性,但因自述层次的存在。从而是一种非完全结构化的数据,这也被称之为半结构化数据。半结构化是Web上数据的最大特点。
(三)解决半结构化的数据源问题
针对Web上的数据半结构化的特点,寻找一个半结构化的数据模型是解决问题的关键所在。除了要定义一个半结构化数据模型外.还需要一种半结构化模型抽取技术,即自动地从现有数据中抽取半结构化模型的技术。
三、Web数据挖掘的主要过程
Web数据的特点决定了对其进行有效数据挖掘具有极大的挑战性。根据Web数据的特点。结合数据挖掘的一般过程,可以将Web数据挖掘流程描述如图所示的数据采集、数据预处理、数据挖掘、分析与评估和知识表述5个功能模块。
图1 面向Web数据挖掘功能模块
(一)数据采集
按照主题相关的原则,数据采集模块完成从外部的Web环境中有选择地获取数据,为后面的数据挖掘提供素材和资源。Web环境所提供的数据源包括Web页面数据、超链接数据和记录用户访问情况的数据等。根据数据源形式的不同可以将Web数据挖掘分为基于内容的挖掘、基于结构的挖掘和基于用户使用的挖掘等3种。每一种数据挖掘类型在数据采集过程中会使用不同的方法和技术,但它们都有共同的基本过程。通常,数据采集由数据搜索、数据选择和数据收集等3个相对独立的过程组成。
(二)数据预处理
数据预处理模块主要对数据采集所获得的源数据进行加工处理和组织重构.构建相关主题的数据仓库.为下一步的数据挖掘过程创建基础平台。数据预处理是为数据挖掘所做的前期准备,它主要包括数据清理、数据集成、数据变换、数据约简等。
1.数据清理。
数据清理主要是去除源数据中的噪声和无关数据。处理遗漏数据和清洗脏数据,包括重复数据处理和缺值数据处理等.并且完成一些数据类型的转换。例如将不同来源中的同类信息转换成统一的存储方式。
2.数据集成。
数据集成主要是将来自多个运动环境中的异构数据进行合并处理,解决语义的模糊性问题。其并非是数据的简单合并,而是对异构数据进行统一化和规范化处理的复杂过程。数据约简是在对挖掘任务和数据内容充分理解的基础上,通过寻找数据的有用特征。在尽可能保持数据信息原貌的前提下,最大限度地精减数据量,提高数据挖掘的算法效率。
(三)数据挖掘
数据挖掘模块是数据挖掘系统的核心部分,它的主要功能是运用各种数据挖掘技术。从海量的经过预处理的数据中提取出潜在的、有效且能被人理解的知识模式。概括地讲。数据挖掘的最终目标只有描述和预测两个,所谓描述就是用可理解的模式表达数据所包含的属性和特征信息:而预测则是指根据属性的现有数据值找出其规律性,进而推测出其在未来可能出现的属性值。数据挖掘过程一般由数据准备、挖掘操作、结果表达和解释3阶段组成。数据挖掘算法对数据有一定的要求,如数据冗余性小、数据属性之间的相关性小、数据出错率小等。而现实世界所采集到的数据通常具有杂乱性、冗余性、不完整性等特点,为此数据采掘必须经过数据准备阶段以提高数据挖掘质量。挖掘操作包括选择合适的算法,进行挖掘知识的操作,最后证实发现的知识;表达和解释阶段是对结果进行分析,提取出最有价值的信息。如果获得的信息不能使决策者满意,则需要重复以上数据挖掘阶段。
(四)分析与评估
分析与评估模块是对数据挖掘所得到的知识模式进行可信度和有效性分析,并对其做出评估结论。为用户的经营决策提供信息支持。
(五)知识表述
知识表述模块是指将利用数据挖掘工具从Web数据中挖掘出来的知识模式.用适当的形式表现出来,以利于用户接受和相互交流。
五、数据挖掘工具的评价标准
评价一个数据挖掘工具,需要从以下几个方面来考虑:产生的模式种类的多少;解决复杂问题的能力;易操作性;数据存取能力;与其他产品的接口。基于Web的数据挖掘技术在处理极大量的数据时,如何提高算法效率的问题;对于挖掘迅速更新的数据的挖掘算法的进一步研究;在挖掘的过程中,提供一种与用户进行交互的方法,将用户的领域知识结合在其中;对于数值型字段在关联规则中的处理问题;生成结果的可视化方面等等有待于进一步的研究。
六、结论
面向Web的数据挖掘是一项复杂的技术,由于Web数据挖掘比单个数据仓库的挖掘要复杂的多,因而面向Web的数据挖掘成了一个难以解决的问题。Web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透与融合的必然结果。Web挖掘的分类及其所涉及的关键技术都处于初级阶段,互联网在技术和应用上的不断发展将会极大地促进数据库技术和数据挖掘技术的发展,研究数据挖掘在电子商务的应用具有建设性的意义,对电子商务网站的设计、客户关系管理、网络营销等方面起着重要的作用。
参考文献:
[1]陈京民.数据仓库与数据挖掘技术.北京:电子工业出版社,2002
[2]谢丹夏.Web上的数据挖掘技术和工具设计.计算机工程与应用,2001,6
[3]孙颖,毛波.基于数据挖掘技术的虚拟社区成员行为研究.计算机应用,2003.1
[4]康晓东.基于数据仓库的数据挖掘技术.机械工业出版社,2004.1
[5]Jaideep Srivastava,Robert Cooley,Mukund Deshpande.Web Usage Mining:Discovery and Applications of Usage Patterns from Web Data.Sigkdd Explorations,2000(2):325-338
关键词:数据挖掘;信息系统集成;K均值算法;聚类算法;BOM系统
中图分类号:TP391
文献标识码:A
文章编号:16727800(2017)004018503
0引言
充分利用企I信息系统集成中所产生的生产业务信息数据成为企业的关键技术,数据挖掘技术则是企业系统中使用的技术之一。数据挖掘指对数据库中的海量数据进行过程复杂的数据分析,从而获得其中隐含信息的过程。根据用户需求,选择比较切合的数据挖掘算法,成为挖掘技术成功的关键。通过研究各种数据挖掘算法,笔者在众多算法中选择了K均值算法作为本文数据挖掘的基础算法。
1K均值算法概述
1.1K均值算法概念
聚类问题是将给定的数据集合D划分成一组聚类:{C1,C2,…},Ci∈D,使不同种类中的数据尽可能不相似(或距离较远),同一种类中的数据尽可能相似(或距离较近)。聚类是一种无监督的学习,所谓无监督学习指事先并不知道要找的内容,即没有目标变量,它将相似的对象归到同一个簇中[13]。K均值(Kmeans)算法在聚类算法中使用最为广泛。首先根据分类的个数k,随机地选取k个初始的聚类中心,当然这个k值是难以确定的,并把每个对象分配给离它最近的中心,分别得到起始的聚类点。然后,将当前每个聚类的中心作为新的聚类中心,并把每个对象重新分配到最近的中心。不断地循环迭代,直到目标函数的最小值,即最终的聚类中心点没有移动。其中,目标函数通常采用平方误差准则,即:其中,E表示所有聚类对象的平方误差和,S是聚类对象,Mi是类Ci的各聚类对象的平均值,即:
其中,|Ci|表示类Ci的聚类对象数目。每一次迭代时,每一个点都要计算一遍它和各聚类中心的距离,并取最短距离的类作为该点所属的类。直到E获取最小值,最终表现为最后的聚类中心无法移动。一般k的典型取值为2~10。
1.2K均值算法计算模型
假设在一片小区域中有若干数据点,如图1所示。先假设k=2,即最终这些数据点会聚类成两个类。K均值算法具体解释如下: (1)由于k=2,任意的两个数据点被选作初始类的聚类中心(图中用点F、G表示),如图1(a)所示。 (2)将其余的各个点分配到距离最近的聚类中心点(本例中为F点、G点)所代表的类中,即求图中所有点到各个聚类中心的距离。如果Si距离Ci近, 则Si属于Ci聚类。如图1(b)所示,A、B点与F点的距离相对G点更近,所以属于F点聚类,C、D、E点与G点相对F点距离更近,所以属于G点聚类。 (3)将聚类中心点F点、G点移动到“自己”的聚类中心,如图1(c)、图1(d)所示。 (4)重复步骤(2)、(3),直到每个类中的聚类对象(如图1(e)中的点)不再重新分布为止,第一个点聚合了A、B、C,第二个点聚合了D、E,此时重复循环的迭代过程结束。
2.1系统概述
通过对K均值算法的介绍及其算法处理模型,笔者结合某制造型企业的信息化系统平台用户实际需求建立数据仓库,在数据仓库的基础上使用数据挖掘中的K均值算法对大量数据进行潜在信息的挖掘,并开发出基于K均值算法的挖掘器,辅助决策者进行决策。假如数据库中的数据关于产品信息生成了k个聚类中心,即k个中心点point,将其余的各个点分配到距离最近的聚类中心点所代表的类中,距离为distance,并获取距聚类中心距离最小的距离min2,将该元素归类于距离聚类中心点最近的那个聚类中,核心代码如下:
private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //将聚类中心点移动到自己的聚类中心,求两点误差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求两点误差平方”的方法,计算误差平方和准则 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //设置新的聚类中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //对第2、3步进行重复迭代,直至得到算法最终结果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }
2.2零部件市场需求分析
在销售系统“零部件市场需求分析”模块,主要针对销售信息以及产品信息所建立的数据仓库中的信息进行数据挖掘。合同中记载了所销售的产品图号、数量、客户相关信息等,同时根据产品图号可以得到产品BOM信息。 产品BOM信息即该产品的设计信息,包括零件信息、物料进货方式及加工作业方式、工艺信息、图纸信息、层次码、总数量等。其中零件信息主要有:零件图号、零件名称、材料、牌号、外形尺寸等;物料进货方式及加工作业方式主要包括:物料类别(如:配套件、紧固件)、物料进场状态(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工内容(如:金工、电工);工艺信息即零部件加工的工艺信息;图纸信息包括图纸幅面等;层次码主要用来标注该零部件在产品中的所处位置;总数量即表明该零部件在产品中该层次码下的个数。 相同产品可能会有处于不同层次的相同零部件,不同产品可能会有相同零部件。因此,在所建立的数据仓库基础上,使用数据挖掘技术挖掘出查询条件,从销售的产品中具体细化到销售需求较多的零部件,从而在企业决策时察觉出该情况。通过针对性地制定预投生产计划、增加库存,能够帮助企业提高生产效率,对于市场快速反应,以提高市场占有率。 对于该部分功能,首先可以进行条件查询。查询属性有:产品图号、产品型号、代号、名称、规格尺寸、长度宽度、材料、牌号、年份和客户编号。 从查询属性看,这是多种搜索条件的组合;从数据挖掘角度看,这是在K-均值聚类算法设计的数据仓库基础上开发出来的一个数据挖掘工具。此项功能设计时是从月份出发,将每年的销量按照月份呈现,因此“年份”是必选项,其余条件用户可以自由组合。例如:选择“2012年”,查询结果如图2所示。
该图表示在2012年的销售产品里对零部件数量进行汇总的结果。通过该数据挖掘器,提出了销量最领先的4个零部件。曲线代表其在各月的销售总数及市场需求总数,单位以“百”计。每条曲线代表的零部件图号在图右侧进行了说明。该表示方法直观、清晰,可以给决策者提供明确的零部件市场需求变化曲线图。通过聚类结果可知,“零件图号”为“8UE.016.0211”的零件,从八月开始销量减少,并且其它3种零件在六月开始需求量变大,从而可使决策者在来年制定更合理的方案,以提高企业竞争力。
2.3废料统计情况分析
废料统计情况分析主要是针对生产中由于工人误操作、材料劣质、机器故障等各种原因造成所领物料报废,需要重新领料进行加工的情况进行统计分析。 物料是一个统称,它包括可以直接领的成品、需要再加工的半成品,以及需要加工的原材料。因此,对于物料有一个物料编码,专门对所有可领的成品、半成品、原材料进行唯一标示。物料编码根据零件图号、零件名称、材料、牌号、外形尺寸、物料进场状态、物料类别、加工方式8个字段进行唯一性区分。根据编码方式,产生唯一的物料码,例如“A00B021”。该企业的物料有“定额”和“非定额”两种情况。“定额”即可以用个数来统计的零部件物料;“非定额”指无法用个数来统计的物料,如:5米长的铜线等。具体而言,本文主要研究针对某个工作令从生产开始到生产结束,所有定额物料的生产料废情况。在工作令系统和领料单系统的基础数据库上建立数据仓库。工作令系统的数据库中存有工作令号、起始生产日期、结束生产日期及其它工作令的基本信息。领料单系统数据库中的废料表中存有料废的物料编码、材料、数量等信息。查询属性有:工作令号、合同号、起始时间和终止时间。 填入工作令号“2B7-1D044205”,点击“查询”按钮,会通过数据挖掘方法统计该工作令下的所有零件材料料废情况,如表1所示。
表1清晰表明了该工作令号“2B7-1D044205”中各个物料损失的比重。从表中可以看出,以废料“A03B004”、
“D03E334”和“E17B231”为聚类中心的废料占多数,从而可以使企业决策者从这些材料损失中发现问题,分析物料损耗原因,如:采购质量问题、工人操作失误,还是其它可避免的各类原因。因此,该基于数据仓库的数掘挖掘器,有利于辅助企业决策者从实际生产中找出各类潜在问题,从而制定合理的政策,降低生产损失,提高企业竞争力。
3结语
本文采用数据挖掘技术对数据库中积累的大量数据进行了分析处理,系统虽然实现了将基于K均值算法的数据挖掘技术应用于信息化系统集成平台中,但也只是实现了部分辅助决策功能。根据企业的具体使用情况,决策者肯定不会满足于系统中已经提供的决策支持功能,如何更近一步地发挥系统集成能力,开发更多决策支持功能,提高数据仓库查询速度,以满足企业决策者更多需求,是下一阶段研究的主要方向。
参考文献:
[1]王欣,徐腾飞,唐连章,等.SQL Server2005数据挖掘实例分析[M].北京:中国水利水电出版社,2008:15.
[2]李锐,,曲亚东,等.机器学习实践[M].北京:人民邮电出社,2013:184199.
[3]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002:321.
[4]陈文伟.数据仓库与数据挖掘教程[M].第2版.北京:清华大学出版社,2011:190.
[5]孙水华,赵钊林,刘建华.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2012:122.
[6]李晶,陈骥.数据挖掘技术对ERP实施的重要性[J].福建电脑,2008(8):6061.
>> Web数据挖掘中XML技术应用研究 XML在Web数据挖掘中的应用 XML 在Web 数据挖掘中的应用探讨 基于XML的Web挖掘技术在电子商务中的应用研究 基于XML数据库的Web应用研究 数据挖掘在Web中的应用研究 XML语言在Web开发中的应用研究 基于XML的Web数据挖掘模型的设计研究 基于XML+Web Service的异构数据交换技术应用研究 Web数据挖掘在智能选课系统中的应用研究 Web数据挖掘技术在数字图书馆中的应用研究 数据挖掘技术在Web预取中的应用研究 Web数据挖掘及其在微博话题检测中的应用研究 Web数据挖掘技术在个性化网络教学中的应用研究 WEB数据挖掘技术及应用研究 基于XML技术的电子政务WEB数据挖掘研究 基于XML的Web分布式数据挖掘系统研究 基于xml的web数据挖掘技术研究与实现 Web数据挖掘在校园网搜索引擎系统中的应用研究 电子商务中Web数据挖掘与应用研究 常见问题解答 当前所在位置:L,XHTML and CSS Bible[M].4版.北京:人民邮电出版社,2009
[3] Bing Liu.Web DATA MINING[M].北京:清华大学出版社,2009(4).
[4] 孟小峰.XML数据管理概念技术[M].北京:清华大学出版社.2009(10).
[5] 王建丽,丁振国.一种基于XML的Web数据挖掘技术[J].西安科技学院学报,2002,33(3).
[6] 沈洁,薛贵荣.一种基于XML的WEB数据挖掘模型[J].系统工程理论与实践,2002(9).
>> 基于云计算的大数据挖掘平台 云计算技术在医疗大数据挖掘平台设计中的应用 大数据+云计算 SAP倡导构建实时云 基于云计算及大数据的移动数字教育平台建设研究 Web数据挖掘在云计算平台的实际运用 基于云计算平台的物联网数据挖掘研究 Web数据挖掘在云计算平台的实现 基于云计算和大数据的智慧农业平台 试论大数据和云计算平台应用 大数据和云计算平台与应用研究 大数据和云计算平台应用研究 云计算物联网数据挖掘模式的构建方式 云计算时代的出国留学大数据构建策略 大数据和云计算 基于云计算的数据挖掘平台架构及其关键技术研究 基于云计算的数据挖掘平台架构及其关键技术探讨 一种基于云计算的数据挖掘平台架构设计与实现 协同云计算下的差异区域数据挖掘平台设计与实现 一种基于云计算数据挖掘平台架构的设计与实现 基于分布式思维的云计算数据挖掘平台设计 常见问题解答 当前所在位置:.
[5]康莉.“云计算”环境下电子商务安全问题及对策研究[J].信息技术,2012(8):283284.
[6]李卫,李济汉,张云勇,等.电信运营商云业务发展现状分析与建议[J].互联网天地, 2013(3):715.
[7]曲悦.浅谈云计算在图书馆建设中的价值及问题[J].价值工程,2012(9):203204.
[8]马锡坤,于京杰.医院数据中心存在的问题及对策[J].中国医学教育技术,2013,4(27):215217.
[9]邬贺铨.大数据时代的机遇与挑战[J].信息化参考,2013(2):16.
[10]赵金明.大数据时代的高清视频监控存储[J].中国铁路,2013(4):8182.
[关键词] 并行数据挖掘 体系结构 商业智能 模式库
引言
企业为迎接市场的挑战,必须对市场运作有准确的分析。商业流通领域积累的大量交易数据中隐含着许多对商业决策有益的知识,传统的分析方法很难从中提取出这些知识,利用数据挖掘技术可以得到准确、及时的信息,决策人员以企业的数据仓库为基础,通过联机分析处理(OLAP)、数据挖掘和决策规划人员的专业知识,借助商务智能的核心技术,利用企业中长期积累的海量数据可以实现四方面的应用:客户分类和特征分析、市场营销策略分析、经营成本与收入分析、欺诈行为分析和预防,数据挖掘技术可以发现这些隐藏的模式和关系。
并行数据挖掘体系结构是并行数据挖掘技术研究的重要内容,是实现并行数据挖掘的基础,选择适当的、高效的、具有较高性价比的商用并行体系结构是整个研究工作的基础。
一、通用数据挖掘系统结构
特定领域的数据挖掘工具主要针对某个特定领域的问题提供解决方案。在进行数据挖掘算法设计时,设计者需要充分考虑特定领域的数据特点和挖掘需求等特殊性,并有针对性地对数据挖掘算法进行优化。
通用的数据挖掘应用系统大都以数据仓库或大型关系数据库为基础,且具有查询、分析、表示等功能,它是企业决策支持系统的核心组成部分,可以将这些现有数据挖掘系统的共同特点抽象成图1所示的结构。
二、通用的数据挖掘系统结构的不足及改进思路
通用的数据挖掘系统己经在一定程度上满足用户的需要,但是在应用实施过程中也存在着一些问题和不足。主要有以下几点:数据挖掘的效率有待进一步提高;历史模式不能得到有效利用;不同系统之间的互操作性差;面向不同应用对象的针对性不强。
数据挖掘往往面对的是巨大的数据集,即GB甚至TB数量级的数据集,数据挖掘技术研究的核心问题之一就是如何提高数据挖掘的效率,提高数据挖掘效率的途径主要有以下几个方面:
1.对数据集进行预处理,去除噪音数据,按照挖掘要求对数据进行清理和迁移,尽可能减少挖掘的数据量。
2.针对各种数据挖掘和数据分析要求,研究、设计效率更高的各类数据挖掘算法。
3.提高数据挖掘系统应用的硬件性能或者采用并行处理技术提高数据挖掘的速度。
4.借用缓存的概念,对挖掘结果进行存储再利用,以提高用户挖掘请求的响应速度。
针对一般商业智能应用领域的实际情况和需要,以提高数据挖掘应用的效率为目标,本文将主要从并行处理技术和体系结构方面对现有数据挖掘系统进行改进和提高。
三、并行数据挖掘体系结构设计及特点
为解决通用数据挖掘系统中存在的一些问题和针对商业智能的特点,面向商业智能应用的并行数据挖掘体系结构如图2所示,由6部分组成:
1.高性能并行计算环境:并行数据挖掘体系结构中采用了高性价比的并行体系结构COW(Cluster of Workstations)、数据挖掘算法由串行算法改为并行算法以及采用“缓存”概念将数据挖掘结果保存在模式库中。并行处理技术的运用无疑对于数据挖掘效率的提高具有重要意义和实用价值,为数据挖掘效率的提高奠定了坚实的基础,对于商业智能应用的推广也具有重要作用。
2.数据源:数据仓库和其他数据源是数据挖掘的基础,商业智能应用系统应具有多种数据来源的处理能力,例如普通文件(电子邮件等)、关系数据库、数据仓库、数据集市等。
3.模式库:为了提高数据挖掘的效率以及商业逻辑的处理速度,借助硬件内存的“缓存”概念,将最近数据挖掘或者数据分析的结果(模式也许只是一个简单的规则描述)保存在模式库中,以便再次发生类似或者相同操作请求时能先在模式库中查找挖掘结果,从而尽量避免每次都从海量数据中进行挖掘操作,这样可以较大幅度提高处理速度。因此,模式库的建立为历史模式的有效利用提供了可能和基础
另外,由于模式库中存储的是历次挖掘出来的模式,可以从分析模式的变化来进行趋势预测,从而为决策支持提供了更多的分析手段。
4.学习和推荐Agent:增加了一个用户兴趣分析档案库,由学习Agent进行更新维护,供推荐Agent分析使用。学习Agent将根据权值的计算方法对用户兴趣档案中没有出现过的关键字进行加权操作。推荐Agent根据已有的用户兴趣档案,分析用户可能感兴趣的模式,并推荐给用户。
5.并行数据挖掘工具/多维分析工具:数据挖掘是商业智能的核心,并行数据挖掘算法对于提高数据挖掘效率具有重要意义。为了适应商业智能应用的需要,仅提供多维分析工具是远远不够的,应尽可能多的提供对多种模式的支持。商业智能涉及关联、分类、聚类、时序等模式,并行数据挖掘工具尽能包含对这些模式的支持,这也是衡量并行数据挖掘工具好坏的标准之一。
6.可视化工具:为用户提供数据挖掘结果的自观表示方法。
除上述特点外,通过对并行数据挖掘体系结构的设计与改进在以下两个方面取得了较好的效果:
(1)提高了系统之间的互操作性:现有的数据挖掘产品,对挖掘结果都有各自特殊的存储格式,不同挖掘工具之间要共享挖掘的结果非常困难。然而,对模式的集中存储就可以有效地解决上述问题,即设计类似SQL的查询语言,或设计通用的模式库接口。不同的挖掘工具通过使用模式查询语言或调用模式库接口的功能函数就可以共享模式库中存储的模式。
(2)并行处理能力强、可扩展性好、可用性高:改进后的并行数据挖掘体系结构建立在可扩展机群之上,除了具有较高的.可伸缩的并行处理能力之外,系统的可扩展性也非常好,可以通过增加或者减少处理结点数调整系统的处理能力,从而适应不同数据规模的处理需要,除此之外,系统的可用性高也是其显著特点,一般情况下COW的可用性指标都在99.9%以上,为商业智能应用系统的稳定运行提供了可靠保证。
四、结束语
并行数据挖掘体系结构具有较高的并行处理能力和性价比,以及方便灵活的并行程序设计环境,对于实施商业智能应用的客户和应用领域来讲,具有可操作性。大多商业智能应用客户已经或者容易获得本文给出的并行处理环境,不需要投入大量的经费购置专用的并行处理系统。
模式库的提出是一种新的有益的探索。由于模式库中存储了历史挖掘模式,如果其中的模式接近挖掘请求的时间,则可用这些模式自接作为挖掘的结果,不用再进行新的数据挖掘,在模式库中进行查询操作的响应会明显加快,大大提高了数据挖掘的效率。
参考文献:
[1]熊忠阳:面向商业智能的并行数据挖掘技术及应用研究[学位论文].重庆大学,2004