期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据挖掘技术研究

数据挖掘技术研究精品(七篇)

时间:2022-07-17 22:06:00

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据挖掘技术研究范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

数据挖掘技术研究

篇(1)

1 空间数据挖掘研究概述

空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在GIS中的应用

空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

篇(2)

【关键词】数据挖掘 数据分类算法

在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。

1 决策树分类算法

1.1 传统算法

C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。

1.2 衍生算法

(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。

(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。

2 其他分类算法

2.1 Bayes分类算法

Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。

2.2 CBA分类数据算法

基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。

2.3 MIND和GAC-RDB算法分类算法

在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。

2.3.1 MIND算法

MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。

3 总结

大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。

参考文献

[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).

[2]刘红岩.数据挖掘中的数据分类算法综述,2002(06).

篇(3)

关键词:电子商务;数据挖掘;应用

1概述

电子商务是指企业或个人以网络为载体,应用电子手段,利用现代信息技术进行商务数据交换和开展商务业务的活动。随着互联网的迅速发展,电子商务比传统商务具有更明显的优势,由于电子商务具有方便、灵活、快捷的特点,使它已逐渐成为人们生活中不可缺少的活动。目前电子商务平台网站多,行业竞争强,为了获得更多的客户资源,电子商务网站必须加强客户关系管理、改善经营理念、提升售后服务。数据挖掘是从数据集中识别出隐含的、潜在有用的、有效的,新颖的、能够被理解的信息和知识的过程。由数据集合做出归纳推理,从中挖掘并进行商业预判,能够帮助电子商务企业决策层依据预判,对市场策略调整,将企业风险降低,从而做出正确的决策,企业利润将最大化。随着电子商务的应用日益广泛,电子商务活动中会产生大量有用的数据,如何能够数据挖掘出数据的参考价值?研究客户的兴趣和爱好,对客户分门别类,将客户心仪的商品分别推荐给相关客户。因此,如何在电子商务平台上进行数据挖掘成为研究的热点问题。

2数据挖掘技术概述

数据挖掘(DataMining),也称数据库中的知识发现(Knowl⁃edgeDiscoveryinDatabase,KDD)。数据挖掘一般是指从海量数据中应用算法查找出隐藏的、未知的信息的过程。数据挖掘是一个在大数据资源中利用分析工具发现模型与数据之间关系的一个过程,数据挖掘对决策者寻找数据间潜在的某种关联,发现隐藏的因素起着关键作用。这些模式是有潜在价值的、并能够被理解的。数据挖掘将人工智能、机器学习、数据库、统计、可视化、信息检索、并行计算等多个领域的理论与技术融合在一起的一门多学科交叉学问,这些学科也对数据挖掘提供了很大的技术支撑。

3Web数据挖掘特点

Web数据挖掘就是数据挖掘在Web中的应用。Web数据挖掘的目的是从万维网的网页的内容、超链接的结构及使用日志记录中找到有价值的数据或信息。依据挖掘过程中使用的数据类别,Web数据挖掘任务可分为:Web内容挖掘、Web结构挖掘、Web使用记录挖掘。

1)Web内容挖掘指从网页中提取文字、图片或其他组成网页内容的信息,挖掘对象通常包含文本、图形、音视频、多媒体以及其他各种类型数据。

2)Web结构挖掘是对Web页面之间的结构进行挖掘,挖掘描述内容是如何组织的,从Web的超链接结构中寻找Web结构和页面结构中的有价值模式。例如从这些链接中,我们可以找出哪些是重要的网页,依据网页的主题,进行自动的聚类和分类,为了不同的目的从网页中根据模式获取有用的信息,从而提高检索的质量及效率。

3)Web使用记录挖掘是根据对服务器上用户访问时的访问记录进行挖掘的方法。Web使用挖掘将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据,对用户点击事件的搜集和分析发现用户导航行为。它用来提取关于客户如何浏览和使用访问网页的链接信息。如访问了哪些页面?在每个页面中所停留的时间?下一步点击了什么?在什么样的路线下退出浏览的?这些都是Web使用记录挖掘所关心要解决的问题。

4电子商务中Web挖掘中技术的应用分析

1)电子商务中序列模式分析的应用

序列模式数据挖掘就是要挖掘基于时间或其他序列的模式。如在一套按时间顺序排列的会话或事务中一个项目有存在跟在另一个项目后面。通过这个方法,WEB销售商可以预测未来的访问模式,以帮助针对特定用户组进行广告排放设置。发现序列模式容易使客户的行为被电子商务的组织者预测,当用户浏览站点时,尽可能地迎合每个用户的浏览习惯并根据用户感兴趣的内容不断调整网页,尽可能地使每个用户满意。使用序列模式分析挖掘日志,可以发现客户的访问序列模式。在万维网使用记录挖掘应用中,序列模式挖掘可以用于捕捉用户路径之中常用的导航路径。当用户访问电子商务网站时,网站管理员能够搜索出这个访问者的对该网站的访问序列模式,将访问者感兴趣但尚未浏览的页面推荐给他。序列模式分析还能分析出商品购买的前后顺序,从而向客户提出推荐。例如在搜索引擎是发出查询请求、浏览网页信息等,会弹出与这些信息相关的广告。例如购买了打印机的用户,一般不久就会购买如打印纸、硒鼓等打印耗材。优秀的推荐系统将为客户建立一个专属商店,由每个客户的特征来调整网站的内容。也能由挖掘出的一些序列模式分析网站及产品促销的效果。

2)电子商务中关联规则的应用

关联规则是揭示数据之间隐含的相互关系,关联分析的任务是发现事物间的关联规则或相关程序。关联规则挖掘的目标是在数据项目中找出每一个数据信息的内在关系。关联规则挖掘就是要搜索出用户在服务器上访问的内容、页面、文件之间的联系,从而改进电子商务网站设计。可以更好在组织站点,减少用户过滤网站信息的负担,哪些商品顾客会可能在一次购物时同时购买?关联规则技术能够通过购物篮中的不同商品之间的联系,分析顾客的购物习惯。例如购买牛奶的顾客90%会同时还购买面包,这就是一条关联规则,如果商店或电子商务网站将这两种商品放在一起销售,将会提高它们的销量。关联规则挖掘目标是利用工具分析出顾客购买商品间的联系,也即典型购物篮数据分析应用。关联规则是发现同类事件中不同项目的相关性,例如手机加充电宝,鼠标加鼠标垫等购买习惯就属于关联分析。关联规则挖掘技术可以用相应算法找出关联规则,例如在上述例子中,商家可以依据商品间的关联改进商品的摆放,如果顾客购买了手机则将充电宝放入推荐的商品中,如果一些商品被同时购买的概率较大,说明这些商品存在关联性,商家可以将这些有关联的商品链接放在一起推荐给客户,有利于商品的销售,商家也根据关联有效搭配进货,提升商品管理水平。如买了灯具的顾客,多半还会购买开关插座,因此,一般会将灯具与开关插座等物品放在一个区域供顾客选购。依据分析找出顾客所需要的商品的关联规则,由挖掘分析结果向顾客推荐所需商品,也即向顾客提出可能会感兴趣的商品推荐,将会大大提高商品的销售量。

3)电子商务中路径分析技术的应用

路径分析技术通过对Web服务器的日志文件中客户访问站点的访问次数的分析,用来发现Web站点中最经常访问的路径来调整站点结构,从而帮助使用用户以最快的速度找到其所需要的产品或是信息。例如在用户访问某网站时,如果有很多用户不感兴趣的页面存在,就会影响用户的网页浏览速度,从而降低用户的浏览兴趣,同时也会使整个站点的维护成本提高。而利用路径分析技术能够全面地掌握网站各个页面之间的关联以及超链接之间的联系,通过分析得出访问频率最高的页面,从而改进网站结构及页面的设计。

4)电子商务中分类分析的应用

分类技术在根据各种预定义规则进行用户建模的Web分析应用中扮演着很重要的角色。例如,给出一组用户事务,可以计算每个用户在某个期间内购买记录总和。基于这些数据,可以建立一个分类模型,将用户分成有购买倾向和没有购买倾向两类,考虑的特征如用户统计属性以及他们的导航活动。分类技术既可以用于预测哪些购买客户对于哪类促销手段感兴趣,也可以预测和划分顾客类别。在电子商务中通过分类分析,可以得知各类客户的兴趣爱好和商品购买意向,因而发现一些潜在的购买客户,从而为每一类客户提供个性化的网络服务及开展针对性的商务活动。通过分类定位模型辅助决策人员定位他们的最佳客户和潜在客户,提高客户满意度及忠诚度,最大化客户收益率,以降低成本,增加收入。

5)电子商务中聚类分析的应用

聚类技术可以将具有相同特征的数据项聚成一类。聚类分析是对数据库中相关数据进行对比并找出各数据之间的关系,将不同性质特征的数据进行分类。聚类分析的目标是在相似的基础上收集数据来分类。根据具有相同或相似的顾客购买行为和顾客特征,利用聚类分析技术将市场有效地细分,细分后应可每类市场都制定有针对性的市场营销策略。聚类分别有页面聚类和用户聚类两种。用户聚类是为了建立拥有相同浏览模式的用户分组,可以在电子中商务中进行市场划分或给具有相似兴趣的用户提供个性化的Web内容,更多在用户分组上基于用户统计属性(如年龄、性别、收入等)的分析可以发现有价值的商业智能。在电子商务中将市场进行细化的区分就是运用聚类分析技术。聚类分析可根据顾客的购买行为来划分不同顾客特征的不同顾客群,通过聚类具有类似浏览行为的客户,让市场人员对顾客进行类别细分,能够给顾客提供更人性化的贴心服务。比如通过聚类技术分析,发现一些顾客喜欢访问有关汽车配件网页内容,就可以动态改变站点内容,让网络自动地给这些顾客聚类发送有关汽车配件的新产品信息或邮件。分类和聚类往往是相互作用的。在电子商务中通过聚类行为或习性相似的顾客,给顾客提供更满意的服务。技术人员在分析中先用聚类分析将要分析的数据进行聚类细分,然后用分类分析对数据集合进行分类标记,再将该标记重新进行分类,一直如此循环两种分析方法得到相对满意的结果。

5结语

随着互联网的飞速发展,大数据分析应用越来越广。商业贸易中电子商务所占比例越来越大,使用web挖掘技术对商业海量数据进行挖掘处理,分析客户购买喜好、跟踪市场变化,调整销售策略,对决策者做出有效决策及提高企业的市场竞争力有重要意义。

参考文献:

[1]庞英智.Web数据挖掘技术在电子商务中的应用[J].情报科学,2011,29(2):235-240.

[2]马宗亚,张会彦.Web数据挖掘技术在电子商务中的应用研究[J].现代经济信息,2014(6):23-24.

[3]徐剑彬.Web数据挖掘技术在电子商务中的应用[J].时代金融,2013(4):234-235.208

[4]周世东.Web数据挖掘在电子商务中的应用研究[D].北京交通大学,2008.

篇(4)

关键词:数据挖掘;信息系统集成;K均值算法;聚类算法;BOM系统

中图分类号:TP391

文献标识码:A

文章编号:16727800(2017)004018503

0引言

充分利用企I信息系统集成中所产生的生产业务信息数据成为企业的关键技术,数据挖掘技术则是企业系统中使用的技术之一。数据挖掘指对数据库中的海量数据进行过程复杂的数据分析,从而获得其中隐含信息的过程。根据用户需求,选择比较切合的数据挖掘算法,成为挖掘技术成功的关键。通过研究各种数据挖掘算法,笔者在众多算法中选择了K均值算法作为本文数据挖掘的基础算法。

1K均值算法概述

1.1K均值算法概念

聚类问题是将给定的数据集合D划分成一组聚类:{C1,C2,…},Ci∈D,使不同种类中的数据尽可能不相似(或距离较远),同一种类中的数据尽可能相似(或距离较近)。聚类是一种无监督的学习,所谓无监督学习指事先并不知道要找的内容,即没有目标变量,它将相似的对象归到同一个簇中[13]。K均值(Kmeans)算法在聚类算法中使用最为广泛。首先根据分类的个数k,随机地选取k个初始的聚类中心,当然这个k值是难以确定的,并把每个对象分配给离它最近的中心,分别得到起始的聚类点。然后,将当前每个聚类的中心作为新的聚类中心,并把每个对象重新分配到最近的中心。不断地循环迭代,直到目标函数的最小值,即最终的聚类中心点没有移动。其中,目标函数通常采用平方误差准则,即:其中,E表示所有聚类对象的平方误差和,S是聚类对象,Mi是类Ci的各聚类对象的平均值,即:

其中,|Ci|表示类Ci的聚类对象数目。每一次迭代时,每一个点都要计算一遍它和各聚类中心的距离,并取最短距离的类作为该点所属的类。直到E获取最小值,最终表现为最后的聚类中心无法移动。一般k的典型取值为2~10。

1.2K均值算法计算模型

假设在一片小区域中有若干数据点,如图1所示。先假设k=2,即最终这些数据点会聚类成两个类。K均值算法具体解释如下: (1)由于k=2,任意的两个数据点被选作初始类的聚类中心(图中用点F、G表示),如图1(a)所示。 (2)将其余的各个点分配到距离最近的聚类中心点(本例中为F点、G点)所代表的类中,即求图中所有点到各个聚类中心的距离。如果Si距离Ci近, 则Si属于Ci聚类。如图1(b)所示,A、B点与F点的距离相对G点更近,所以属于F点聚类,C、D、E点与G点相对F点距离更近,所以属于G点聚类。 (3)将聚类中心点F点、G点移动到“自己”的聚类中心,如图1(c)、图1(d)所示。 (4)重复步骤(2)、(3),直到每个类中的聚类对象(如图1(e)中的点)不再重新分布为止,第一个点聚合了A、B、C,第二个点聚合了D、E,此时重复循环的迭代过程结束。

2.1系统概述

通过对K均值算法的介绍及其算法处理模型,笔者结合某制造型企业的信息化系统平台用户实际需求建立数据仓库,在数据仓库的基础上使用数据挖掘中的K均值算法对大量数据进行潜在信息的挖掘,并开发出基于K均值算法的挖掘器,辅助决策者进行决策。假如数据库中的数据关于产品信息生成了k个聚类中心,即k个中心点point,将其余的各个点分配到距离最近的聚类中心点所代表的类中,距离为distance,并获取距聚类中心距离最小的距离min2,将该元素归类于距离聚类中心点最近的那个聚类中,核心代码如下:

private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //将聚类中心点移动到自己的聚类中心,求两点误差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求两点误差平方”的方法,计算误差平方和准则 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //设置新的聚类中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //对第2、3步进行重复迭代,直至得到算法最终结果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }

2.2零部件市场需求分析

在销售系统“零部件市场需求分析”模块,主要针对销售信息以及产品信息所建立的数据仓库中的信息进行数据挖掘。合同中记载了所销售的产品图号、数量、客户相关信息等,同时根据产品图号可以得到产品BOM信息。 产品BOM信息即该产品的设计信息,包括零件信息、物料进货方式及加工作业方式、工艺信息、图纸信息、层次码、总数量等。其中零件信息主要有:零件图号、零件名称、材料、牌号、外形尺寸等;物料进货方式及加工作业方式主要包括:物料类别(如:配套件、紧固件)、物料进场状态(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工内容(如:金工、电工);工艺信息即零部件加工的工艺信息;图纸信息包括图纸幅面等;层次码主要用来标注该零部件在产品中的所处位置;总数量即表明该零部件在产品中该层次码下的个数。 相同产品可能会有处于不同层次的相同零部件,不同产品可能会有相同零部件。因此,在所建立的数据仓库基础上,使用数据挖掘技术挖掘出查询条件,从销售的产品中具体细化到销售需求较多的零部件,从而在企业决策时察觉出该情况。通过针对性地制定预投生产计划、增加库存,能够帮助企业提高生产效率,对于市场快速反应,以提高市场占有率。 对于该部分功能,首先可以进行条件查询。查询属性有:产品图号、产品型号、代号、名称、规格尺寸、长度宽度、材料、牌号、年份和客户编号。 从查询属性看,这是多种搜索条件的组合;从数据挖掘角度看,这是在K-均值聚类算法设计的数据仓库基础上开发出来的一个数据挖掘工具。此项功能设计时是从月份出发,将每年的销量按照月份呈现,因此“年份”是必选项,其余条件用户可以自由组合。例如:选择“2012年”,查询结果如图2所示。

该图表示在2012年的销售产品里对零部件数量进行汇总的结果。通过该数据挖掘器,提出了销量最领先的4个零部件。曲线代表其在各月的销售总数及市场需求总数,单位以“百”计。每条曲线代表的零部件图号在图右侧进行了说明。该表示方法直观、清晰,可以给决策者提供明确的零部件市场需求变化曲线图。通过聚类结果可知,“零件图号”为“8UE.016.0211”的零件,从八月开始销量减少,并且其它3种零件在六月开始需求量变大,从而可使决策者在来年制定更合理的方案,以提高企业竞争力。

2.3废料统计情况分析

废料统计情况分析主要是针对生产中由于工人误操作、材料劣质、机器故障等各种原因造成所领物料报废,需要重新领料进行加工的情况进行统计分析。 物料是一个统称,它包括可以直接领的成品、需要再加工的半成品,以及需要加工的原材料。因此,对于物料有一个物料编码,专门对所有可领的成品、半成品、原材料进行唯一标示。物料编码根据零件图号、零件名称、材料、牌号、外形尺寸、物料进场状态、物料类别、加工方式8个字段进行唯一性区分。根据编码方式,产生唯一的物料码,例如“A00B021”。该企业的物料有“定额”和“非定额”两种情况。“定额”即可以用个数来统计的零部件物料;“非定额”指无法用个数来统计的物料,如:5米长的铜线等。具体而言,本文主要研究针对某个工作令从生产开始到生产结束,所有定额物料的生产料废情况。在工作令系统和领料单系统的基础数据库上建立数据仓库。工作令系统的数据库中存有工作令号、起始生产日期、结束生产日期及其它工作令的基本信息。领料单系统数据库中的废料表中存有料废的物料编码、材料、数量等信息。查询属性有:工作令号、合同号、起始时间和终止时间。 填入工作令号“2B7-1D044205”,点击“查询”按钮,会通过数据挖掘方法统计该工作令下的所有零件材料料废情况,如表1所示。

表1清晰表明了该工作令号“2B7-1D044205”中各个物料损失的比重。从表中可以看出,以废料“A03B004”、

“D03E334”和“E17B231”为聚类中心的废料占多数,从而可以使企业决策者从这些材料损失中发现问题,分析物料损耗原因,如:采购质量问题、工人操作失误,还是其它可避免的各类原因。因此,该基于数据仓库的数掘挖掘器,有利于辅助企业决策者从实际生产中找出各类潜在问题,从而制定合理的政策,降低生产损失,提高企业竞争力。

3结语

本文采用数据挖掘技术对数据库中积累的大量数据进行了分析处理,系统虽然实现了将基于K均值算法的数据挖掘技术应用于信息化系统集成平台中,但也只是实现了部分辅助决策功能。根据企业的具体使用情况,决策者肯定不会满足于系统中已经提供的决策支持功能,如何更近一步地发挥系统集成能力,开发更多决策支持功能,提高数据仓库查询速度,以满足企业决策者更多需求,是下一阶段研究的主要方向。

参考文献:

[1]王欣,徐腾飞,唐连章,等.SQL Server2005数据挖掘实例分析[M].北京:中国水利水电出版社,2008:15.

[2]李锐,,曲亚东,等.机器学习实践[M].北京:人民邮电出社,2013:184199.

[3]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002:321.

[4]陈文伟.数据仓库与数据挖掘教程[M].第2版.北京:清华大学出版社,2011:190.

[5]孙水华,赵钊林,刘建华.数据仓库与数据挖掘技术[M].北京:清华大学出版社,2012:122.

[6]李晶,陈骥.数据挖掘技术对ERP实施的重要性[J].福建电脑,2008(8):6061.

篇(5)

>> Web数据挖掘中XML技术应用研究 XML在Web数据挖掘中的应用 XML 在Web 数据挖掘中的应用探讨 基于XML的Web挖掘技术在电子商务中的应用研究 基于XML数据库的Web应用研究 数据挖掘在Web中的应用研究 XML语言在Web开发中的应用研究 基于XML的Web数据挖掘模型的设计研究 基于XML+Web Service的异构数据交换技术应用研究 Web数据挖掘在智能选课系统中的应用研究 Web数据挖掘技术在数字图书馆中的应用研究 数据挖掘技术在Web预取中的应用研究 Web数据挖掘及其在微博话题检测中的应用研究 Web数据挖掘技术在个性化网络教学中的应用研究 WEB数据挖掘技术及应用研究 基于XML技术的电子政务WEB数据挖掘研究 基于XML的Web分布式数据挖掘系统研究 基于xml的web数据挖掘技术研究与实现 Web数据挖掘在校园网搜索引擎系统中的应用研究 电子商务中Web数据挖掘与应用研究 常见问题解答 当前所在位置:L,XHTML and CSS Bible[M].4版.北京:人民邮电出版社,2009

[3] Bing Liu.Web DATA MINING[M].北京:清华大学出版社,2009(4).

[4] 孟小峰.XML数据管理概念技术[M].北京:清华大学出版社.2009(10).

[5] 王建丽,丁振国.一种基于XML的Web数据挖掘技术[J].西安科技学院学报,2002,33(3).

[6] 沈洁,薛贵荣.一种基于XML的WEB数据挖掘模型[J].系统工程理论与实践,2002(9).

篇(6)

>> 基于云计算的大数据挖掘平台 云计算技术在医疗大数据挖掘平台设计中的应用 大数据+云计算 SAP倡导构建实时云 基于云计算及大数据的移动数字教育平台建设研究 Web数据挖掘在云计算平台的实际运用 基于云计算平台的物联网数据挖掘研究 Web数据挖掘在云计算平台的实现 基于云计算和大数据的智慧农业平台 试论大数据和云计算平台应用 大数据和云计算平台与应用研究 大数据和云计算平台应用研究 云计算物联网数据挖掘模式的构建方式 云计算时代的出国留学大数据构建策略 大数据和云计算 基于云计算的数据挖掘平台架构及其关键技术研究 基于云计算的数据挖掘平台架构及其关键技术探讨 一种基于云计算的数据挖掘平台架构设计与实现 协同云计算下的差异区域数据挖掘平台设计与实现 一种基于云计算数据挖掘平台架构的设计与实现 基于分布式思维的云计算数据挖掘平台设计 常见问题解答 当前所在位置:.

[5]康莉.“云计算”环境下电子商务安全问题及对策研究[J].信息技术,2012(8):283284.

[6]李卫,李济汉,张云勇,等.电信运营商云业务发展现状分析与建议[J].互联网天地, 2013(3):715.

[7]曲悦.浅谈云计算在图书馆建设中的价值及问题[J].价值工程,2012(9):203204.

[8]马锡坤,于京杰.医院数据中心存在的问题及对策[J].中国医学教育技术,2013,4(27):215217.

[9]邬贺铨.大数据时代的机遇与挑战[J].信息化参考,2013(2):16.

[10]赵金明.大数据时代的高清视频监控存储[J].中国铁路,2013(4):8182.

篇(7)

[关键词] 并行数据挖掘 体系结构 商业智能 模式库

引言

企业为迎接市场的挑战,必须对市场运作有准确的分析。商业流通领域积累的大量交易数据中隐含着许多对商业决策有益的知识,传统的分析方法很难从中提取出这些知识,利用数据挖掘技术可以得到准确、及时的信息,决策人员以企业的数据仓库为基础,通过联机分析处理(OLAP)、数据挖掘和决策规划人员的专业知识,借助商务智能的核心技术,利用企业中长期积累的海量数据可以实现四方面的应用:客户分类和特征分析、市场营销策略分析、经营成本与收入分析、欺诈行为分析和预防,数据挖掘技术可以发现这些隐藏的模式和关系。

并行数据挖掘体系结构是并行数据挖掘技术研究的重要内容,是实现并行数据挖掘的基础,选择适当的、高效的、具有较高性价比的商用并行体系结构是整个研究工作的基础。

一、通用数据挖掘系统结构

特定领域的数据挖掘工具主要针对某个特定领域的问题提供解决方案。在进行数据挖掘算法设计时,设计者需要充分考虑特定领域的数据特点和挖掘需求等特殊性,并有针对性地对数据挖掘算法进行优化。

通用的数据挖掘应用系统大都以数据仓库或大型关系数据库为基础,且具有查询、分析、表示等功能,它是企业决策支持系统的核心组成部分,可以将这些现有数据挖掘系统的共同特点抽象成图1所示的结构。

二、通用的数据挖掘系统结构的不足及改进思路

通用的数据挖掘系统己经在一定程度上满足用户的需要,但是在应用实施过程中也存在着一些问题和不足。主要有以下几点:数据挖掘的效率有待进一步提高;历史模式不能得到有效利用;不同系统之间的互操作性差;面向不同应用对象的针对性不强。

数据挖掘往往面对的是巨大的数据集,即GB甚至TB数量级的数据集,数据挖掘技术研究的核心问题之一就是如何提高数据挖掘的效率,提高数据挖掘效率的途径主要有以下几个方面:

1.对数据集进行预处理,去除噪音数据,按照挖掘要求对数据进行清理和迁移,尽可能减少挖掘的数据量。

2.针对各种数据挖掘和数据分析要求,研究、设计效率更高的各类数据挖掘算法。

3.提高数据挖掘系统应用的硬件性能或者采用并行处理技术提高数据挖掘的速度。

4.借用缓存的概念,对挖掘结果进行存储再利用,以提高用户挖掘请求的响应速度。

针对一般商业智能应用领域的实际情况和需要,以提高数据挖掘应用的效率为目标,本文将主要从并行处理技术和体系结构方面对现有数据挖掘系统进行改进和提高。

三、并行数据挖掘体系结构设计及特点

为解决通用数据挖掘系统中存在的一些问题和针对商业智能的特点,面向商业智能应用的并行数据挖掘体系结构如图2所示,由6部分组成:

1.高性能并行计算环境:并行数据挖掘体系结构中采用了高性价比的并行体系结构COW(Cluster of Workstations)、数据挖掘算法由串行算法改为并行算法以及采用“缓存”概念将数据挖掘结果保存在模式库中。并行处理技术的运用无疑对于数据挖掘效率的提高具有重要意义和实用价值,为数据挖掘效率的提高奠定了坚实的基础,对于商业智能应用的推广也具有重要作用。

2.数据源:数据仓库和其他数据源是数据挖掘的基础,商业智能应用系统应具有多种数据来源的处理能力,例如普通文件(电子邮件等)、关系数据库、数据仓库、数据集市等。

3.模式库:为了提高数据挖掘的效率以及商业逻辑的处理速度,借助硬件内存的“缓存”概念,将最近数据挖掘或者数据分析的结果(模式也许只是一个简单的规则描述)保存在模式库中,以便再次发生类似或者相同操作请求时能先在模式库中查找挖掘结果,从而尽量避免每次都从海量数据中进行挖掘操作,这样可以较大幅度提高处理速度。因此,模式库的建立为历史模式的有效利用提供了可能和基础

另外,由于模式库中存储的是历次挖掘出来的模式,可以从分析模式的变化来进行趋势预测,从而为决策支持提供了更多的分析手段。

4.学习和推荐Agent:增加了一个用户兴趣分析档案库,由学习Agent进行更新维护,供推荐Agent分析使用。学习Agent将根据权值的计算方法对用户兴趣档案中没有出现过的关键字进行加权操作。推荐Agent根据已有的用户兴趣档案,分析用户可能感兴趣的模式,并推荐给用户。

5.并行数据挖掘工具/多维分析工具:数据挖掘是商业智能的核心,并行数据挖掘算法对于提高数据挖掘效率具有重要意义。为了适应商业智能应用的需要,仅提供多维分析工具是远远不够的,应尽可能多的提供对多种模式的支持。商业智能涉及关联、分类、聚类、时序等模式,并行数据挖掘工具尽能包含对这些模式的支持,这也是衡量并行数据挖掘工具好坏的标准之一。

6.可视化工具:为用户提供数据挖掘结果的自观表示方法。

除上述特点外,通过对并行数据挖掘体系结构的设计与改进在以下两个方面取得了较好的效果:

(1)提高了系统之间的互操作性:现有的数据挖掘产品,对挖掘结果都有各自特殊的存储格式,不同挖掘工具之间要共享挖掘的结果非常困难。然而,对模式的集中存储就可以有效地解决上述问题,即设计类似SQL的查询语言,或设计通用的模式库接口。不同的挖掘工具通过使用模式查询语言或调用模式库接口的功能函数就可以共享模式库中存储的模式。

(2)并行处理能力强、可扩展性好、可用性高:改进后的并行数据挖掘体系结构建立在可扩展机群之上,除了具有较高的.可伸缩的并行处理能力之外,系统的可扩展性也非常好,可以通过增加或者减少处理结点数调整系统的处理能力,从而适应不同数据规模的处理需要,除此之外,系统的可用性高也是其显著特点,一般情况下COW的可用性指标都在99.9%以上,为商业智能应用系统的稳定运行提供了可靠保证。

四、结束语

并行数据挖掘体系结构具有较高的并行处理能力和性价比,以及方便灵活的并行程序设计环境,对于实施商业智能应用的客户和应用领域来讲,具有可操作性。大多商业智能应用客户已经或者容易获得本文给出的并行处理环境,不需要投入大量的经费购置专用的并行处理系统。

模式库的提出是一种新的有益的探索。由于模式库中存储了历史挖掘模式,如果其中的模式接近挖掘请求的时间,则可用这些模式自接作为挖掘的结果,不用再进行新的数据挖掘,在模式库中进行查询操作的响应会明显加快,大大提高了数据挖掘的效率。

参考文献:

[1]熊忠阳:面向商业智能的并行数据挖掘技术及应用研究[学位论文].重庆大学,2004