期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据挖掘技术论文

数据挖掘技术论文精品(七篇)

时间:2023-03-17 18:06:50

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据挖掘技术论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

数据挖掘技术论文

篇(1)

数据挖掘技术是一种新型的技术,在现代数据存储以及测量技术的迅猛发展过程中,人们可以进行信息的大量测量并进行存储。但是,在大量的信息背后却没有一种有效的手段和技术进行直观的表达和分析。而数据挖掘技术的出现,是对目前大数据时代的一种应急手段,使得有关计算机数据处理技术得到加快发展。数据挖掘技术最早是从机器学习的概念中而产生的,在对机器的学习过程中,一般不采用归纳或者较少使用这种方法,这是一种非常机械的操作办法。而没有指导性学习的办法一般不从这些环境得出反馈,而是通过没有干预的情况下进行归纳和学习,并建立一种理论模型。数据挖掘技术是属于例子归纳学习的一种方式,这种从例子中进行归纳学习的方式是介于上述无指导性学习以及较少使用归纳学习这两种方式之间的一种方式。因此,可以说,数据挖掘技术的特征在出自于机器学习的背景下,与其相比机器主要关心的是如何才能有效提高机器的学习能力,但数据挖掘技术主要关心如何才能找到有用、有价值的信息。其第二个特征是,与机器学习特点相比较而言,机器关心的是小数据,而数据挖掘技术所面临的对象则是现实中海量规模的数据库,其作用主要是用来处理一些异常现象,特别是处理残缺的、有噪音以及维数很高的数据项,甚至是一些不同类型数据。以往的数据处理方法和现代的数据挖掘技术相比较而言,其不同点是以往的传统数据处理方法前提是把理论作为一种指导数据来进行处理,在现代数据挖掘技术的出发角度不同,主要运用启发式的归纳学习进行理论以及假设来处理的。

2、数据挖掘技术主要步骤

数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。

3、数据挖掘技术的方法以及在电力营销系统中的应用和发展

数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过FP-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。

4、结语

篇(2)

(1)确定业务对象:做好业务对象的明确是数据域挖掘的首要步骤,挖掘的最后结构是不可预测的,但是探索的问题必须是有预见的,明确业务对象可以避免数据挖掘的盲目性,从而大大提高成功率。

(2)数据准备:首先,对于业务目标相关的内部和外部数据信息进行查找,从中找出可以用于数据挖掘的信息;其次,要对数据信息的内容进行全面细致分析,确定需要进行挖掘操作的类型;然后,结合相应的挖掘算法,将数据转化称为相应的分析模型,以保证数据挖掘的顺利进行。

(3)数据挖掘:在对数据进行转化后,就可以结合相应的挖掘算法,自动完成相应的数据分析工作。

(4)结果分析:对得到的数据分析结果进行评价,结合数据挖掘操作明确分析方法,一般情况下,会用到可视化技术。

(5)知识同化:对分析得到的数据信息进行整理,统一到业务信息系统的组成结构中。这个步骤不一定能够一次完成,而且其中部分步骤可能需要重复进行。

二、数据挖掘技术在水利工程管理中的实施要点

水利工程在经济和社会发展中是非常重要的基础设施,做好水利工程管理工作,确保其功能的有效发挥,是相关管理人员需要重点考虑的问题。最近几年,随着社会经济的飞速发展,水利工程项目的数量和规模不断扩大,产生的水利科学数据也在不断增加,这些数据虽然繁琐,但是在许多科研生产活动和日常生活中都是不可或缺的。例如,在对洪涝、干旱的预防以及对生态环境问题的处理方面,获取完整的水利科学数据是首要任务。那么,针对日益繁杂的海量水利科学数据,如何对有用的信息知识进行提取呢?数据挖掘技术的应用有效的解决了这个问题,可以从海量的数据信息中,挖掘出潜在的、有利用价值的知识,为相关决策提供必要的支持。

1.强化数据库建设

要想对各类数据进行科学有效的收集和整理,就必须建立合理完善的数据库。对于水利工程而言,应该建立分类数据库,如水文、河道河情、水量调度、防洪、汛情等,确保数据的合理性、全面性和准确性,选择合适的方法,对有用数据进行挖掘。

2.合理选择数据挖掘算法

(1)关联规则挖掘算法:关联规则挖掘问题最早提出于1993年,在当前数据挖掘领域,从事务数据库中发现关联规则,已经成为一个极其重要的研究课题。关联规则挖掘的主要目的,是寻找和挖掘隐藏在各种数据之间的相互关系,通过量化的数据,来描述事务A的出现对于事务B出现可能产生的影响,关联规则挖掘就是给定一组Item以及相应的记录组合,通过对记录组合的分析,推导出Item间存在的相关性。当前对于关联规则的描述,一般是利用支持度和置信度,支出度是指产品集A、B同时出现的概率,置信度则是在事务集A出现的前提下,B出现的概率。通过相应的关联分析,可以得出事务A、B同时出现的简单规则,以及每一条规则的支持度和置信度,支持度高则表明规则被经常使用,置信度高则表明规则相对可靠,通过关联分析,可以明确事务A、B的关联程度,决定两种事务同时出现的情况。

(2)自顶而下频繁项挖掘算法:对于长频繁项,如果采用关联规则挖掘算法,需要进行大量的计算分析,不仅耗时耗力,而且影响计算的精准度,这时,就可以采用自顶而下频繁项挖掘算法,这种算法是一种相对优秀的长频繁项挖掘算法,利用了事务项目关联信息表、项目约简、关键项目以及投影数据库等新概念与投影、约简等新方法,在对候选集进行生成的过程中,应该对重复分支进行及时修剪,提升算法的实际效率,从而有效解决了长频繁项的挖掘问题。结合计算机实验以及算法分析,可以看出,这种方法是相对完善的,同时也是十分有效的。不过需要注意的是,当支持度较大、频繁项相对较短时,利用关联规则挖掘中典型的Apriori方法,可以起到更好的效果。

(3)频繁项双向挖掘算法:这种算法是一种融合了自顶向下以及自底向上的双向挖掘算法,可以较好的解决长频繁项以及段频繁项的挖掘问题,主挖掘方向是利用自顶向下挖掘策略,但是结合自底向上方法生成的非频繁项集,可以对候选集进行及时修剪,提升算法的实际效率。

三、结语

篇(3)

[参考文献]

[1]董西明.客户关系管理及其应用[J].学术交流,2004(8)

[2]王光玲.CRM—企业管理理念新发展[J].经济论坛,2003(9)

[3]崔京波,陈颖.论CRM及应用[J].科学与管理,2005(6)

[4]田丹.浅析供应链环境下的客户关系管理(CRM)[J].商情(教育经济研究),2008(3)

[5]左臻.浅谈客户关系管理[J].科技情报开发与经济,2005(5)

[6]徐辉.浅析客户关系管理[J].商业经济,2008(10)

[7]姚德全,于冬梅.客户关系管理在企业发展中的重要性[J].科技创新与应用,2013(8)

参考文献

[1]郭愈强,樊玮.数据挖掘技术在民航CRM中的应用[J],计算机工程,2005(31):169-171.

[2]刘彬,白万民.浅析数据挖掘技术在CRM中的应用[J].电子世界,2014,01(17):16-17.

[3]杨虎猛,朱汝岳.金融业分型CRM系统探索与应用[J].计算机应用与软件,2013,07(30):259-261.

[4]徐国庆,段春梅.数据挖掘技术在CRM中的应用研究[J].网络安全技术与应用,2012,02(12):38-40.

[5]王一鸿.体检中心CRM构建及数据挖掘的应用研究[D].华东理工大学,2011.

[6]潘光强.基于数据挖掘的CRM设计与应用研究[D].安徽工业大学,2011.

参考文献:

[1]廖雯.基于客户生命周期的CRM策略研究[J].商,2015(17):15-15.

[2]陈杭.电子商务的营销资源在CRM策略中有效分配探讨[J].现代商业,2015(11):42-43.

[3]金子琦.纷享销客中国式CRM商业逻辑大复盘[J].创业邦,2015(10):90-91.

篇(4)

[关键词]数据挖掘 风险评估 集装箱

一、引言

随着我国对外贸易的快速发展,进境箱量显著增长。“十一五”期间,检出携带疫情及有毒有害物质箱数呈持续增长趋势。仅2010年度,共受理进境集装箱申报3699.06万箱,同比增长14.04%,检出携带疫情或有毒有害物质的43.66万箱,比去年同期提高了28.20%。进境检出疫情箱数占查验箱数的比例(即查验检出率)为3.26%,同比提高0.43个百分点。这反映出进境集装箱携带疫情及有毒有害物质情况十分普遍,进境集装箱检疫面临形势十分严峻。

目前,在进境集装箱检疫工作中主要采用以人工判断为主的经验式方法,效率比较低,工作量繁重,经验知识传承性差。但是在多年来的实践过程中,我们已经积累了大量的经验和数据。通过数据挖掘技术在已有的数据中发现未知的模式和知识可以为入境集装箱风险进行评估,并为检疫业务决策提供辅助支持。

二、数据挖掘技术

数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。简而言之,数据挖掘其实是一类深层次的数据分析方法。数据挖掘已广泛应用于生物医学、金融、零售业、电信业、海关监管等领域,并产生了巨大的效益。数据挖掘技术同样能够将大量的检疫数据提炼、转化为可以理解和应用的模式和知识来指导检疫业务。

数据分类(DataClassification)是数据挖掘技术的一个重要分支。从根本上说,数据分类就是通过对源数据的特点进行归纳和描述。要进行数据分类,必须使用特定的分类工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。数据分类是数据挖掘的基本功能、重要功能,目前在商业、工业、军事、生活、海关监管上应用最多,具有非常高的使用价值。

三、数据概念模型

根据从进境集装箱中检出疫情及有毒有害物质情况的不同,将检出问题分为7类,分别是:①人类传染病和动物传染病病原体;②植物危性病、虫、杂草以及其它有害生物;③啮齿动物、蚊、蝇、蟑螂等病媒生物;④土壤、动物尸体等禁止进境物;⑤动植物残留物;⑥生活垃圾及其他有毒有害物质;⑦其他问题——7类问题,对应每一类问题需要建立一个可用于数据挖掘的数据概念模型,其主要包括:

(1)7大类问题集装箱同诸如:①来源地;②箱主公司;③承运人;④货运方式等特征数据存在哪些未知的、潜在有用的模式和知识,明确对每类问题集装箱产生影响的特征数据,建立一套对应各类问题集装箱的风险数据字典;

(2)CIQ数据库中并不包含所有的特征数据,一些重要的特征数据需要通过与场站、货运公司的比对才能获得。同时,要对数据进行采集、清洗、转换等步骤,建立可以用于数据挖掘的数据概念模型。

四、风险评估模型

对进境集装箱进行风险评估主要用到数据挖掘中的重要分支——分类技术,建立和完善风险评估模型关系到风险评估系统研究的成败,主要研究内容如下:

(1)分类技术有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,结合检疫工作实际选择合适的算法进行数据挖掘,并在实践中对模型进行修正和完善;

(2)选择和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模块化分析工具对7类问题集装箱进行逐类数据挖掘、建模。

五、典型系统应用开发

基于上述的研究成果,设计实现一个基于数据挖掘技术的进境集装箱风险评估管理系统,重点关注下面系统,如图1所示:

(1)面向检疫查验人员设计并实现一个基于Web技术的软件系统,通过此软件,检疫管理人员可以将已有风险评估模型软件化,系统接收进境集装箱特征数据,自动对风险进行预评估。同时,将用于风险评估的数据独立于CIQ数据库存在,为以后进一步完善风险评估模型提供数据库支持。

(2)面向检疫查验人员设计并实现一个软件终端,考虑到检疫查验一线人员工作环境分散、移动的特点,重点面向主流嵌入式系统(Apple、Angel、Symban、Windows-Mobile等)和移动终端(如手机、PDA、iPOD等)展开研发。

图 基于数据挖掘技术的风险评估系统

六、结论

针对出入境检验检疫部门在对进境集装箱检疫查验中盲目性大、工作效率低等客观实际,研究一个基于数据挖掘技术的进境集装箱风险评估模型,并将其软件化、实用化,通过软件自动对进境集装箱进行风险等级评估,指导日常检疫查验工作,降低检验查验的盲目性,提升检疫查验人员的工作效率,提高把关成效。

参考文献:

[1]舒军生.数据挖掘技术在企业信用分类管理系统中的应用.安徽:安徽大学硕士论文.2010

[2]高燕. 基于数据挖掘技术的海关执法评估系统的研究与开发.武汉:武汉理工大学硕士论文.2002

篇(5)

论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。

数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。

一、数据挖掘技术的概念

随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。

二、数据挖掘技术在保护设备故障信息中的实现方法

1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。

2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。

三、数据挖掘技术保护设备故障信息管理的基本功能

1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。

2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。

四、结语

随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。

参考文献:

[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9

[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1

篇(6)

>> 基于网络数据挖掘的个性化电子商务推荐系统研究 基于大数据的社团个性化推荐系统 基于swarm平台和社交网络的电子商务个性化推荐系统仿真模型的理论构建 网络数据挖掘在图书馆个性化推荐中的应用研究 基于个性化推荐的网络营销 基于数据挖掘的电子政务个性化推荐服务框架研究 基于数据挖掘的个性化智能推荐系统应用研究 基于社交网络的个性化知识服务模型研究 基于免疫进化的网络教学资源个性化推荐系统研究 移动社会网络中基于位置的个性化餐馆推荐建模研究 基于IPTV的个性化推荐技术的研究 个性化好友推荐系统在社交网站上的应用研究 基于社交网络的社会化推荐算法研究 基于个性化混合推荐算法的网络推荐系统 基于数据挖掘的个性化推荐在SNS中的应用 基于Web使用数据挖掘的个性化推荐系统设计 基于小数据的高校图书馆个性化推荐 基于个性化推荐学习的网络培训教学课程平台的设计与实现 基于网络学习行为的个性化评价研究 社会化标签系统中基于本体的个性化推荐方法研究 常见问题解答 当前所在位置:l

[2]张婷婷. 社会化网络中人际关系与人际传播研究[D].长沙:湖南大学,硕士学位论文,2012

[3]王萍. 社会化网络的信息扩散研究[J]. 情报杂志,2009,28(10):39-42

篇(7)

南京大学的周志华教授曾专门撰文论述了数据挖掘和机器学习以及数据库之间的关系,他提出:数据挖掘可以视为机器学习和数据库的交叉,主要利用机器学习界提供的技术来分析海量数据,利用数据库界提供的技术来管理海量数据。

组成数据挖掘的三大支柱包括统计学、机器学习和数据库领域内的研究成果,其他还包含了可视化、信息科学等内容。不同的教材从不同的方面结合其基础学科知识讲述数据挖掘技术,不同专业和技术背景的学生或数据挖掘研究人员和应用人员可以根据自身的专业方向选择不同的数据挖掘切入点。下面简单归纳目前比较主流的数据挖掘和机器学习方面的教材。

数据挖掘:概念与技术

原书名:Data Mining:Concepts and techniques

作者:Jiawei Han

本书主要从数据库的角度(数据管理和数据计算的角度)讲解数据挖掘,作者Jiawei Han现任UIUC CS Dept.教授。本书第2版在丰富和全面的第1版基础上进行了更新和改进,并增添了新的重要课题,例如挖掘流数据、挖掘社会网络和挖掘空间、多媒体和其他复杂数据。本书对数据挖掘基本概念、算法及其相关技术有比较全面的阐述,是国内大多数高校指定教材,它不要求太高的数学基础,非常适合数学功底一般的学生使用。

数据挖掘:实用机器学习技术(原书第2版)

原书名:Data Mining: Practical Machine Learning Tools and Techniques

作者:Ian H. Witten, Eibe Frank

本书主要从机器学习的角度,也有称从数据挖掘的应用实现角度来讲解数据挖掘,描述了各种算法、模型及其Java实现,重点是以应用的观点利用案例来说明数据挖掘的算法模型,对于具体算法的原理介绍不是非常详细。它对数据挖掘的Java软件包Weka有比较深的介绍。该书作者都是Weka项目组主要成员。图灵奖获得者Jim Gray如此评价:假如你需要对数据进行分析和应用,本书以及相关的Weka工具包是一个绝佳的起步。

数据挖掘原理

原书名:Principles of Data Mining

作者:David J. Hand

很多学科都面临着一个普遍问题,即如何存储、访问异常庞大的数据集,并用模型来描述和理解它们。这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正跨学科的教材。主要从统计学的角度来解析数据挖掘以及其与统计的关系。其中如建模、测量、评分函数、模型等术语都是从统计者的角度出发。书中并没有具体说明KDD与DM之间的关系,比较适于统计系和数学系的学生采用。

机器学习

原书名:Machine Learning

作者:Tom Mitchell

本书是CMU等许多国际知名大学机器学习课程的教材。目前发表的各种机器学习专著或论文基本都会引用这本书的内容。作者Tom Mitchell是CMU的教授,美国人工智能协会的主席,《机器学习》杂志和“国际机器学习”年度会议的创始人,他在ML领域久负盛名。本书也是最经典和采用率最高的机器学习教材。本书需要的数学基础也很少,但对必要的背景介绍相当丰富,非常适合初学者。

模式分类(原书第2版)

原书名:Pattern classification