期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 数据挖掘技术分析论文

数据挖掘技术分析论文精品(七篇)

时间:2022-12-21 17:52:27

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇数据挖掘技术分析论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

数据挖掘技术分析论文

篇(1)

数据挖掘技术是近些年发展起来的一门新兴学科,它涉及到数据库和人工智能等多个领域。随着计算机技术的普及数据库产生大量数据,能够从这些大量数据中抽取出有价值信息的技术称之为数据挖掘技术。数据挖掘方法有统计学方法、关联规则挖掘、决策树方法、聚类方法等八种方法,关联规则是其中最常用的研究方法。关联规则算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指从海量数据中挖掘出有价值的能够揭示实体和数据项间某些隐藏的联系的有关知识,其中描述关联规则的两个重要概念分别是Suppor(t支持度)和Confi-dence(可信度)。只有当Support和Confidence两者都较高的关联规则才是有效的、需要进一步进行分析和应用的规则。

二、使用Weka进行关联挖掘

Weka的全名是怀卡托智能分析环境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免费的、非商业化的、基于JAVA环境下开源的机器学习以及数据挖掘软件[2]。它包含了许多数据挖掘的算法,是目前最完备的数据挖掘软件之一。Weka软件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四种模块[2]。其中Explorer是用来探索数据环境的,Experimenter是对各种实验计划进行数据测试,KnowledgeFlow和Explorer类似,但该模块通过其特殊的接口可以让使用者通过拖动的形式去创建实验方案,Simple-CLI为简单的命令行界面。以下数据挖掘任务主要用Ex-plorer模块来进行。

(一)数据预处理

数据挖掘所需要的所有数据可以由系统排序模块生成并进行下载。这里我们下载近两年的教师科研信息。为了使论文总分、学术著作总分、科研获奖总分、科研立项总分、科研总得分更有利于数据挖掘计算,在这里我们将以上得分分别确定分类属性值。

(二)数据载入

点击Explorer进入后有四种载入数据的方式,这里采用第一种Openfile形式。由于Weka所支持的标准数据格式为ARFF,我们将处理好的xls格式另存为csv,在weka中找到这个文件并重新保存为arff文件格式来实现数据的载入。由于所载入的数据噪声比较多,这里应根据数据挖掘任务对数据表中与本次数据任务不相关的属性进行移除,只将学历、职称、论文等级、学术著作等级、科研获奖等级、科研立项等级、科研总分等级留下。

(三)关联挖掘与结果分析

WeakExplorer界面中提供了数据挖掘多种算法,在这里我们选择“Associate”标签下的Apriori算法。之后将“lowerBoundMinSupprot”(最小支持度)参数值设为0.1,将“upperBoundMinSupprot”(最大支持度)参数值设为1,在“metiricType”的参数值选项中选择lift选项,将“minMetric”参数值设为1.1,将“numRules”(数据集数)参数值设为10,其它选项保存默认值,这样就可以挖掘出支持度在10%到100%之间并且lift值超过1.1且排名前10名的关联规则。其挖掘参数信息和关联挖掘的部分结果。

三、挖掘结果与应用

以上是针对教师基本情况和科研各项总分进行的反复的数据挖掘工作,从挖掘结果中找到最佳模式进行汇总。以下列出了几项作为参考的关联数据挖掘结果。

1、科研立项得分与论文、科研总得分关联度高,即科研立项为A级的论文也一定是A。这与实际也是相符的,因为科研立项得A的教师应该是主持了省级或是国家级的立项的同时也参与了其他教师的科研立项,在课题研究的过程中一定会有国家级论文或者省级论文进行发表来支撑立项,所以这类教师的论文得分也会很高。针对这样的结果,在今后的科研工作中,科研处要鼓励和帮助教师搞科研,为教师的科研工作提供精神上的支持和物质上的帮助,这样在很大程度上能够带动整个学校科研工作的进展。

2、副教授类的教师科研立项得分很高,而讲师类教师和助教类教师的科研立项得分很低,这样符合实际情况。因为副教授类的教师有一定的教学经验,并且很多副教授类的教师还想晋职称,所以大多数副教授类教师都会申请一些课题。而对于讲师类和助教类的教师,由于教学经验不足很少能进行省级以上的课题研究,因此这两类教师的科研立项分数不高。针对这样的结果,在今后的科研工作中,科研处可以采用一帮一、结对子的形式来帮助年轻教师,这样可以使青年教师参与到老教师的科研课题研究工作中去,在课题研究工程中提高科研能力和教学能力。

篇(2)

关键词:中医证侯;研究概况;进展

【中图分类号】R255.2 【文献标识码】A 【文章编号】1672-3783(2012)05-0093-01

1 引言

辨证是中医学的特点与优势之一,也是中医药取得疗效的前提。中医是以传承性为主的实践医学,受生产技术水平的影响,前人在辨证的时候主要靠个人的临诊经验,掺杂了许多主观因素与模糊概念,加上众多的医学流派推崇不同的思辨方式,使证侯的外延与内涵愈加复杂而不可确定。随着计算机、生物技术的进步以及交叉学科的发展,中医证侯的研究开始了新局面,能否从病、证、症、生物学基础等不同层次中挖掘出其固有的规律性的联系,以确定不同证侯的概念范畴、使辨证更具重复性和临床可操作性,这成为大家所探求的方向。众多学者为此开展了不少研究工作,笔者就中医证侯近十年的研究概况进行论述并分析如下。

2 中医证侯近十年的研究概况

2.1 证侯研究成果检索结果与分析:利用“中医”、“证或证侯”、“文献”、“临床” 及“动物(实验)”等主题词检索CNKI数据库从2000-2008年所收录的论文,其中文献研究相关论文272篇,临床研究相关论文5323篇,动物实验相关论文238篇。统计结果如图1所示。从图中可以看出以下特点:1)临床研究是证侯研究的主要方式,这是由中医的临证性所决定的。2)中医古籍资源有限、研究成果转换周期较长,是导致文献研究数量低的主要原因。

2.2 证侯研究主要切入方向的研究成果检索结果与分析:在检索“证”或“证侯”研究论文的基础上,以“四诊规范”、“生物学”、“数据挖掘”等关键词结合手工进一步检索,获得近十年发表的论文中,与四诊规范研究相关的论文227篇,与生物学研究相关论文436篇,与数据挖掘相关论文220篇。其研究态势如图2所示。从图2中可以看出,相关研究论文均有逐年上升的趋势。就近十年而言,证侯生物学研究相关论文最多,数据挖掘类论文数量增长迅速。

2.3 证侯的具体研究概况

2.3.1 四诊的定性与定量研究:通过四诊收集到的症状(主要由患者自己叙述出来)、体征(由患者表现出来,通过望、闻、切可知的,包括舌象、脉象、面色、神志状况)等信息是证侯的构成基础。舌、脉和面色虽客观存在,但易受周围环境、自然光线及医者主观判断的影响,因此利用物理仪器、高分辨率的数码相机结合色彩、图谱分析软件力求量化已成为趋势。就舌象客观化而言,不少学者对舌色、苔色、舌苔的厚度与湿度、齿痕、纹理特征,甚至对舌体的胖瘦、歪斜,舌下络脉的长度、宽度、颜色进行了量化分析[2-5],具有一定的临床符合率。

此外,通过问诊所获取的信息在中医证候分类中起着重要的作用。如何控制和把握这些“软指标”,近年来不少学者也做了很多工作。有学者把社会学中的定性研究引入中医问诊领域[12],建议与患者进行深入交谈,对患者的语气、语言表达方式、神态、言语内容等进行综合分析,以期获取尽可能多的与病症相关的信息,这些信息可能容易被医生所忽视,但对证侯的判别起重要作用,能弥补定量研究的缺憾。

2.3.2 证侯生物学基础的研究:中医证侯的确立是依据表现型组资料得来的,对于现代生命科学而言,一个证候表现型的产生必然有从基因组层次到器官组层次的不同范围的功能异常[13]。从文献检索的结果来看,涉及细胞、基因层面的研究论文较多,技术相对成熟;蛋白、代谢组学层面的论文较少,研究技术有待完善。

就细胞层面而言,研究较多的是细胞因子、细胞外基质及细胞表面标志物在不同证侯下的特异表达。细胞因子的相关性研究趋于热化主要是因为:其介导细胞间相互影响、作用而形成复杂的人体调节网络,这可能是证的实质所在[14];其种类众多,功能各异,如白细胞介素、肿瘤坏死因子、趋化性细胞因子及其细胞膜受体和可溶性受体等,这些指标常见于诸多论文中;检测方法较为便利,且敏感性强。

2.3.3 利用数据挖掘方法的证侯研究:中医辨证的过程是医者凭借个人经验从患者的一系列症状、体征或生物学指征、外界环境等复杂的非线性现象[15]中提取出相互关联的、有内在规律的、特异的组合信息。数据挖掘[16]则是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。可以说两者在获取信息的方式与过程上有契合之处。

研究者常依据不同的研究目的及数据的特点选择不同的多元统计方式。如探讨饮食习惯、居住环境、体质因素等不同的致病因素或生物学检测指标或某一疾病下各证型的症状、体征与该证型之间的关联性多采用回归法,如进一步分析哪些症状、体征和生物学指标对区分不同的证侯有较高的贡献度,多通过逐步判别分析。

3 结语

就近年主要的研究成果来看,将宏观与微观、定性与定量的研究方式相结合是证侯研究的可行路径和发展趋势。然而如何将有一定组合规则和重叠涵盖关系的证侯要素进行合理的分解,四诊宏观信息如何定量,生物学微观指标如何定性,二者怎样结合,采用什么样的方式结合才能真正提示或反应、甚而揭示证侯的内涵,这是目前研究的困惑与癥结所在,借鉴现代计算机信息处理技术、生物学技术和多学科交叉的优势互补,可能会有所突破。

参考文献

[1] 郭蕾,王永炎,张志斌.关于证候概念的诠释.北京中医药大学学报,2002; 26(2): 5-7

[2] 卫保国,沈兰荪.舌体胖瘦的自动分析.计算机工程,2004; 30(11):25-58

[3] 卫保国,沈兰荪,蔡轶珩.舌体歪斜的自动分析.计算机工程与应用,2003; 25(10): 22-26

[4] 沙洪,赵舒,王妍,任超世. 中医脉象多信息采集系统的研制.中华中医药杂志,2007; 22(1): 21-24

篇(3)

关键词: 居民出行特征; 数据挖掘; GPS轨迹数据; DBSCAN

中图分类号:TP29 文献标志码:A 文章编号:1006-8228(2017)05-37-03

Research on the characteristics of resident travel based on the taxi

GPS trajectory data mining

Lin Jiyan, Zhang Yaqiong, Zhang Hui

(School of Information Technology, Yulin University, Yulin, Shaanxi 719000, China)

Abstract: The analysis to the characteristics of urban residents travel is becoming increasingly important in urban traffic planning, and has become an important basis of urban road traffic construction. The urban taxi can well reflect the characteristics of residents travel because of its operational characteristics and rule. Therefore, in order to effectively solve the problem of city road congestion and provide the basis for city traffic planning, the paper presents the research on the characteristics of resident travel based on the taxi GPS trajectory data mining. The research uses DBSCAN algorithm to realize the clustering analysis of the historical GPS trajectory data, which can not only extract the temporal and spatial characteristics of urban resident travel, but also effectively reduce the taxi no-load rate.

Key words: resident travel characteristic; data mining; GPS trajectory data; DBSCAN

0 引言

在城市的上下班高峰期,道路矶率浅鞘薪煌ㄎ侍庵凶钗突出的难题,这跟城市居民出行行为密不可分,因为出行的居民是交通量的主要来源[1]。一个城市的交通系统状况跟城市居民的出行行为息息相关,居民的出行行为会对城市交通体系产生影响[2]。对居民出行特征进行研究是城市和交通规划、城市公共基础设施建设管理中的一个基础性任务,不仅可以用来对目前的交通出行情况进行评估,也可以用来对居民的出行需求进行预测,对实施合理有效的城市交通规划起着至关重要的作用[3]。

出租车因其灵活性和便利性,已日渐成为城市交通系统的重要组成部分,同时,因为它的起点和终点由乘客决定,且24小时不间断服务,所以,出租车的运营规律能够反映出乘客的出行特征[4]。由于装载在出租车上的GPS和通信设备以一定的频率向城市交通客运管理中心传送出租车的实时经纬度、运营状态、行驶方向、速度等信息,因此,管理中心会积累大量的出租车GPS轨迹数据[5],利用DBSCAN对这些进行数据进行聚类分析,可以在一定程度上挖掘乘客出行的时空特征,也能为出租车寻找最佳的载客区域提供依据,有效的降低出租车的空驶率。

1 GPS轨迹数据挖掘设计

1.1 数据预处理

本文选取榆阳区(地理坐标为东经108?58'-110?24',北纬37?49'-38?58'之间)作为研究区域,GPS轨迹数据使用榆阳区1100多辆出租车五天的运营数据,对数据进行预处理后,出租车轨迹数据由车牌ID tID、、当前位置loc、GPS时间ct、营运状态tsta、行驶方向tdir、GPS速度dspe等六个属性组成,部分属性值如表1所示。

表1中,营运状态的取值为0-3,其中0表示空载,1表示载客,2表示驻车,3表示停运;GPS方向的取值为000-360,以度为单位,即与北极方向的夹角,代表车辆的行驶方向。

1.2 利用DBSCAN算法进行聚类挖掘

居民的作息和社会活动有明显的时间规律,比如上下班高峰期的载客点分布情况和非高峰期的居民出行特征有可能完全不同,因此,可以先将GPS历史轨迹数据根据时间特征分类,再进行密度聚类分析,如此便可充分挖掘在不同时间段上居民出行特征的空间密度分布情况,给出租车提供更加合理的时空载客区域分布数据,有效地提高其巡游过程中的载客成功率。基于此,论文引入了DBBSCAN算法,该算法需要3个输入参数:历史轨迹数据对象D,空间半径ε,以及密度阈值MinPts;输出参数为聚类簇C,部分MATLAB代码如下:

data=importdata('data.xlsx');

data=data.data.Sheet1;

……

num=size(data,1);

k=floor(log(num))+1;

k=round(num/25)+1;

k_dist=zeros(num,1);

for i=1:num

temp=repmat(data(i,:),num,1);

gx0=temp(:,1); gy0=temp(:,2);

gx1=data(:,1);gy1=data(:,2);

dist0=sqrt((gx0-gx1).^2+(gy0-gy1).^2);

dist_s=sort(dist0);

k_dist(i)=dist_s(k);

end

x=1:num;

figure;plot(x,k_dist,'r-');

xlabel('?ù±?±à??');ylabel('k_{-}dist');title('k_{-}dist??');

……

x=[(1:m)' data];

[m,n]=size(x);

types=zeros(1,m);

dealed=zeros(m,1);

dis=calDistance(x(:,2:n));

number=1;

……

img=imread('map.jpg');

[Ny,Nx]=size(img);

……

figure;imagesc(x00,y00,img); colormap(gray); hold on;

for i=1:m

if class(i)==-1

plot(data(i,1),data(i,2),'.r');

else if class(i)==1

if types(i)==1

plot(data(i,1),data(i,2),'+b');

else

plot(data(i,1),data(i,2),'.b');

end

elseif class(i)==2

if types(i)==1

plot(data(i,1),data(i,2),'+g');

else

plot(data(i,1),data(i,2),'.g');

end

……

plot(x1,y1,'r*');

xlabel('度'); ylabel('纬度');

2 实验结果

聚类结果如图1和图2所示,出行热点区域在图中用圆圈标出。

以上的聚类结果显示,榆阳区的居民出行呈现一定空间和时间特征。工作日和非工作日出租车热点区域不同,且工作日的不同时间居民出行的特征不同;在工作日,出租车的载客热点数比非工作日多;而载客热点分布,工作日比非工作日分散。该聚类结果也可以给出租车司机提供历史载客热点序列,从一定程度上解决巡游方式的出租车空载率高的问题。

3 结束语

本文利用DBSCAN算法对出租车的历史GPS轨迹数据进行挖掘,从挖掘结果可以分析出居民出行的时空特征,从而用来对目前的交通出行情况进行评估,同时也可以用来对居民的出行需求进行预测;再者,可以根据挖掘结果给出租车司机提供历史载客热点序列,帮助出租车司机降低空驶率。本文仅针对工作日和周末特定时刻给出了聚类分析,没有详细地分析一天中不同时刻的居民出行特征,以后的工作中会继续研究和改进。

参考文献(References):

[1] 卫龙,高红梅.基于轨迹数据挖掘的居民出行特征研究进展[J].西部交通科技,2016.10:87-92

[2] 冯琦森.基于出租车轨迹的居民出行热点路径和区域挖掘[D].重庆大学,2016.

[3] 陈世莉,陶海燕,李旭亮,卓莉.基于潜在语义信息的城市功能区识别――广州市浮动车GPS时空数据挖掘[J].地理学报,2016.3:471-483

[4] 张俊涛,武芳,张浩.利用出租车轨迹数据挖掘城市居民出行特征[J].地理与地理信息科学,2015.6:104-108

[5] 张薇,林龙.基于数据挖掘的增城居民出行特征分析[J].科技和产业,2015.7:61-64

[6] 赵苗苗.基于出租车轨迹数据挖掘的推荐模型研究[D].首都经济贸易大学硕士学位论文,2015.

[7] 童晓君.基于出租车GPS数据的居民出行行为分析[D].中南大学硕士学位论文,2012.

篇(4)

长久以来信息的不完备是影响管理者进行理性判断和决策的直接原因之一,而现有的数据库系统虽然可以高效地实现数据的录入、查询和部分统计等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。因此,杭州市西湖区院为了在检察业务信息、队伍建设情况和综合行政事务方面辅助领导决策,建设应用行政决策辅助系统,将各科室以往分散的数据资源进行整合,并充分发挥电子政务平台的优势,通过系统提供的多种分析功能进行多角度、多层次的分析,将各类数据转化为院领导决策所需要的信息。它的实施使得行政决策者可以在广泛了解决策所需信息的前提下进行决策,避免了靠经验决策和决策信息不完备导致的决策的盲目性现象,从而提高了行政决策的科学性和合理性,支持与强化行政决策过程。

一、系统架构及技术分析

系统架构主要由数据仓库系统、模型库系统、知识库系统及可视化接口4部分构成。采用的关键技术是数据仓库技术(DW)、数据挖掘技术(DM)、在线分析处理技术(OLAP)。

(一)数据仓库的作用

电子政务的决策过程是一个从非结构化数据中抽取结构化信息,再提供非结构化决策分析结果的过程。因此,为了营造良好的电子政务决策数据环境,获得高质量的数据分析结果,建立适合政府决策的数据仓库系统是电子政务决策支持系统的关键环节,以确保政务系统中的数据能够更好地发挥分析、决策的作用。这种数据仓库系统的功能要能向两个不同方向拓展,一是广度计算,二是深度计算。广度计算是使数据仓库系统的应用范围尽量扩大,能基本涵盖市级政府决策、服务的领域;深度计算使数据仓库系统克服了以往数据库简单数据操作处理(即事务处理)的缺点,对数据处理提出了更高的要求,使其能更多地参与政府对数据分析和决策的制定等工作。

(二)模型库系统的功能

模型库系统包括模型库及其管理系统,模型库是一个包含有财务、统计、运筹和其他定量模型的软件包,存放解决行政管理问题的经验模型,是为决策提供分析能力的部件,给予决策者通过推理、比较、选择来分析、预测和解答整个问题的能力。因此,研究一些决策支持模型,建立一个政府决策的模型库系统是完成系统的关键环节之一。这种模型库系统应具有以下两个特点,一是能实现多目标决策;二是能实现多领域、多部门、多用途的决策,即按经济内容来看应具有预测类模型、综合平衡模型、结构优化模型、经济控制类模型等,按决策活动来看应有规划模型、推理模型、分析模型、预测模型、评估模型等。

(三)知识库系统的功能

知识库系统包括知识库及知识库管理系统,其功能是对知识进行系统化组织与管理,存储、增加、删除、修改和查询知识,以及对知识进行一致性和完整性校验。知识库与数据库既有区别又有联系,从知识的逻辑表示观点来看,关系数据库是一种简单的知识库,数据库中的每一个关系是一个原子公式,即一个谓词,关系中的元组即是知识中的事实,因此利用关系数据库来建造知识库,就可以充分利用关系数据库管理系统的功能,便于知识库管理系统的设计与实现。

(四)可视化接口

可视化接口包括预测、分析、查询和维护等4个子系统。通过数据分析和预测工具对数据仓库中的数据进行多维分析、汇总,结果可以用二维表、饼图、折线图和直方图表示。

二、数据挖掘的技术工具和基本过程

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘常用的技术有神经网络、决策树、遗传算法、近邻算法和规则推导等。数据挖掘常用的工具有:

第一,基于神经网络的工具。由于对非线性数据具有快速建模能力,神经网络很适合非线性数据和含噪声数据,所以在政府数据库的分析和建模方面可以应用。

第二,基于关联规则和决策树的工具。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。

第三,基于模糊逻辑的工具。其发现方法是应用模糊逻辑进行数据查询、排序等。

第四,综合多方法工具。不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适用于大型数据库或者并行数据库。数据挖掘的基本过程包括数据准备、模型搜索、结果分析和生成报告。

数据准备:收集和净化来自数据源的信息并加以存储,将其放入数据仓库中。

模型搜索:利用数据挖掘工具在数据中查找模型,搜索过程可以由系统自动执行,也可以由用户参与执行。对于一个主题的搜索,可用神经网络、专家系统、统计方法等。

结果分析:一般地说,数据挖掘的搜索过程需要反复多次,因为当分析人员评价输出结果后,他们可能会发现一些偏差或一些新的问题,要求对某一方面做更精细的查询。

篇(5)

摘要:本文阐述了电子表格在投资分析中的应用,并以某只股票价格数据为例(华夏银行600015),作为数据挖掘的对象,得出股票买卖的定价模型。并通过实证,说明电子表格在数据挖掘和财务管理方面是可以带来经济效益的。

关键词 :电子表格;股票价格;买卖定价模型;案例分析

在现实的生产与生活中,有许多事物我们还没有掌握其规律,让我们做起来很容易失败,甚至造成很大的损失。但我们又想利用它,就必须研究其规律。例如,气象学中的天气预报,我们人类已经研究的比较准确了。但在地震、洪涝灾害等面前,人类就还远没有研究明白。也就是说,数据挖掘活动仍有广阔的研究空间和大有用武之地,人类还需要做出大量的数据挖掘才能发现新的或更多的事物的规律性。

一、数据挖掘的作用

1.数据挖掘有助于领导者提高决策质量

决策是在两个以上方案或诸多方案中选择一个比较正确的方案的过程。使用数据挖掘技术来揭示事物发展变化的规律,然后制定出一种符合规律的行为模式,这样取得成功的概率才比较大。在企业,领导层经常要进行各种决策。如果没有一些有利数据的支持,全凭借你“拍脑门”决策,就容易事与愿违,欲速则不达。利用数据挖掘技术可以帮助企业改善决策,它能及时和更好地帮助领导者做好决策。

2.数据挖掘在市场营销的应用

数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体的消费行为,以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业赢得更多的利润。

3.数据挖掘在投资领域的应用

投资活动的目的是为了盈利,但是有些投资者(机构、个人)却事与愿违,不但未能盈利,反倒是亏损了。股市上历来有:“七赔两平一亏”的说法。这说明,那些在投资活动的赢家肯定是有一套成功的方法,而成功的方法依然是离不开数据挖掘的结果。可以断言,在公平的游戏规则下,长期来看,任何成功者都是成功的数据挖掘者,都是在掌握了大量经验或有关数据,进行符合规律性的操作的结果;而违背规律的操作就必然造成投资失败。当前,在投资领域,有股票、期货、黄金、外汇、白银、比特币等。这些领域就是很值得数据挖掘。做好了,就是可以实现盈利的。所以,如果你建立了一个有效的数据模型进行有关投资的买卖,就等于你有了一个金矿的挖掘机,从市场中可以挖掘出许多超额利润来。

二、股票数据挖掘的案例分析

1.数据挖掘的目标、思路、依据和任务

股票数据挖掘,目的是为了在炒股中盈利。在这里,我主要说明一下我利用电子表格进行股票数据挖掘的做法,并进行实证检验。

只有通过低买高卖才能赚取差价而获利。股票价格是高低波动着的。在股票价格运行在低点区域时买入,运行到高点区域时卖出就挣钱了。所以,股票价格低到什么程度买,高到什么区域卖,最重要的是需要计算股票的买卖价格系数。

任何事物都是有着自身变化规律的,股票价格的运动也必定是按照某种规律变化着的。股票价格的变动规律可以通过对大量历史价格资料进行统计观察而被发现。利用计算机电子表格进行股票数据挖掘的主要任务是:对股票价格开展对比计算、平均值计算和标准差的计算,从而得出制定股票买卖价格的重要参数,解决了人工计算的速度太慢的问题。

2.研究的过程

(1)搜集数据资料,应用电子表格对股票价格数据的处理搜集数据。从网上搜索到华夏银行股票2013 年之前的价格资料做样本,导入到电子表格,以便于快速计算。这里取2004年5月21日至2012年12月28日的共424个交易周的价格资料,限于篇幅,为说明该股票实际价格构成情况,这里只列示了首尾少数几周的数据(见表1)。

(2)买卖价格系数的计算与买卖定价公式的建立这里仅以股票的周线资料做研究对象,读者也可以类推到日线、月线和季度线等的研究。步骤如下:

①抽取某股票的n 周(n>30)历史价格资料,并利用

这样定价的道理是为了低买高卖,赚得股票价差利得。

式中,为概率度,根据概率论原理,t=1时,盈利的可靠性为68.27%左右;t=1.5时股票赢利的可靠性为0.8664;

t=2 时,盈利的可靠性为0.9545 左右;t=3 时,盈利的可靠性为0.9973左右。

②股票买卖价格的制定,即股票买卖定价模型为:

买价=上周收盘价×股票买价系数(R)

卖价=上日收盘价×股票卖价系数(S)

股票华夏银行每周的买卖定价模型和操作批量如下:

本周买价=上周收盘价×0.8974

这个盈利水平还是不错的,和一般企业的年收益率大体相近。如果再结合趋势分析来做,盈利程度将更高。从投资管理的麻烦程度来看,比企业管理要轻松得多。所以,按这种方法来炒股,是可以带来稳定收益的。

四、结论

数据挖掘技术具有广泛的应用空间。只要明确研究目的和任务,设计出合理的研究方案,就能找到事物内在的规律。本论文只是研究了一只股票的买卖定价方法,可见还是很有优势的。在证券投资领域如此,在其他各个领域也都是如此,只不过研究的内容不同罢了。上述研究方法也可以推广到炒股指期货、炒黄金、炒外汇、炒白银、炒各种贵金属、炒原油和农产品等价格波动型投资对象中的买卖价格定价模式的研究上。因为在大量数据面前,事物的规律性才能暴露出来,而基于计算机高速计算能力的现代数据挖掘技术的广泛应用,必将给研究成果的利用者带来丰厚的回报。

参考文献:

[1]杨云生.数据挖掘技术在客户关系管理中的应用[J].价值工程,2004年03期.

[2]王峥,王彦庆.客户知识管理的数据挖掘方法研究[J].哈尔滨工业大学学报(社会科学版),2009年05期.

篇(6)

关键词:数据挖掘;客户价值分析;K-Means聚类分析

DOI:10.16640/ki.37-1222/t.2017.04.248

1 绪论

体验经济时代消费趋势主要有以下六个方面:体验化、情感化、个性化、主动化、休闲化和求美化。[1]第三次工业革命以来,现代信息技术得到迅猛发展,各行各业意识到数据的重要性,建立了无数的数据库,面对数以亿计的数据,传统的统计方法的弊端日益显现。人们面对海量的数据,却不能挖掘出有用的信息,随着“数据爆炸”困惑的增加,人们迫切需要新的数据处理技术,因而数据挖掘技术应运而生。法国著名雕塑家罗丹说,生活中从不缺少美,而是缺少发现美的眼睛。如今,企业从不缺少数据,而是缺少挖掘数据价值的能力。通过对现有数据的挖掘,发现隐藏在数据里的模式,有用信息,指导航空公司作出决策,增加顾客的满意度,是航空公司必须解决的问题。自从1989年举行的第十一届国际联合公认学术会上首次提出数据库中发现知识(KDD),到目前为止,美国人工智能协会曾经举办了9次KDD全球研讨会。规模从原来的专题讨论会到策略和技术的集成以及多学科跨领域融合。数据挖掘技术迅速在航空电子领域,航空安全领域,航空维修等等航空领域得到较好的应用与发展。我国在上世纪90年代的时候就已经开始的对数据挖掘的研究,经过多年的研究,我国已经形成数据挖掘基础理论的框架,并且越来越多的学者投入数据挖掘的研究之中。不过相对于国外来说,我国的数据挖掘应用并没有得到较高的发展,依然面临着严重的挑战,仍旧有很多问题等待着研究人员去探索和发现。

2 数据挖掘技术

数据挖掘有三大步骤:第一数据筹备,第二数据挖掘,第三结果表达和解释[5]。

数据筹备包含数据集成,数据选择,目标数据预处理。

数据挖掘主要是对预处理后的数据进行挖掘。

结果表达和解释即我们所说的结果可视化。

3 航空公司客户价值分析

3.1 传统客户价值分析方法

传统的客户价值分析使用RFM方法(Recency--最近购买日期, Frequency--各时期购买频率, Monetary一段时间内消费总和)在多数领域中的多数情况下能有效地预测老顾客今后可能的消费行为和费用,之后对销售毛利率、关系营销费用进行预测,就能按不同时间段分析出今后短期内的客户价值。[6]说明, 在这种分析方法中,客户价值是指CRM毛利。CRM毛利 = 购买金额 - 产品成本 - 关系营销费用。[7]

RFM模型以Recency为X轴,Frequency为Y轴,Monetary为Z轴做一个三维立体模型,可以把客户价值分为八种:重要发展客户、重要价值客户、一般发展客户、一般价值客户、一般保持客户、一般挽留客户、重要保护客户、重要挽留客户。

由于航空公司客户的独特性,RFM方法分析航空公司客户价值存在多种弊端和不足,造成分析结果的不准确和实用性降低。

(1)在RFM模型中,消费金额是一段时间内客户消费总和,由于航空票价受到运输距离,舱位等级,闲忙时,天气等众多因素的影响,同样消费金额的客户对于航空公司的价值是不同的。所以用这个指标分析航空公司客户价值存在不妥。

(2)RFM是使用属性分箱法分析客户价值的,这种方法细分客户群较多,需要逐个识别客户特征和行为,大大提高的针对性营销的成本。

(3)RFM方法在处理大量数据时由于模型的限制需要的成本较高。

3.2 航空公司客户数据分析方法与步骤

航空客户信息,包含会员档案信息和其他乘坐航班记录信息等

(1)因为消费金额总和这一指标在航空公司客户价值分析过程中不太实用,所以我们可以选择航空客户在一段时间内积累的乘坐距离M和乘坐舱位折扣系数平均值C来替代消费金额总和。同时,因为航空公司会员的加入时间一定程度上可以影响客户价值,所以我们在航空公司客户价值分析模型中添加客户关系长度L,当做区分客户价值的另一个指标,所以我们构建出LRFMC模型。

(2)使用聚类分析的方法把客户进行分类,并且分析客户群的特征,分析客户价值。

第1步数据抽取。

(1)以2014年3月31为结束日期,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有顾客的详细资料形成历史数据。对于后来新增客户信息利用数据中最大的某个时间作为结束时间,采用同样的方法进行抽取,形成增量数据。

(2)根据末次飞行日期从航空公司系统内抽取2012年4月1日至2014年3月31日内所有所有乘客的详细数据,共62988条记录。

第2步数据探索分析。

在原始数据中存在票价为空的情况,票价为空值的数据有可能是航空客户未有乘机记录造成的。票价最小值为0,折扣率最小值为0,总飞行里程不为0的数据有可能是顾客使用0折机票或者是使用积分兑换的机票造成的。

第3步数据预处理。

(1)数据清洗:从航空公司业务和数据挖掘建模需要考虑筛选出需要的数据。

A)不需要票价为空的数据。

B)不需要票r为0,平均折扣率不为0,总飞行里程不为0的数据。

(2)属性规约。在原始数据中数据属性太多,我们只需要与LRFMC模型相关的6个数据属性,所以我们需要删除不相关,弱相关和冗余的数据属性。

(3)数据变换。A)数据属性构造 B)数据标准化

第4步建构模型。

构建航空公司客户价值分析LRFMC模型

A)客户K-Means聚类分析 B)客户价值分析 C)应用模型

A客户K-Means聚类分析。

采用K-Means办法对所有客户数据进行聚类分析,将客户数据聚为5类。(具体情况具体分析,必须依据实际状况决定分几类)

B客户价值分析。

对聚类结果进行属性分析:顾客群1在L、M属性上最小;顾客群2在R属性上最大,在F、M上最小;客户群3在属性F、M上最大,在R上最小;客户群4在属性L上最大;客户群5在属性C上最大。

根据航空公司业务定义为五个等级的客户类别:重要保持客户,重要发展客户,重要挽留客户,普通价值客户,低价值客户。

根据每种客户群类型的特征对客户群M行客户价值排名,以便获得高价值客户的信息。

C模型应用:根据每种客户群的特征,可以采取更多个性化服务和营销策略。

由于各种行业面临的具体问题不同,数据挖掘技术的发展受到不同的挑战,不过总大趋势来说,数据挖掘技术必将会得到更好发展和更加普遍的运用。随着数据量爆炸式的激增,分析决策难度的增加,传统分析方法弊端的显现,人们对分析决策智能化和自动化的迫切需求,数据挖掘技术与工具将得到更广泛的使用和发展。在数据爆炸时代,航空公司面临的新挑战为数据挖掘技术提供了发展背景,个性化服务的发展为数据挖掘技术提供了很好的基础和发展平台。

数据挖掘未来会吸引越来越多的研究人员,会涌现出越来越多的研究成果。从目前来看,数据挖掘在中国的研究与应用还有很多务实的问题没有解决。本文仅仅是数据挖掘技术在航空公司客户价值分析中的初步尝试,展望未来数据挖掘的发展,有以下几点需要注意的地方:要充分考虑是否有必要进行数据挖掘。传统的数据分析办法的确有很多弊病,但是相对于传统的方法数据挖掘需要成本较高。在传统数据分析技术可以满足要求的情况下,没有必要必须进行数据挖掘,这样能更加节省成本。数据挖掘需要较大的成本,须要大量的人力,物力和财力用于数据筹备,数据搜集,问题建模,生成模型和数据分析等等。

参考文献:

[1]吴钊.体验经济时代六大消费趋势[J].商业研究,2003(24).[2]Jiaweihan,Miche line kan ber.Data ming:Concepts and techniques.Diane Cerra Publisher.20063

[3]刘浩,韩晶.MATLAB R2014a一本通[J].电子工业出版社.

[4]李定远.CIO时代网.2012,09(29).

[5]耿向华.数据挖掘在旅游商务系统中的应用研究[J].魅力中国,2013,5(27).

[6]郭良.基于数据挖掘技术的客户信息分析[J].华东师范大学硕士论文,2015.

篇(7)

关键词:大数据;Hadoop;分布式;k-means

中图分类号:TP393.02

“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉[1]。随着互联网和信息行业的发展,在日常运营中生成、累积的用户网络行为数据的规模是非常庞大的,以至于不能用G或T来衡量。我们希望从这些结构化或半结构化的数据中学习到有趣的知识,但这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。因此,并行化数据挖掘成为了当下的一个热门研究课题,其主要编程模式包括:数据并行模式,消息传递模式,共享内存模式以及后两种模式同时使用的混合模式[2][3]。

1 国内研究现状

当前中国的云计算的发展正进入成长期,国内很多研究者正进入分布式的数据挖掘领域,利用国外的成熟平台,例如Hadoop来实现大数据的聚类等算法。但是数据的多样性,文本多格式,造成对数据的操作有很大的难度,而如今大多数论文都利用了标准化的mapreduce方法来进行代码的编写,具有一定的通用性,但是Hadoop下还有许多的工具,能够简化m/r过程,同样对一定结构的数据具有很好的并行效果,但是这方面的研究比较少,因此本文引入了HIVE的运用,简化了数据的操作过程,利用类似标准的SQL语句对数据集进行运算,在一定程度上提高了并行化计算的效率。

2 Hadoop并行化基础

数据挖掘(Data Mining)是对海量数据进行分析和总结,得到有用信息的知识发现的过程[4]。其中的聚类是一个重要的研究课题,在面对如此的海量数据,现有的单机模式的挖掘算法在时间与空间上遇到了很大的限制,而并行化处理是一种比较好的解决模式。Hadoop是当下比较热门的一个分布式计算的平台,其中的一个数据仓库工具HIVE简单快捷地实现MapReduce方法,适用于结构化数据的存储模式。

Hadoop是一个分布式系统的基础架构,其平台由两部分组成,Hadoop分布式文件存储系统(HDFS)和MapReduce计算模型[5]。

HDFS的架构是基于一组特定的节点构建的(参见图1),这是由它自身的特点决定的。这些节点包括NameNode(仅一个),它在HDFS内部提供元数据服务;DataNode,它为HDFS提供存储块。由于仅存在一个NameNode,因此这是HDFS的一个缺点(单点失败)。存储在HDFS中的文件被分成块,然后将这些块复制到多个计算机中(DataNode)。这与传统的RAID架构大不相同。块的大小(通常为64MB)和复制的块数量在创建文件时由客户机决定。NameNode可以控制所有文件操作。HDFS内部的所有通信都基于标准的TCP/IP协议。

MapReduce是一种高效的分布式编程模型,用于海量数据(大于1TB)的并行运算[6],它的主要思想就是映射(Map)和化简(Reduce)。一个任务(Job)需要实现基本的MapReduce过程主要包括三个部分:(1)输入数据;(2)实现Map函数与Reduce函数;(3)实现此任务的配置项(JobConf)[7],图1描述了实现MapReduce的基本原理:

图1 MapReduce原理图

3 基于HIVE的并行k-means聚类算法设计

3.1 Hive简介

Hive是基于Hadoop的一个数据仓库工具,是建立在Hadoop上的数据仓库基础构架,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。

3.2 Hive体系结构

图2 HIVE体系结构图

图2显示了HIVE的主要组件以及它和Hadoop的相互作用[8],其主要组件说明如下:

外部接口,Hive同时提供了用户界面的命令行(CLI)和Web UI,以及应用程序编程接口(API),如JDBC和ODBC。

Hive Thrift服务器公开了一个简单的客户端API来执行HiveQL语句。Thrift[9]是一个用于跨语言服务的框架,框架内用一种语言(如Java)编写,服务器也可以支持其他的语言的客户端。Thrift Hive客户端用不同语言生成用于构建常用的驱动程序,如JDBC(java),ODBC(c++),以及用php,perl,python等编写的脚本驱动程序。

元数据存储(metastore)是系统目录。所有其他的Hive组件都和metastore有交互。

3.3 K-means算法介绍

k-means算法是最为经典的基于划分的聚类方法,它的基本思想是:以空间中k个点作为中心进行聚类,对最靠近它们的对象进行分类。通过迭代的方法,逐次更新各聚类中心的值,直到有良好的收敛[10]。假设要把样本集分为m个类别,算法描述如下:

(1)适当选择m个类的初始中心;

(2)在第k次迭代中,对任意一个样本,求其到m个中心的距离,将该样本归到距离最短的中心所在的类;

(3)利用欧式距离等方法更新每一个新类的中心值;

(4)对于所有的m个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变或者变化在可允许范围内,则迭代结束,否则重复(2)(3)步骤。

参考文献:

[1]杜鹃,沈铭思.大数据时代,让子弹飞[J].中国制衣,2013-02-05:12.

[2]胡善杰.数据挖掘算法并行化研究[J].电子世界,2012(12):67-68.

[3]都志辉.高性能计算之并行编程技术——MPI并行程序设计[M].北京:清华大学出版社,2006.

[4]王超鹏.基于云计算分布式数据挖掘算法研究[J].技术研发,2012:92-104.

[5]Dean J,Ghemawat S.MapReduce:simplified data processing on large clusters[C].Proceedings of Operating Systems Design and Implementation. San Francisco,CA,2004:137-150.

[6]付东华.基于HDFS的海量分布式文件系统研究与优化[J].北京:北京邮电大学软件工程,2012-05.

[7]江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华东科技大学学报,2011-06(39):120-124.

[8]叶文宸.基于HIVE性能优化方法的研究与实践[J].南京:南京大学软件工程学院,2011.

[9]刘书楠.Thrift入门简介[J].YOUNG青年与社会,2013(1):228.

[10]崔丹丹.K-means聚类算法研究及改进[M].安徽:安徽大学计算机学院,2012-04.

[11]Xu X W,Jager J, Kriegel H P. A fast parallel clustering algorithm for large spaial databases[J].Data Mining aand knowledeg Discovery,1999,3(3):263-290.