聚类分析论文精品(七篇)

时间：2023-03-16 15:59:34

序论：写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感，挖掘那些隐藏在内心深处的真相，好投稿为您带来了七篇聚类分析论文范文，愿它们成为您写作过程中的灵感催化剂，助力您的创作。

聚类分析论文

篇(1)

近年来，全国大学生数学建模竞赛迅速发展，为国家培养了大批应用型人才。但由于各地区教育水平不同、相关部门对竞赛的重视程度不同，导致各地区组织学生参加大学数学建模竞赛的规模不同，在该项赛事中取得的成绩差异比较显著。2013年全国大学生数学建模竞赛评选出的奖项有:赛区优秀组织工作奖9个，本科组高教社杯奖1个，专科高教社杯奖1个，本科组MATLAB创新奖1个，专科组MATLAB创新奖1个，本科组IBMSPSS创新奖1个，专科组IBMSPSS创新奖1个，本科组一等奖共273名，本科组二等奖共1292名，专科组一等奖共44名，专科组二等奖共211名［1］，但成绩相对于参赛区分布不太均匀。分析各地区在2013年全国大学生数学建模竞赛中取得的成绩，明确各地区数学建模发展状况的差异和特点，将有利于相关部门从宏观上了解我国大学生数学建模竞赛的整体发展现状，分类制定相关政策［2－3］，从而充分发挥数学建模的重要作用。

1建立综合评价指标体系

全国大学生数学建模竞赛现状的一个重要方面就是全国大学生数学建模竞赛获奖情况。依据全国大学生数学建模竞赛设置的奖项，遵循可比性原则，参考文献［4－5］，选取x1－x7共七项评价指标，具体如下:x1:本科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x2:本科组一等奖获奖数;x3:本科组二等奖获奖数;x4:专科组高教社杯、MATLAB创新奖和IBMSPSS创新奖获奖情况;x5:专科组一等奖获奖数;x6:专科组二等奖获奖数;x7:年度竞赛优秀组织工作奖获得情况。说明:鉴于本科组与专科组的高教社杯、MAT-LAB创新奖和IBMSPSS创新奖三类奖项每年只有一个队获奖，且基本不可重复获得(参见历年大学生数学建模竞赛获奖名单)故将其合并作为一类。

2数据资料依据

2013年全国大学生数学建模竞赛获奖名单，按指标对各个赛区的获奖情况统计如表1所示。

3R型聚类分析定性分析

七项指标之间的相关性。编写MAT-LAB程序如下:＞＞clc，clear＞＞symxy;＞＞x=xlsread(‘shuju．xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju．xls中，并将其赋于x＞＞y=corr(x)%输出七项指标间的相关系数矩阵(如表2所示)＞＞d=pdist(y，’correlation’);%计算相关系数导出的距离＞＞z=linkage(d，’average’);%按类平均法聚类＞＞h=dendrogram(z);%画聚类图(如图1所示)＞＞T=cluster(z，’maxclust'，5);%把变量划分为5类＞＞fori=1:5tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有4;第2类的有56;第3类的有7;第4类的有23;第5类的有1。即:若将指标分为5类，则指标1、4、7各为一类，指标2、3为一类，指标4、5为一类。

4Q型聚类分析

4.1选取5个指标的分类从R型聚类分析分出的5类指标中各选一个，即选取5个指标体系，对33个参赛地区进行聚类分析。首先对变量数据进行标准化处理，采用欧氏距离度量样本间相似性，选用类平均法计算类间距离。在MATLAB命令窗口输入下列程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);%将上表中的数据保存到MATLAB中WORK文件夹excel文件shu-ju．xls中，并将其赋于x＞＞x(:，［3，5］)=［］;%删除数据矩阵的3，5两列，即使用变量1，2，4，6，7＞＞x=zscore(x);%将数据标准化＞＞s=pdist(x);%每一行是一个对象，求对象间的欧式距离＞＞z=linkage(s，’average’);%按类平均法聚类＞＞h=dendrogram(z);%画聚类图(如图2所示)＞＞T=cluster(z，’maxclust’，3);%把样本点划分成3类＞＞fori=1:3;tm=find(T==i);%求i类的对象tm=reshape(tm，1，length(tm));%变成行向量＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));%现实分类结果＞＞end程序输出:第1类的有11318第2类的有2345678910111216171920212224252627282930313233第3类的有141523即:第一类:北京，福建，湖南;第三类:江西，山东，四川;第二类:其它地区。

4.2选取7个指标的分类考虑到指标2与指标3，指标5与指标6具有一定的独立性，若七个指标体系全部取用，将33个地区分为4类，程序输入如下:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);＞＞s=pdist(x);＞＞z=linkage(s，’average’);＞＞h=dendrogram(z);%画聚类图(如图3所示)＞＞T=cluster(z，’maxclust’，4);＞＞fori=1:4tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有116第2类的有6710151927第3类的有23489111213141718202223242528第4类的有521262930313233即:第一类:北京，河南;第二类:辽宁，吉林，江苏，山东，广东，陕西;第四类:内蒙古，海南，，青海，宁夏，新疆，香港，澳门。4.3选取本科层次指标的分类只考虑本科层次取得的成绩，即选用指标1，2，3，对33个参赛地区进行聚类分析，从而明确掌握其本科阶段的差异，则有:输入程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);＞＞x(:，［4，5，6，7］)=［］;＞＞x=zscore(x);＞＞s=pdist(x);＞＞z=linkage(s，’average’);＞＞h=dendrogram(z);%画聚类图(如图4所示)＞＞T=cluster(z，’maxclust’，3);＞＞fori=1:3;tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有11318第2类的有101115161719222327第3类的有2345678912142021242526282930313233即:第一类:北京，福建，湖南;第二类:江苏，浙江，山东，河南，湖北，广东，重庆，四川，陕西;第三类:其它地区。4.4选取专科层次指标的分类只考虑专科层次取得的成绩，即选用指标4，5，6，对33个参赛地区进行聚类分析，从而明确掌握其专科阶段的差异，则有:输入程序:＞＞symsxy;＞＞x=xlsread(’shuju．xls’);＞＞x(:，［1:3，7］)=［］;＞＞x=zscore(x);＞＞s=pdist(x);＞＞z=linkage(s，’average’);%画聚类图(如图5所示)＞＞h=dendrogram(z);＞＞T=cluster(z，’maxclust'，4);＞＞fori=1:4;tm=find(T==i);tm=reshape(tm，1，length(tm));＞＞fprintf(’第%d类的有%s\n’，i，int2str(tm));＞＞end程序输出:第1类的有14第2类的有1523第3类的有41927第4类的有1235678910111213161718202122242526282930313233即:第一类:江西;第二类:山东，四川;第三类:山西，广东，陕西;第四类:其余各地区。

5结束语

篇(2)

关键词：聚类分析人口区划数据挖掘

中图分类号：C92 文献标识码：A 文章编号：1007-3973（2013）005-184-03

1 前言

随着中国信息化进程的加速，各行各业每天都产生大量的数据，如何充分利用这些数据，更好地为人类生产和生活更好地服务？数据挖掘是一种不错的方法，数据挖掘又称数据库中的知识发现，是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。知识发现过程由以下三个阶段组成：（1）数据准备；（2）数据挖掘；（3）结果表达和解释。

聚类分析（Cluster Analysis）是一种数据挖掘方法，是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法，它们讨论的对象是大量的样品或数据，要求能合理按各自的特性来进行合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行的。目前在文献中存在大量的聚类算法，算法的选择取决于数据的类型、聚类的目的和应用。大体上聚类分析主要的算法可以分为：（1）划分方法；（2）层次的方法；（3）基于密度的方法；（4）基于网格的方法；（5）基于模型的方法。如果聚类分析被用作描述或者探查的工具，可以对同样的数据尝试多种算法，以发现数据可能揭示的结果。聚类方法广泛应用于各行各业。

人口是基础数据，是制定各项政策的依据。人口区划根据自然、经济、人口特征及相应的指标体系，对全国人口分布状况分区划片，并提出各区人口发展合理目标及相应的人口政策和措施，为全国和分区人口发展规划提供科学依据，并为国民经济计划和经济区划服务。20世纪80年代初，中国学者胡焕庸根据自然地理特征、人口密度、人口自然增长、人口迁移、耕地、粮食产量、劳动力等指标，将中国划分为人口区，即：黄河下游区，辽吉黑区，长江中下游区，东南沿海区，晋陕甘宁区，川黔滇区，蒙新区，青藏区。随着中国经济的迅猛发展人口分布呈现出许多新的特征，为了适应新的趋势，有必要重新定位和再研究。

2 数据与方法

2.1 数据来源与指标选择

本研究的数据采用2011年全国31个省及直辖市的统计数据，人口数据来源于《中国人口统计年鉴》，各省人均可支配收入来源于经济信息网。因研究的是各省的人口及经济指标聚类，研究区域很大，信息粒度较大，因此选择了有代表性的综合性人口数据指标，人口（总量）、人口密度、人口自然增长率、第六次人口普查数据、人均可支配收入、人均GDP、迁移数据。其中人口自然增长率为（人口出生率-人口死亡率）/人口均值*1000%，迁移数据=第六次人口普查数据-人口（常住人口）。各省及直辖市的基础数据如表1所示。

2.2 聚类分析原理

3.2 二维聚类

以人均GDP和人口自然增长率进行聚类，数据进行标准化处理后，得到的结果有五类，如表5如示。

从以上聚类结果看，第一类是沿海地区，经济较为发达，人口增长正常；而第二类内陆地区，人均GDP较低，人口自然增长优率较为正常；第三类为东北三省，人均GDP中等，人口增长率低；第四类为人均GDP高，为三个直辖市；第五类为人均GDP低，而且人口增长快的区域。

3.3 多维聚类

多维聚类时，采用K均值法进行聚类，得到的聚类结果如表6。

根据多维数据聚类，共分为六类，其中第一类属于人口少，但较为富裕的北京和上海，而第六类为天津，自成一类，主要是流动人口及可支配收入较第一类差一些；第四类为经济发达的广东、江苏和浙江；第二类为经济较好，人均收入中等，流动人口较少的地区；第五类为经济欠发达，人口保持较高增长率的省份；第三类则是大部分的内陆地区。

4 结论与讨论

本文通过采用聚类分析的手段分析全国31个省市人口的发展规律，揭示了不同省市在人口发展之间的相似性和差异性，研究得出合理聚类结果，为政府和各职能部门在制定人口及各项地方性经济发展政策提供依据。

聚类分析结果表明，一维、二维和多维聚类分析方法有各自的典型特征有用途。一维聚类分析简洁地表明各省人口自然分布规律，可为国家对不同各省份的人口政策提供科学依据；二维聚类分析直接反应了不同省份人口与经济等指标的相互关系，如论文中对人均GDP和人口自然增长率的二维聚类分析，分类结果合理的体现了当前我国各省经济发展与人口特征。多维聚类分析方法适用于对各省综合分类，论文中采用了与人口有关的5个指标进行的多维聚类分析，分类结果有较强的综合性，与当前各省公众认识的综合分类一致。

解决了传统的经验分类方法导致的客观性缺乏等问题。为人口的分类管理实践提供了理论依据和技术手段。

（本论文为院级大学生实践创新训练计划项目2011XYCXXL14资助项目）

参考文献：

[1] Jiawei Han，Micheline Kambe.数据挖掘概念与技术[M].北京：机械工业出版社，2012.

[2] 陈志泊.数据仓库与数据挖[M].北京：清华大学出版社，2009.

[3] 陆学艺.可持续发展实验区发展历程回顾与建议[J].中国人口资源与环境，2007，17（3）：1-2.

[4] 张文彤，董伟.SPSS统计分析高级教程[M].北京：高等教育出版社，2004：236-237.

篇(3)

[关键词]专利引证　技术热点　耦合　聚类分析

[分类号]G353.1

1 引言

新技术的产生可以导致一系列相关的新产品问世，对人们的生活、企业的发展乃至社会经济产生巨大的推动作用。在某一新技术尚未完全成熟之际，必定会有很多企业围绕这一技术不断进行改进和完善，并申请相关专利技术进行保护。因此，未来主流市场中的主流技术在专利文献中有量的征兆，可以通过对专利数据的定量分析来进行技术热点的监测。

当前利用专利文献进行技术热点监测的方法主要有两种：①通过对具有技术含义的专利著录项，如专利IPC分类号的数量变化来监测技术热点；②利用文本挖掘技术，从专利文献中抽取技术关键词进行词频统计、聚类分析来监测技术热点。在学术领域，学者们基于专利分类号对某个时间点或时间段的技术热点进行了探索。袁冰等指出，通过分析专利涉及的所有IPC分类号，以及这些IPC分类号下分别包括的专利数量，就能够获知整个区域的技术构成情况以及该区域内市场经营主体关注的技术热点。王燕玲认为，将不同主体的1PC分类按时间分布并加以比较，可发现不同主体的IPC变化过程，是一个从创新主体角度研究技术领域热点变化的主要方法。左凤茹对水电行业中世界著名企业的专利申请量按IPC分类号进行统计后，指出目前水电没备的研究热点。栾春娟等认为，经过德温特技术人员标引的“德温特指南代码”(Derwent Manual Codes)，对研究专利的技术领域分布更具指导意义，她们利用德温特指南代码，陆续对基因工程、3G技术、生物技术、电动汽车领域进行了技术热点分析。在技术实践领域，主流的专利分析软件如Thomson Data Analyzer(TDA)、Aureka、HIT-恒库等正是基于上述原理，实现了从批量专利文献中抽取专利分类号或技术特征词汇进行统计、聚类分析的功能，并用可视化的方式展示分析结果，生成相应的专利地图，进行技术热点监测。以Aureka为例，它提供了ThemeSeape地形图功能，以分析的专利样本为基础，对其中相关词汇的词频应用聚类分析生成主题(词汇)地形图，以此来描述专利技术热点的分布情况。

但是，由于IPC的分类原则是将同一技术主题归在同一分类位置，使之具有相同的分类号，即侧重于对单一技术主题进行分类，而且IPC将专利要求的技术主题作为一个整体来分类，而不是对其各个组成部分分别进行分类，因此分类不彻底，也造成分类不够细，某个分类号下存在大量文献。这样一来，基于IPC分类号的技术热点难免存在偏差，且比较宏观，难以反映企业关注的微观技术热点变化，更难以揭示技术日新月异的变化和发展。而利用模式匹配、规则基础和自然语言处理技术直接从专利文本中抽取词和词组进行统计或聚类分析，虽然相对比较精确和具体，但也存在着一些相关陛较高的词组或短语，因为出现过于频繁而容易被软件分析系统自动剔除，造成分析的误差。因此，如何提高基于专利文献技术热点监测的准确性，如何利用专利引文所承载的技术关联信息进行获取和关联挖掘，如何对已有的宏观技术热点和微观技术热点监测进行补充，是本文研究的主要问题。

2　基于专利引证的技术热点监测方法

2.1　专利引文的技术情报价值

专利对先有技术(prior art)和科学论文的引用是科学和技术发展规律的表现，它体现了科学和技术的累积性、连续性和继承性，也体现了不同学科、不同研究层次之间的交叉、渗透。大多数发明不是“无中生有”的，一般发明人在进行发明创造活动时，会参考具有相同发明目的的先有技术的发明创造内容和发明人所熟知的先有技术。另外，专利审查员审查专利文件时常会将被审查的专利与主题相近的先有技术相比较，这两种方式导致了专利引文的出现。Arehibugi和Pianta指出，专利引文数据广泛地提供了具体技术领域某一技术发明的相关技术信息。

1965年，普赖斯创造性地研究了科学论文之间的施引与被引证关系，以及由此形成的所谓“引证网络”。专利引证网络是将文献计量引证网络的对象从科技论文到专利文献的直接延伸，通过绘制专利引证关系图来考察互相引证的专利的关联程度和技术相互间的影响，寻找最早被引证的专利文献，洞悉专利的继承性和发展历程。专利与其引证论文或引证专利密切相关，反映了相同或相近的技术创新，这种相关性是由技术本身的传承和发展而形成的。据此，利用各种数学以及统计学的方法对专利与专利之间的施引和被引现象进行比较、归纳、抽象判断，以探索其数量特征及内在价值，专利引文分析也具有重要的技术竞争情报价值。

2.2　基于专利引证进行技术热点监测方面的实践应用

借助专利与专利间的引用与被引用关系，不仅可以揭示出专利的理论、技术起源，而且可以对技术领域中的技术前沿和技术热点进行追踪。Mogee等利用专利同被引(patent co-cltation)对2808条Eli Lilly公司的专利数据进行聚类分析，识别该公司的核心专利技术和技术热点群组，发现主要的技术热点(teehnolo-gy fronts)。孙涛涛等基于专利耦合关系，指出同时引用相同基础技术专利簇的另一个专利簇(base tech-nology)可以构成技术热点。尹丽春等将文献计量学中的共被引方法应用到专利文献的研究中，对在我国申请的数字信息传输领域中的专利技术前沿问题进行探讨。

目前市场上各种专业的商业化专利分析软件(如法国IMCS的Matheo Analyzer、美国汤森路透旗下的Aureka、Innovation和Delphion、中国恒和顿的HIT-恒库等)几乎都有绘制引证网络图的功能，利于追溯目标技术的起源和发展。但是这些软件工具无法利用专利文献中的同被引或耦合技术，借助可视化关系揭示技术前沿或者技术热点。

2.3　基于专利引证的技术热点监测方法设计

研究首先通过基于“关键词+专利引文”的检索策略，从专利数据库中检索、下载研究主题范围内的原始专利数据，构建本地专利专题数据库；其次，按照分析需要对本地原始专利数据进行拙取，将专利号、题名、发明人等专利著录项从专利文献中抽取出来，完成数据预处理；再次，分别利用专利耦合聚类和具体概念词聚类，实现由浅至深、由粗到细的技术热点监测。具体实施流程如图l所示：

值得注意的是，为了构建准确、有效的专题数据集-进行分析，专利数据检索至关重要。在专利数据采集的过程中，首先采用关键词试检，从试检结果中寻找相

应表达的同义或近义词，扩充、调整检索策略，力求保证关键词的全面性与准确性，构建初始专利数据集。然后对初始专利数据集中的专利进行被引频次排序，遴选25-50个高被引专利作为种子专利，并请领域专家对种子专利进行判读。如果专家认为研究领域的种子专利不准确，则需要重新回到第一步，调整检索策略进行数据检索。

此外，在利用专利耦合进行技术监测的过程中，要注意设定合适的专利耦合阈值，阈值过大或过小都会影响耦合矩阵的构建，从而影响耦合技术热点的聚类。同时，那些低于耦合阈值的专利内容相对分散，较难形成热点，应该予以舍弃。

2.3.1　基于专利引证的技术领域数据集构建利用专利引文和专利引文索引能识别那些用其他方式不能识别的专利之间的关系，而且这些关系往往可以使相关信息的检索变得迅速。正如Garfield E所言，除了专利引文和专利引文索引，现在尚无一种更加有效的工具可以确定某一专利所透露的技术是如何被改动、完善和利用的。马海群指出，引用检索作为传统专利情报检索方式(如分类或主题检索)的重要补充，可以有效地提高专利检索的查准率和查全率。借助专利与专利间的引用与被引用关系，本文提出“关键词+专利引文”的技术领域专利文献数据集构建方法，获得同一批技术专利技术起源的所有相关专利数据，提升检索效率、增强资料的搜集性及准确性，具体步骤如下：①与领域专家讨论，确定相关检索技术关键词，确定检索式进行关键词检索；②根据初检结果，构建与专题技术相关的初始专利数据集；③遴选TOP25-TOP50高被引专利作为该技术领域的种子专利；④检索引证种子专利的专利(citing patent)及其被引专利(cited patent)，构建专题技术数据集。

通过上述步骤，构建待分析的技术专题数据集，其专利引证关系如图2所示：

2.3.2　技术热点监测方法文献中的间接关联包括文献耦合和同被引两种，都能用来确定研究热点(re-search fronts)。正如Persson和Morris。所言，耦合论文可以反映“研究热点”的知识结构，同被引论文则提供了一种知识基础(intellectual base)的知识结构。Glanzel指出论文从发表到被引用期问有一个明显的时滞，用同被引来映射学科结构存在时差，而耦合分析则可以实时地反映学科最新的动态变化。Van denBesselaar P等也指出，耦合测度的是源文献之间的关系，同被引测度的是被引文献之间的关系。前者是基于有意识的行为，即著者有意地将两篇文献联系起来，而后者仅是两篇文献出现之后的偶然关联。因此，文献耦合更适于最新研究主题的揭示。

为了在基于IPC分类号的宏观技术热点和基于词的微观技术热点中找到一个较好的平衡点，本文首先利用专利之间的耦合关系获得耦合专利簇，形成中观层面上的技术热点?技术热点交由领域专家识别，为其命名。其次，引入时间轴的概念，对耦合聚类实现的技术热点发展趋势进行分析，帮助技术决策者了解每个技术热点随时间的发展变化情况。再次，利用自然语言处理技术，从技术热点的专利文本中抽取词和词组进行统汁和聚类分析，获得以概念词为表征的技术热点，辅助技术决策。

3　实证研究

3.1　数据集的构建

本文采川基于专利引证的方法构建技术领域专题数据集。研究以DVD领域激光头技术为例，经与领域专家讨论，将optical head、pickup和pick up确定为检索关键词，从美国专利商标局(USPTO)文摘库中检索1995-2004年1O年间的专利数据，检索出1934个专利构建DVD激光头技术领域初始专利数据集。从巾遴选TOP25高被引专利作为该技术领域的种子专利。从USPT0数据库中检索出种子专利的729个施引专利(citing patent)，去重后得到515个。上述515个专利又引用了3397个(去重后)被引专利(cited patent)。分别将上述数据下载到本地，构建专题数据库，作为本次研究的分析对象。

3.2　基于专利耦合的技术热点分析

研究首先将515个专利和3397个被引专利的专利号(patent number)、题名(title)、授权日期(issuedate)、专利权人(assignee)、技术分类号(IPC)从数据集中抽取出来，为后续分析做准备。然后将研究的耦合阈值确定为4，对原始数据集中的515个专利进行筛选，舍弃专利耦合强度少于4的那部分专利，得到272个专利作进一步的分析。

其次，根据专利之间的引证关系，生成专利初始引证矩阵。这是个典型的二值矩阵，即矩阵中所有的元素取值均为0或者1，如果两个专利之间存在着引证关系，即取值为1；如果两个专利之间不存在引证关系，即取值为0。本例中的研究对象有272个专利，需要生成272×272的矩阵，由于文章篇幅限制，略去原始的272×272矩阵。专利初始引证矩阵是一个不对称矩阵，根据初始引证矩阵转换成对称的专利耦合矩阵。

再次，采用层次聚类法对专利单元样本进行聚类分析。聚类的过程是：先将n维专利耦合矩阵转换成n维的相似矩阵，然后根据一定的聚类算法把分析对象分成类群。在选择相似性(similarity)测度方法时，本文采用了Dice相关系数来对耦合距阵进行标准化处理，采用离差平方和法(ward’s method)计算类间距离。上述步骤用Matlab提供的statistics toolbox工具，选择层次聚类方法实现，将耦合强度大于4的专利聚成了10个小类的专利簇，得到10个技术热点，并通过领域专家帮助，给每个技术子主题命名。

最后，绘制各技术热点的发展演变图，考察技术热点在10年间的发展变化。从DVD激光头技术各个子技术主题在10年间(1995-2004年)的发展趋势来看，大部分子技术主题在1997-2002年处于上升阶段，随后缩量发展，从一个侧面说明激光头技术整体而言已经相对成熟，自2003年始发明创新逐渐减少。其中，生命力最为旺盛的是技术热点4――光记录设备，从1997年至2004年不断有新技术发明问世。DVD激光头技术10个热点的发展演变如图3所示：

3.3　基于词聚类的技术热点分析

为了考察光记录设备这一技术热点的具体情况，随后将光记录设备的87条专利数据导入Patentics专利检索分析平台，进行概念聚类分析，得到10组概念索引词，表征光记录设备的详细技术热点，见表1。

其中，关于物镜的专利占了该技术热点的1／4，其次为光度头和激光束。在这些子技术热点中，日立、松下电工、富士施乐、日本电气等日本企业在光度头中表现突出，日立、富士施乐、希捷等企业在激光束中有较大的技术优势。

4　研究结论

基于专利引证的技术热点监测方法在技术领域数据集的构建和热点监测过程中，有针对性地对专利引文所承载的技术关联信息进行获取和关联挖掘，使得数据分析的目标更加明确，通过专利耦合寻找微观技术热点群获得的技术热点更为凝练、精确。此外，在凝练的微观技术热点群中利用技术特征词汇进行聚类监测，词或短语的专指度更高，能有效避免出现词或短语的高峰区域内个别专利不属于此技术领域的分析误差现象。因此，无论在理论上还是实际操作中，基于技术特征词汇的技术热点监测更具有效性和可靠性，是对以往单纯基于IPC分类号或基于词处理技术获得技术热点的有效补充和参考。

篇(4)

关键词：聚类分析；数据挖掘

中图分类号：TP311文献标识码：A文章编号：1009-3044(2008)12-20ppp-0c

Cluster Anlaysis Methods of Data Mining

HUANG Li-wen

(School of Science, Quanzhou Normal University, Quanzhou 362000, China)

Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.

Key words: Cluster Analysis; Data Mining?

1 引言

聚类分析是数据挖掘中的重要方法之一，它把一个没有类别标记的样本集按某种准则划分成若干个子类，使相似的样品尽可能归为一类，而不相似的样品尽量划分到不同的类中。目前，该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域，其目的在于区别不同事物并认识事物间的相似性。因此，聚类分析的研究具有重要的意义。

本文主要介绍常用的一些聚类方法，并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析，以便人们根据实际的问题选择合适的聚类方法。

2 聚类的分类

聚类分析给人们提供了丰富多彩的分类方法，这些方法大致可归纳为以下几种[1,2,3,4]：划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

2.1 划分法(partitionging methods)

给定一个含有n个对象（或元组）的数据库，采用一个划分方法构建数据的k个划分，每个划分表示一个聚簇，且k≤n。在聚类的过程中，需预先给定划分的数目k，并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似，而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集，对大规模的数据集进行聚类时需要作进一步的改进。

2.2 层次法(hietarchical methods)

层次法对给定数据对象集合按层次进行分解，分解的结果形成一颗以数据子集为节点的聚类树，它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下，可分为凝聚聚类法和分解聚类法：凝聚聚类法的主要思想是将每个对象作为一个单独的一个类，然后相继地合并相近的对象和类，直到所有的类合并为一个，或者符合预先给定的终止条件；分裂聚类法的主要思想是将所有的对象置于一个簇中，在迭代的每一步中，一个簇被分裂为更小的簇，直到最终每个对象在单独的一个簇中，或者符合预先给定的终止条件。在层次聚类法中，当数据对象集很大，且划分的类别数较少时，其速度较快，但是，该方法常常有这样的缺点：一个步骤（合并或分裂）完成，它就不能被取消，也就是说，开始错分的对象，以后无法再改变，从而使错分的对象不断增加，影响聚类的精度，此外，其抗“噪声”的能力也较弱，但是若把层次聚类和其他的聚类技术集成，形成多阶段聚类，聚类的效果有很大的提高。

2.3 基于密度的方法(density-based methods)

该方法的主要思想是只要临近区域的密度（对象或数据点的数目）超过某个阈值，就继续聚类。也就是说，对于给定的每个数据点，在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处＂噪声＂孤立点数据，发现任意形状的簇。

2.4 基于网格的方法(grid-based methods)

这种方法是把对象空间量化为有限数目的单元，形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快，其处理时间独立于数据对象的数目，只与量化空间中每一维的单元数目有关。

2.5 基于模型的方法(model-based method)

基于模型的方法为每个簇假定一个模型，寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设：数据是根据潜在的概率分布生成的。该方法主要有两类：统计学方法和神经网络方法。

3 常用的聚类算法

目前，已经提出的聚类算法很多，常用的聚类算法主要有以下几种：系统聚类法、动态聚类法、CLARANS、CURE、DBSCAN、STING和模糊聚类法（FCM）。

3.1 系统聚类法

系统聚类法[5]是将n个样品看成n类，即一类包含一个样品；然后将性质最接近的两类合并成一个新类，这样就得到n-1类，再从这n-1类中找出性质最接近的两类加以合并，成了n-2类；如此下去，最后所有的样品均成一类；将上述类的合并过程画成一张图（这图常称为聚类图），这样便可决定分多少类，每类各有什么样品。

系统聚类法的计算简单，而且其聚类结果给出一个谱系图，因此，可以根据该图选择所需要的聚类结果。但是，它也有不足之处，其主要表现在以下几个方面：1）当样品数量很多时，而且只需要划分为较少的类别时，这种聚类方法的重复计算量很大；2）当某一样品划归某一个类后，其属性不变，若分类方法的选择不当，对聚类的精度影响很大；3）对大数据量进行处理时，计算机内存开销很大，有时，计算机受此限制而无法进行聚类分析，而且其速度很慢；4）抗干扰的能力很弱。

3.2 动态聚类算法

动态聚类法[5]就是在开始时先建立一批初始中心，而让待分的各个样品依据某种判别准则向初始中心凝聚，然后再逐步修改调整中心，重新分类；并根据各类离散性统计量（如均方差）和两类间可分离性的统计量（如类间标准化距离、J-M距离等）再进行合并和分裂。此后在修改调整中心，这样不断继续下去，直到分类比较合适为止。

动态聚类法使用随机方式选择作为初始聚类中心，按照算法的迭代执行，整个算法的结束条件是类的重心（或凝聚点）不再改变,它的计算复杂性是O(nkt)，其中，n为样本数量，k为聚类数，t为迭代次数。与系统聚类法相比，动态聚类法明显的优势是运算量小，能用于处理庞大的样本数据，也为实时处理提供了一定的可能性，但其也存在一些缺点，主要表现在以下几个方面:（1）动态聚类法要求用户必须事先给出聚类的数目，选择初始划分的最佳方向、更新分区和停止准则，且其结果与数据输入顺序有关，不同的初始值可能会导致不同的结果；（2）对于噪声和孤立点敏感，很容易受例外情况的影响，适用于发现球状类，但不适合发现非凸面状的簇，不适合大小差别较大的簇；（3）一个对象只能属于一个类中，不能多维揭示其多重属性。

3.3 CLARANS算法

CLARANS[2,6,9]也叫随机搜索聚类算法，是一种分割聚类方法。该算法是基于CLARA算法的改进，与CLARA算法不同的是：CLARA算法在每个阶段都选取一个固定样本,而CLARANS在搜索的每一步都带一定的随机性选取一个样本，在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居，搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居，则把中心点移到该邻居节点上，否则把该点作为局部最小量，然后再随机选择一个点来寻找另一个局部最小量。

该算法能够探测孤立点，并适用于大型数据库，但其计算复杂度复杂度较高，大约为O(n2)；此外，该算法对数据输入的顺序敏感，适用于凸形或球形数据。

3.4 CURE算法

CURE[6,7,8]算法是一种使用代表点的聚类算法。该方法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”，即合并两个距离最近的代表点的簇，直至达到预先给定的聚类个数为止。它回避了用所有点或单个质心来表示一个簇的传统方法，将一个簇用多个代表点来表示，使CURE可以适应非球形的几何形状。另外，收缩因子降底了噪音对聚类的影响，从而使CURE对孤立点的处理更加健壮，而且能识别非球形和大小变化比较大的簇。

该算法采用随机抽样与分割相结合的方法来提高聚类效率，对于大型数据库，它也具有良好的伸缩性，运行速度很快，而且有较好的聚类效果，其计算复杂度为O(n)。

3.5 DBSCAN算法

DBSCAN算法[6,7,8,9]是一种基于高密度连接区域密度的聚类算法。该方法将密度足够高的区域划分为簇，并可以在带有“噪声”的空间数据库中发现任意形状的聚类。其主要的思想是通过检查数据库中每个点的ε-邻域来寻找聚类。如果第一个点p的ε-邻域包含多于MinPts个点,则创建一个以P作为核心对象的新簇，否则先把它暂时标为噪声点，跳到下一个点，并判断它是否为核心点。然后反复地寻找从这些核心点直接密度可达的对象,当没有新的点可以被添加到任何簇时，该过程结束。

该算法可以数据集中的所有簇和噪声，但其不对数据集进行预处理而直接进行聚类操作，当数据集很大时，占用内存很大，而且I/O消耗也很大，如果采用空间索引,其计算复杂度为O(nlogn)，否则，其计算复杂度为O(n2)。

3.6 STING算法

STING算法[2,3,8]是一种基于风格的多分辨率聚类技术，它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元，这些单元形成了一个层次结构，高层的每个单元被划分为多个低一层的单元，高层单元的统计参数可以很容易地从低层单元计算得到，而统计信息的查询则采用自顶向下的基于网格的方法。这些参数包括：属性无关的参数count;属性相关的参数m(平均值)、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布(distribution)类型。该算法预先计算和存储每个单元的统计信息，它不依赖于查询的汇总信息。

该算法主要优点是效率高,有利于并行处理和增量更新；它通过扫描数据库一次来计算单元的统计信息，因而其计算复杂度为O(n)。在层次结构建立后，其查询处理的计算复杂度为O(m)，其中m为最低层网格单元的数目。其缺点是聚类质量取决于网格结构最低层的粒度，粒度的大小会明显影响处理代价，特别是当数据集的维数较高时，由于生成网格层次及每一层的单元数较多，算法的效率会降低。

3.7 模糊聚类算法（FCM）

传统的聚类分析是一种硬划分，它把每个待识别的对象严格地划分到某类中，具有“非此即彼”的性质；而在实际中，大多数对象并没有严格的属性，它们在性态和类属方面存在着中介性，具有“亦此亦彼”的性质；鉴于此，人们开始用模糊的方法来处理这类问题，从而产生了模糊聚类的方法，也就是说，模糊聚类法[5]是将模糊数学的思想观点用到聚类分析中产生的方法，其关键是隶属函数的确定。该方法多用于定性变量的分类。其主要算法如下：

（1）选择一个初始模糊分类方案，将n个样本分成k个模糊类，得到一个模糊隶属度矩阵U={uij,i=1,2,…,n;j=1,2,…,k}，其中uij表示样本Xi对模糊集Cj的隶属度，uij∈[0,1]；

（2）利用矩阵计算模糊评判函数的值，模糊评判函数通常是一个与对应的分类相联系的加权平方误差和

是第k个模糊集的中心，重新分配样本到各模糊集以减少评判函数的值并重新计算U；

（3）重复（2），直到矩阵U不再有较大的变动。

模糊聚类解决了一些混合对象的归类问题，同时，当样本数较少的时候，应用该方法的优越性也比较明显，另外，其抗干扰的能力也较强；但是，它对一些隐含类的提取能力还有待于进一步的改进，除此之外，预定的分类数目一般也是人为决定的，同动态聚类一样，就可能出现人为预定的分类数与实际存在的类数不相符这种情况，从而影响分类的结果。

4 聚类的性能比较

基于上述的分析，现从可伸缩性、类的形状识别、抗噪声能力、处理高维能力和算法效率五个方面对常用聚类算法的性能进行了比较，结果如下表。通过这些比较，可以给聚类算法研究和应用的选择提供参考。

5 结束语

目前，已经提出的聚类算法很多，每种方法都有其优缺点和不同的适用领域，可以根据上述的分析，选择适合特定问题的聚类方法；但是，在实际应用中，由于数据的复杂性，往往用某种聚类算法进行聚类划分得到的效果不佳，可能要综合多种聚类方法才能得到较好的聚类效果。因此，在将来的研究中，需要做好对现有聚类算法的改进和融合，以便得到更好的聚类方法。

参考文献：

[1] 孙孝萍.基于聚类分析的数据挖掘算法研究[D].硕士学位论文,2002.4.

[2] 覃拥军,刘先锋.数据挖掘中的聚类研究[J].科技咨询导报,2007(16):28-30.

[3] 梁志荣.数据挖掘中聚类分析的技术方法[J]. 电脑开发与应用,2007,20(6):37-39.

[4] 谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005(3):26-29.

[5] 黄利文.基于几何概率的聚类分析[D]. 硕士学位论文,2006(1).

[6] 张红云,刘向东,段晓东等.数据挖掘中聚类算法比较[J].计算机应用与软件,2003(2):5-6.

[7] 王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析方法[J].统计与决策,2005(10):139-141.

[8] 刘泉凤,陆蓓. 数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58.

[9] 丁学钧,杨克俭,李虹等.数据挖掘中聚类算法的比较研究[J].河北建筑工程学院学报,2004,22(3):125-127.

收稿日期：2008-02-17

篇(5)

Space软件对项目管理硕士学位论文数据进行科学计量，在较为深入地了解我国项目管理发

展现状的基础上，通过关键词共现网络和聚类分析，探究我国项目管理理论现有研究热点领

域和新兴领域的研究主题，并对我国项目管理理论研究特点进行总结，以推动我国项目管理

理论的进一步发展与完善?

〔关键词〕项目管理；硕士学位论

文；科学计量；信息可视化

DOI：10.3969/j

.issn.1008-0821.2014.01.024

〔中图分类号〕F062.4 〔文献标识码〕A 〔文章编号

〕1008-0821（2014）01-0110-05

Analysis of the Topics of Ch

ina Project Management Theory Research

——Based on the View of Scientometric Analysis of Master Degree

Thesis

Zhu Fangwei1 Song Haoyang1 Hou Jianhua2

（1.Faculty of Management and Economics，Dalian University of Technology，Dali

an 116024；

2.Humanities Department，Dalian University，Dalian 116024，China）HT〗

〔Abstract〕”BZ〗Use CiteSpace software to analyze the Master degree thesis of project ma

nagement in China in Scientometrics method.Based on an in-depth understanding of

the development of project management in China，this paper explored the themes o

f the existing hot and emerging field project management theory through keywords

co-occurrence network and cluster analysis.Then summarized the features of Chin

as project management researching and proposed some advises about the future d

evelopment of project management theory to promote the further development and i

mprovement of Chinas project management theory.

〔Key words〕project manageme

nt；master dissertation；scientometrics；information visualization

我国项目管理理论的学习与研究始于20世纪60年代?1960年，华罗庚最早将项目管理的

主要方法之一网络计划技术引进国内，并命名为“统筹法”，自此拉开了我国项目管理研究

与应用的序幕?1965年6月，《人民日报》发表了华罗庚的《统筹方法平话》，进一步促进

了网络计划技术在我国的推广与应用[1]?这一时期，我国的项目管理主要处于理

论方法学习与推广阶段?

20世纪80年代末，现代项目管理理论在国内工程实践领域得到广泛的应用?其中，利用世界

银行贷款所建设的云南鲁布格水电站饮水导流工程，首次采用了国际招标和项目管理方法，

并取得了很好的效果[2]?随后，一些大型工程建设项目如二滩水电站?三峡水利

枢纽建设相继采用了项目管理的方法和模式?

进入90年代后，相关研究者开始着手我国项目管理理论体系的构建工作，并于1991年成立了

我国第一个项目管理专业学术性组织，中国项目管理研究委员会?截至2000年，委员会总共

开过3次学术年会和两次国际研讨会[3]?由该委员会组织构建的《中国项目管理

知识体系》?内部发行的《项目管理》刊物以及《国际项目管理专业资质认证标准》，对我

国项目管理理论的研究和人才的培养起到了积极的促进作用?

近年来，我国项目管理理论研究和人才培养得到了快速的发展和广泛的应用，而国内高等院

校和机构则成了理论研究与人才培养的主力军?20世纪90年代开始，相关高校开始设立项目

管理专业，将其作为管理科学与工程一级学科下的自主设置二级学科，培养硕士?博士等各

层次专业人才?截至2012年，全国具有项目管理专业学位授予权的院校和机构共有133所，

其中，具有博士学位授予权的院校和机构有97所?高层次人才的培养大大推动了我国项目管

理理论研究的发展，学位论文的研究成果在很大程度上体现了我国学者对项目管理前沿探索

的最新成就[4]?

目前，已有一些学者通过对我国项目管理的发展过程?特点以及未来的发展趋势进行不同程

度的研究分析，以期指导该领域未来的发展[5-7]?但多数研究都是从个人的视

角出发，带有较强的主观性?相比之下，陆绍凯统计了《国际项目管理学报》和中国优秀博

硕士论文数据库中有关项目管理的研究性论文，分析了从1999-2003年间我国项目管理研究

主题和应用行业领域情况，具有一定程度的客观性?

本文使用CiteSpace软件对项目管理硕士学位论文数据进行科学计量与可视化分析，并绘制

可视化网络图谱，在保证客观性和有效性的基础上，对项目管理理论研究热点领域和新兴领

域及其主要主题进行分析?较为客观地反映了我国项目管理理论研究现状及发展趋势，借此

为未来项目管理理论研究提供一定的指导?

1 我国项目管理学位论文的基本情况

在中国博士学位论文全文数据库（CDFD）?全国高校学位论文文摘数据库（CALIS）?中国

国家图书馆和万方学位论文等数据库中，以“学科专业名称=项目管理”?“时间=不限～

2012年”为条件进行数据检索，经去重处理后共获得博士论文37篇，硕士论文7 344篇

尽管存在数据库数据不全的情况，但现有数据能够代表项目管理研究学位论文整体数量分布

情况和研究方向?其中，项目管理专业博士学位论文数量较少，说明该专业博士人才的培养

工作尚处于起步阶段，硕士学位论文对项目管理理论研究起到主要的推动作用?

从各年论文数量的分布状况看，2005年的论文数量最少，2006-2009年间论文数量出现骤增

，于2009年达到最大量，随后几年论文数量出现小幅下降，具体数据如图1所示?由此，可

以判断，自2005年开始项目管理硕士研究生培养及理论研究得到快速发展，整体呈现上升态

势?

按各院校论文总数对学位论文的产出单位进行统计排序，排名前20的高产院校论文数量共占

文献数据总量的90.1%，具体数据如图2所示?结合各院校背景和发展实际来看，论文产量

较高的院校通常开设了项目管理工程硕士学位，如北京邮电大学的项目管理教育

中心和中国海洋大学的在职研究生培养，这在一定程度上也反映了对专业项目管理人才的旺

盛需求?但需要注意的是项目管理硕士学位论文的数量并不能完全代表理论研究水平，学术

型项目管理硕士学位论文对于项目管理理论的发展与完善有着重要的作用?此外，在20所院

校中理工科院校占14所，其论文数量占20所院校总量的65.9%，说明项目管理虽然属于管理

科学，但与IT?科技?建筑等理工科项目实践联系紧密?

2 研究分析

学术论文中的关键词，对于揭示论文主题有着重要的作用[8]?因此，本文以项目

管理专业硕士学位论文的关键词为对象，使用CiteSpace软件进行关键词共现网络和聚类分

析，在探究项目管理理论研究主要领域及其主要研究主题的基础上，揭示我国项目管理理论

研究现状及发展趋势?

2.1 热点领域概况分析

运用CiteSpace软件构建项目管理硕士学位论文的关键词共现网络图谱，共现频次在100以上

的关键词共有15个?其中“项目管理”的共现频次虽然最高（1 431次），但对于揭示

本专业的研究主题作用较小，因此以下主要对其余14个关键词进行分析，具体频次如图3所示?

14个关键词共现频次合计2 540次，占除“项目管理”以外关键词总共现频次（6 298

次）的40.33%，表明这14个关键词所反映的研究领域可代表当前项目管理硕士学位论文

的主要热点领域?对14个关键词的研究主题及其相关性进行分析发现，在“项目管理”领域

中主要包括“项目质量管理”?“项目进度管理”?“项目成本管理”?“可行性研究”和

“项目风险管理”5个关键词共现网络群组，即5个热点领域?其中，“项目风险管理”群组

的共现频次及所含关键词节点数量最多，这表明项目风险管理的相关研究受到了研究者的极

大关注?

在选定的阈值下，关键词共现网络图及热点领域分布，如图4所示?对关键词共现网络各节

点的中心度指标进行分析，中心度数值在0.07以上的关键词包括：“成本控制（0.1）”

?“可行性分析（0.09）”?“房地产项目（0.09）”?“项目管理（0.07）”?“风

险分析（0.07）”和“经济评价（0.07）”?结合各群组间网络关系分析发现，6个高中

心度共现关键词相互联结，形成以“风险分析——可行性分析——经济评价——房地产项目

——成本控制——项目管理”依次排序的连接链，将“项目风险管理”?“可行性研究”?

“项目成本管理”和“项目管理”4个群组联系在一起?而“项目质量管理”和“项目进度

管理”群组分别通过“可行性研究”和“项目成本管理”两群组与其他群组联结?这表明不

同热点领域间存在着不同程度的联系，而项目管理专业硕士学位论文的研究主题通常涵盖了

项目管理中某几个领域的问题，具有一定程度的综合性?

2.2 项目管理研究主题分析

依据各共现节点研究主题的相关性，通过CiteSpace软件构建关键词聚类，以TF*IDF算法抽

取每个聚类的主题标识词[9]?对各热点主题进行初步分析整理，得到可反映论文

研究主题的聚类17个?其中，9个聚类的热点主题包含于5个热点领域中，另有8个聚类属于

近年来新兴的研究主题，反映了项目管理理论研究的新兴领域，具体数据如表1所示?

2.2.1 热点领域主题分析

关键词聚类分析再次证实了关键词共现网络分析的结果，即“项目风险管理”?“项目质量

管理”?“项目成本管理”?“项目进度管理”和“可行性研究”是项目管理硕士学位论文

热点研究领域?结合高频共现关键词和聚类结果，探究五个热点领域的热点主题，具体内容

如表1所示?

表1 基于聚类分析的热点和新兴领域及

①有关“项目风险管理”的高频共现关键词包括“风险分析”?“风险识别”?“风险

”以及“层次分析法”，共现频次共计548次，这说明对风险的有效识别和分析成了项目风

险管理的热点主题?同时，聚类结果显示国际项目成为风险管理新的研究对象，这体现了项

目管理的国际化趋势[10]?在经济全球化的推动下，我国境内开展的国际项目逐

渐增加?这些国际项目通常面临着更加复杂的环境，需要的技术更加多样化，更多地采用国

际化标准和规范?项目实施者不仅要应对较为传统的项目风险，还要考虑许多新的风险因素

，如政治?环境等，这给项目活动的开展造成了更大的困难?因此，对国际项目来说，项目

风险的有效识别?评估及应对等工作的重要性和必要性更加显著；

②“质量控制”的共现频次为173次，说明“项目质量管理”领域以质量的监控为研究热点

?通过聚类分析发现，近年来，项目成果的可持续发展逐渐引起人们的重视，尽管项目是一

次性的任务，但项目的交付物通常会在未来的一定时间内持续创造经济价值?项目成果质量

的可持续性对于之后的运营管理?成本控制?环境保护等方面都有着重要影响，尤其是在自

然资源开发与利用和生态发展的项目中，可持续性成为影响项目能否开展的关键因素?因此

，不仅要强调项目实施过程中的质量监控，更要关注项目的后评价问题?通过建立项目后评

价体系和方法，来衡量项目成果的可持续性，在确保项目成果质量的基础上，实现项目的可

持续发展，成为项目质量管理的一个热点主题；

③高频共现关键词统计显示，项目进度的监控问题受到“项目进度管理”领域的重视?聚类

分析则发现，近年来建筑工程类项目的进度控制成为该领域的研究热点?这一现象与我国经

济发展有着紧密的联系?2008年的世界金融危机后，为促进我国经济的稳步发展，政府加大

了国内基础建设投资，各地纷纷筹备并实施大中型建筑工程类项目?而在建筑工程类项目实

践中，由于项目管理水平?施工条件，资源需求，设计变更，物资供应以及相关方协调等因

素的影响，普遍存在着进度失控问题[11]，这对项目成本?质量?收益等方面都

产生了不利影响?因此，建立并完善建筑工程项目进度控制的理论?工具和方法有着重要的

实践意义；

④“项目成本管理”领域以“成本控制”（共现频次182）为热点，尤其是有关项目成本控

制方法的改进与完善问题?在项目实践过程中，传统的成本控制方法面对复杂性不断提高的

项目及环境，自身的局限性不断暴露?单纯的以目标利润为导向，强调目标成本，往往无法

有效满足项目的多方面需求?为了弥补传统控制方法的不足，“项目成本管理”领域引入了

“价值工程”理念?价值工程能够综合考虑功能与经济要求，在保证达成项目必要目标的同

时，实现成本的降低?如何将价值工程的理念和方法有效的应用于项目成本管理，以最低的

成本达成项目的必要目标，实现成本降低与功能最佳的统一，成为该领域的热点问题；

⑤“可行性研究”领域以清洁能源项目的“可行性分析”，尤其是“经济评价”为主要研究

主题?随着我国经济的快速发展，传统以煤炭为主要来源的能源结构不仅无法满足快速增长

的需求，更不利于环境的保护与有效利用?为了改变能源结构?改善环境状态，清洁能源项

目在国家政策的扶持下得到快速发展?而此类项目通常具有规模和资金需求量大，建设周期

和投资回收期长等特征，在项目投产后能否获得足够的利润以保证项目成果的持续运营成为

该类项目可行性研究的重要议题?

2.2.2 新兴领域主题分析

关键词聚类分析表明，近年来项目管理理论研究中出现了4个新兴领域，即“项目团队管理

”?“项目知识管理”?“多项目管理”和“项目管理模式”?由于这些理论的研究处于起

步阶段，相关文献数量少，所以在关键词共现网络图谱中未能形成大的群组或领域，但新兴

领域对我国项目管理理论发展与完善有着积极的促进作用?

①为应对竞争日益激烈的市场环境，现代企业广泛采用团队运作方式来灵活应对内外部变化

?项目活动的复杂性要求团队成员能够彼此协作，共同完成任务?而项目团队成员通常是来

自不同领域的专业人员，具有成就动机强?自主性和创造性高?工作难以监控和评价等特征

，这给项目团队的组建及管理带来了新的挑战，有关团队建设?成员管理等“项目团队管理

”问题受到了研究者的关注；

②“项目知识管理”是在项目管理与知识管理相互交叉融合的过程中产生的?在项目活动的

展开过程中，不仅需要输入专业性的知识以支持项目，同时还会创造出大量新知识，这些知

识成为团队竞争优势的重要来源?然而，在项目知识管理实践中还存在着大量问题，如对于

知识的积累转化重视不足?知识在项目团队中没有进行完整的传递等[12]，这阻

碍了员工工作效率的提升，同时也增加了知识流失的风险?因此，培养项目团队学习?创新

和传播知识的能力?构建知识管理系统，促进知识交流与共享等相关主题成为该领域的主要

研究内容；

③“多项目管理”领域主要涉及企业的项目群和项目组合管理?在企业实践中，往往需要同

时开展多个项目?由于财力?人力等资源的有限性，为了满足各项目不同的需求，需要对各

种资源进行合理的安排与利用?通过多个项目间资源的合理分配和有效协调，不仅能达成各

项目自身的目标，还有助于企业整体绩效的最优?因此，多个项目间的协调问题成为该领域

的主要研究主题；

④“项目管理模式”领域主要探讨项目管理模式的应用与优化问题?传统的项目管理模式，

如设计——招标——建造?建造——运营——移交?项目承包和设计——采购——建造等，

通常被应用于大型复杂的工程建设项目，以期应对此类项目建设周期长，资金需求量大，风

险高等不利因素?但在实践应用的过程中，传统项目管理模式也暴露出自身的不足，如缺乏

敏捷性?过分强调技术性?对项目过程的割裂等?为了实现项目管理模式的优化，“动态联

盟”的思想被引入项目管理领域?企业间的动态联盟可以充分利用联盟各方的核心竞争优势

，共同应对环境变化，提升竞争力，抵御风险，实现资源的共享?因此，动态联盟项目管理

模式的构建?管理与应用成为该领域的新兴主题?

3 研究结论

通过对项目管理硕士学位论文数据的计量与可视化分析，本文探究了我国项目管理理论研究

的热点和新兴领域现状，对目前我国项目管理理论研究的特征总结如下?

3.1 选题方向较为多元，研究内容丰富

关键词共现网络分析显示，项目管理专业硕士学位论文主要以5个项目管理问题为热点研究

领域，并通过融入新的视角和理念来促进各热点领域发展与完善?从风险管理的国际化趋势

，到质量管理的可持续发展，再到价值工程理念的引入，以及进度管理和可行性研究对象的

转变，都表明了5个热点领域研究主题的丰富与多样性?

3.2 新兴领域初步形成，有待进一步深入研究

通过关键词聚类分析发现主要形成了4个新兴领域?其中，在与其他研究领域的交叉融合过

程中，形成了“项目知识管理”；“项目团队管理”则体现了项目管理从硬因素转向对软因

素的关注[13]；传统的单一项目管理扩展到多个项目之间的协调管理，项目管理

模式中也引入了新的理念?但总体来看，这些新兴主题的研究还处于起步阶段，相关理论成

果较少且缺少系统性，需要进一步的完善与发展?

3.3 与实践的紧密结合是项目管理理论研究的重要特征

国际项目的风险管理?建筑工程项目的质量监控以及清洁能源项目的可行性研究等，都表明

项目管理专业硕士学位论文的选题及研究内容紧跟时展，具有很强的实践性?

参考文献

[1]蔚林巍.项目管理的最新进展[J].管理工程学报，2000，（3）：65-69

[2]骆，马红霞.项目管理发展综述[J].现代管理科学，2005，（5）：28-29.

[3]李波.项目管理理论综述与前沿问题研究[J].经济研究导刊，2012，（31）：212-21

[4]陆绍凯.项目管理的研究前沿[J].技术经济与管理研究，2005，（1）：36-38.

[5]程铁信，霍吉栋，刘源张.项目管理发展评述[J].管理评论，2004，（2）：59-62.

[6]应尚军，王炎.项目管理的研究现状与研究前景[J].科技进步与对策，2005，（11）

：131-133.

[7]刘莉.论现代项目管理的四大转变[J].深圳大学学报：人文社会科学版，2003，（1

）.

[8]朱彩萍.学术论文中关键词的规范[J].图书与情报，2005，（4）：51-53.

[9]Chen C，Ibekwe SanJuan F，Hou J.The structure and dynamics of cocitation clu

sters：A multiple-perspective cocitation analysis[J].Journal of the American S

ociety for Information Science and Technology，2010，61（7）：1386-1409.

[10]刘凤楼.我国的项目管理及其发展展望[J].商场现代化，2006，（5）：59-60.

[11]倪祥如.新海发电公司2×330MW扩建工程进度控制研究[D].南京：南京理工大学，

2011.

[12]朱方伟，王昭.基于流程导向的创意服务企业知识管理个案研究[J].管理案例研

篇(6)

[关键词] 环渤海区域金融成长差异因子分析聚类分析

一、区域银行业成长差异分析

1.研究方法

(1)因子分析

因子分析是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。它的基本思想是根据相关性大小把原始变量分组，使得同组内的变量之间相关性较高，而不同组的变量见的相关性较低。每组变量代表一个基本结构，并用一个不可观测的综合变量表示，这个基本结构称为公共因子。于是，对于所研究的某一具体问题，原始变量就可以分解为两个部分之和的形式，一部分上一少数几个不可测的公共因子的线形函数，另一部分是与公共因子无关的特殊因子。

在进行因子分析时，首先要确保原始变量之间有较强的相关性，大多数变量间的相关系数应该大于0.3。在确保原始变量之间有较强的相关性之后要进行因子载荷，因子载荷主要通过主成分法来进行。载荷矩阵确定后要进行因子旋转。建立因子分析模型的目的在于知道每个公因子的意义，但是刚才得到的初始因子解各主因子的典型代表变量不突出，因子意义含混，因此需要通过因子旋转找到由于更明确，实际意义更明显的公因子。当因子模型建立起来后，就需要对因子进行评分，从而用公因子的得分来描述原始变量的取值。

(2)聚类分析

这里的聚类分析主要用到的是K―均值法，它是一种特殊的非谱系过程，是麦克奎因(McQueen)于1967年提出的。它的基本思想是预先把样品分类，之后进行修改，逐个分派样品到其最近均值的类中去。

2.评价指标及原始数据

由于数据的可得性，本部分拟采用存款总量、存款增长率、贷款总量、贷款增长率、外资银行数量、票据贴现余额、盈利额、优良贷款率、银行机构与人口数量比、银行资产与国内生产总值比这十个指标对环渤海区域的银行业进行评估。这十个指标中存贷款及票据贴现是银行业务的基本反映，外资银行数量在某种意义上体现了该区域的信用程度，盈利额体现了银行的经营状况，优良贷款率体现了该区域的金融风险，银行机构与人口数量比和银行资产与国内生产总值比则基本反映了该区域银行业的结构和规模。

评价指标使用的数据年份为2005年，除存款增长率和贷款增长率外，所有数据均来自中国人民银行公布的各区域2005年的《区域金融运行报告》，存款增长率和贷款增长率则根据2004年及2005年的数据计算得出。增长率=（本期平均余额/上期平均余额）-1。

3.因子及聚类分析

通过相关性的检验，大多数变量的相关系数大于0.3,因此可以作因子分析。表1给出了指标主成分的特征值及方差比重。

通过表1可以看出，当主成分的个数为3时，不仅特征根大于1，而且所选主成分保持信息总量的比重超过85%，达到98.607%。因此可以将前三个公因子作为评价区域银行业竞争力的综合指标。再通过Promax方法（斜交旋转）进行因子旋转，得到因子载荷矩阵（表2）。通过表2可以看出，第一个因子主要集中了贷款总量、存款总量、票据贴现余额和实现盈利这四个指标，概括反映了区域银行业的发展规模，因此可以称为规模因子。第二个因子主要集中了银行资产与国内生产总值比、外资银行数量和银行机构与人口数量比这三个指标，概括反映了区域银行业的发展结构，可称为结构因子。第三个因子主要集中了存款增长率、贷款增长率和优良贷款率这三个指标，概括反映了区域银行业的发展潜力，可称为潜力因子。通过统计软件SPSS可以得出这三个公因子的各自得分。综合得分为将各因子得分以其方差贡献率占三个因子总方差贡献率的比重作为权重进行加权之和。最终的结果表明，北京市银行业发展的最好，而河北省在环渤海区域的银行业中排名最后。从各个因子的得分看，北京市在规模因子和结构因子上的得分最高，而天津市在潜力因子上的得分最高，但因为其规模因子得分最后，所以最后总得分只排在中间。河北省在结构因子和潜力因子的得分最低，规模因子得分也很低，反映出河北省银行业发展较为落后。

通过聚类分析，可以进一步认清环渤海区域银行业发展现状的格局。从聚类结果看，北京位于第一梯队，处于绝对领先；山东为第二梯队；天津、辽宁和河北则位于第三梯队，表明银行业的发展相对滞后。

二、区域证券市场成长差异分析

1.指标建立及研究方法

根据数据的可得性并且充分借鉴金融地理学的研究思想，本部分拟采用国内生产总值、人均国内生产总值、人均可支配收入、相对人均可支配收入、上市公司数量、证券营业部数量、证券市场总交易量、沪深两市A股开户数量、上市公司与证券营业部数量比、总交易量与国内生产总值比、人口与证券营业部数量比和开户数量与人口比共十二个指标。这十二个指标可以分为六个绝对指标和六个相对指标，每个绝对指标都对应着一个相对指标。

2.数据来源

为减少单年度数据波动的影响，本部分采用2004年到2005年的平均数据进行分析，这些数据中，涉及上市公司数量、证券营业部数量、证券市场交易额以及开户数量的数据来自《中国证券期货统计年鉴2005》和《中国证券期货统计年鉴2006》；人口数据、人均可支配收入数据以及国内生产总值数据来自《中国统计年鉴2005》和《中国统计年鉴2006》。

3.数据标准化结果及得分

从表3中我们可以看出，北京市证券业发展的最好，无论是绝对指标还是相对指标都领先于其他省份。河北省证券业发展的最为落后，无论是绝对指标还是相对指标都排名最后。山东省的绝对指标得分很高为404.76分，很接近于北京市的450.49分。天津市的相对指标得分很高，仅次于北京市，但由于它的绝对指标得分过低因此总得分靠后。

通过聚类分析，可以进一步认清环渤海区域证券业发展现状的格局。从聚类结果看，北京位于第一梯队，处于绝对领先；山东、辽宁省位于第二梯队；天津市、河北省则位于第三梯队，表明这两个区域的证券业的发展相对滞后。

三、区域保险市场成长差异分析

在本部分对区域保险市场成长差异的研究中，将继续延用分析银行业成长差异时所用到的因子分析方法和聚类方法，研究方法的具体内容就不在赘述了。

1.评价指标及原始数据

考虑到数据的可得性，本部分拟采用居民储蓄余额、固定资产投资额、实际利用外资额、人均地区生产总值、人均可支配收入、保费收入、保险市场主体数量及保险密度这八个指标来对环渤海区域的保险市场发展现状进行评估。这八个评价指标既考虑到了保险市场所涉及的一些常见指标如保费收入等，又考虑到了实体经济的一些重要的且会对保险市场带来重要影响的指标如人均可支配收入等，因此这八个评价指标的选取是合理的。

为减少单年度数据波动的影响，本部分采用2003年～2005年共三年指标数据的平均值来进行分析。这些数据中，除保险市场主体数量及保险密度这两个指标外，其余指标数据来自于2003年～2005年的各地区的国民经济和社会发展统计公报，保险市场主体数量的数据来自于2003年～2005年的各地区的保险统计年鉴，保险密度则是根据保费收入和人口计算得出。

2.因子及聚类分析

通过相关性的检验，大多数变量的相关系数大于0.3,因此可以作因子分析。表4给出了指标主成分的特征值及方差比重。

通过表4可以看出，当主成分的个数为2时，不仅特征根大于1，而且所选主成分保持信息总量的比重超过85%，达到90.799%。因此可以将前两个公因子作为评价区域保险业发展现状的综合指标。再通过Promax方法进行因子旋转，得到因子载荷矩阵（表5）。通过表5我们可以看出，第一个因子主要集中了保险密度、人均可支配收入、保险市场主体数量以及人均GDP这四个变量，概括的反映了保险业发展情况及潜力，因此可以称为发展因子；第二个因子主要集中了居民储蓄、固定资产投资额、实际利用外资额以及保费收入这四个变量，概括的反映了该区域的经济规模，因此可以称为规模因子。通过统计软件SPSS，可以分别得到这两个因子的得分情况，之后，将各因子得分以其方差贡献率占两个因子总方差贡献率的比重作为权重将两个因子各自得分进行加权之和从而得到总得分。

总得分的结果表明，北京市保险业发展的最好，而天津市在环渤海区域的保险业中排名最后。从各个因子的得分看，北京市在发展因子上的得分最高，而山东省在规模因子上的得分最高。天津市在两个因子中的得分均为负数，尤其是因子2的得分在所有城市中排名最后，直接影响了最后的总分数，这反映出天津市保险业发展较为落后。

通过聚类分析，可以进一步认清环渤海区域保险业发展现状的格局。从聚类看，北京位于第一梯队，处于绝对领先；山东、辽宁为第二梯队；河北、天津则位于第三梯队，表明这两个区域的保险业的发展相对滞后。

四、小结

通过对环渤海区域各金融行业的统计分析，我们能够看到，北京市无论在银行业、证券业还是保险业都处于绝对领先地位，表明其在这一区域的金融发展是最好的；山东省和辽宁省基本上在各金融行业的排名和聚类中位居中游，而山东省的发展情况还要相对更好一些，成为在这一区域仅次于北京市的金融发展强省；天津市和河北省基本上在各金融行业的排名和聚类中位居下游，尤其是河北省的发展最为滞后，在金融业的三大领域中，有两个领域的排名都是最后，充分说明河北省在环渤海区域金融业的发展中已落在其他省市的后面。

参考文献:

[1]金学军田霖:《金融地理学视角下的区域金融成长差异研究》，浙江大学博士论文，2004

[2]卢丹:《我国经济体制转轨过程中的区域金融差异化》，浙江大学硕士论文，2004

[3]张杰:《经济的区域差异与金融成长》，金融与经济，1994(6）

[4]金学军田霖:《我国区域金融成长差异的态势：1978-2003年》,经济理论与经济管理，2004(8）

[5]陈志福:《中国区域金融发展差异及对策》，商业时代学术评论，2006(6）

篇(7)

李国霞毕业于郑州大学物理系半导体专业，毕业留校后一直在郑州大学任教，她长期工作在教学第一线，分别主讲过9门研究生、本科生和成教生的基础课和专业课。1993年前，她主要参加物理系原副系主任宁振环教授的项目组，从事智能仪器系统软件设计方面的研究工作，该系列项目分别于1991年和1997年通过河南省科委组织的成果鉴定，分别被专家鉴定为国内首创和国内领先。

1996年后，李国霞参加物理系原系主任高正耀教授的项目组，根据高正耀教授的要求和项目研究的需要，主持设计了《古陶瓷动态模糊聚类分析系统》，系统采用信息视窗自动识别，智能数据接口、智能图形处理等新技术和手段。系统人机界面集成环境清晰直观，使用方便。数据输入部分为用户提供三种方式：一、电子表格人工录入；二、从Excel数据文件导入；三、从vlsuaI BASIC数据文件转换。

数据处理部分设置8种模糊聚类分析方法，用户可根据需要选择其中一种方法进行数据处理，数据处理速度快，精度高。绘图部分采用多级链表方法记录样品分类情况，自动生成动态模糊聚类分析图和位图文件。系统还提供了甄别指纹元素，统计着色元素含量比，合并数据文件，并支持多文档、多视图，分页打印等操作。该系统于2002年通过河南省科技厅组织的成果鉴定，专家认为系统设计合理，模糊聚类分析功能较齐全，技术上处于古陶瓷研究的国内领先和国际先进水平，该系统在古陶瓷研究中发挥了良好的作用。

陕西铜川的耀州窑是我国古代北方名窑，唐朝至明朝期间制出了很多精美的陶瓷。为了解不同时期古耀州瓷的原料来源和分类情况，高正耀教授多次赴耀州窑采集不同时期生产的古瓷片，李国霞和项目组同志通过多种统计分析得出结论，历代古耀州瓷胎样品有着长期稳定、集中的原料产地。不同时代的胎料产地关系密切，相距较近，但彼此间也有相对的独立性。汝窑和钧窑是中国古代的著名窑口，其艺术水平极高，科学内涵丰富，在中国和世界陶瓷史上占有重要位置。李国霞和项目组同志选取了汝窑、钧窑、兵马俑等不同窑口、不同时期的古陶瓷样品，用多种现代分析技术和统计方法对这些样品分析，获得了很多重要的信息，研究成果在国际会议和全国科技考古学术讨论会上交流后，引起与会代表的关注和好评。

聚类分析论文