时间:2023-01-30 05:03:41
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇挖掘技术论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
[关键词]数据挖掘数据挖掘方法
随着信息技术迅速发展,数据库的规模不断扩大,产生了大量的数据。但大量的数据往往无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。
一、数据挖掘的定义
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
常见数据挖掘技术包括:分类树技术、关联发现技术、聚类技术、人工神经网络、最优集合规约技术以及可视数据挖掘技术等。软件度量数据往往具有多维度、高耦合性,软件工程数据挖掘中会采用一些特殊处理技术,包括统计分析、回归建模、分类树以及神经网络等。在具体软件工程实践中,选择何种挖掘技术,其决定性因素为想要达成的目标。
2数据挖掘实现过程
通常,数据挖掘过程包括4个步骤,即选择数据、预处理、实施挖掘以及吸收数据。数据挖掘整个过程具有交互性,有时数据需要重新选择,有时也要对数据预处理进行改进,也可能出现算法反复被调整现象,基于这种特征,数据挖掘时要设置反馈环。挖掘数据第1步是将管理和目标反映到1个(或多个)挖掘任务中,整个过程可主要划分成为六种:1)评估、预测。评估包括对软件产品、过程以及资源的属性进行相应检查就是整个评估过程,同时也需要根据这些属性,赋值给未知属性,当然这些未知属性需要进行量化。评估工作完成后,要对属性值进行预测。2)分类。检查1个特定实体属性,根据结果将其划分到另1个类别或范畴(事先定义好)中。3)关联发现。关联发现能够识别出特定内容中互相存在关联某些属性。如,可将找出在软件开发属性和产品属性相互关联的内容找出来。4)聚类。将1个结构不相同的群体划分到另1个具有相同结构的子群集合中,这个过程叫做聚类,它的划分依据是成员之间具有高度相似性。5)数据可视化。数据可视化是利用可视化描述方法来定义复杂信息。6)可视数据探察。可视化数据探察是对描述工作的相应拓展,可利用数据可视化交互控制来分析和检视海量数据[3]。它应用具有可视化功能和数据挖掘技术来对数据进行处理。
3挖掘技术在软件工程中应用
上文提及到软件工程度量,部分可利用信息已在海量数据中被提取出来,但普遍认为更为有效且数量众多的数据依然在软件工程相关数据库中隐藏,而没有被发现。实际上,数据挖掘就是1种被公认为提升软件工程度量的技术。图1为数据挖掘在软件工程中的应用。
3.1数据挖掘繁荣原因1)计算机硬件系统和软件系统的基础设施建立具备发现驱动、分析数据等功能;2)每种技术都在实际应用中不断得到改进,其使用能力不断提升。如,模式识别、神经网络等有明显进步趋势;3)数据存储、贮藏、集成成本不高,海量数据可轻松获得。数据挖掘技术被人们认识,并在实践中逐渐被重视,同时也给研究和进一步提高数据挖掘技术提供了便利条件。
3.2面临挑战软件工程自身存在很多数据上的特殊性,给数据挖掘领域研究工作带来制约和影响,主要表现在以下三个方面:1)数据复杂。软件工程数据主要分为两个组成部分,即结构化数据、非结构化数据。结构化数据主要包括缺陷报告、版本信息等内容,而非结构化数据则包含数据代码、相应注释以及文档等内容。结构化数据、非结构化数据并不能同时适用一种算法,而且两种数据间还存在对应联系。如,1个缺陷报告中往往包括缺陷代码段。而结构化数据里常常涵盖部分非结构化信息,非结构化数据中亦是如此,这也是今后工作中需要重点解决的问题之一。2)非传统分析存在局限。数据挖掘最终想实现的目标就是将转化而来的信息传达给用户,实现信息共享。传统数据挖掘技术在使用过程中,信息手段比较单一,如文字、图表等表达形式。其实,软件开发商对信息的要求很高,1个统计结果根本不能满足其工作需求。为促进软件开发不断向上发展,开发人员需要相关信息作为参考依据,包括开发实际案例、编程所需模板、系统缺陷定位以及软件结构设计等。研究数据挖掘技术,提升其实际使用功能,需要不断提交新信息、新知识,并改进相应手方法。3)挖掘结果评价标准不够具体。软件工程数据挖掘尚未形成完善的结果表示体系,其评价体系也有待加强。人员在软件开发过程中需要大量信心,这些信息非常具体且复杂,表示方法不尽相同,互相之间难以做出对比,也很难用定量方法去分析挖掘结果。
4结束语
关键词 技术情报分析;数据挖掘
中图分类号TP392 文献标识码A 文章编号 1674-6708(2013)92-0211-02
1 概述
在面对海量的情报信息资源时,如何高效、准确的开展分析工作,为管理决策人员提供支持,已成为当今科技工作的重要组成部分。可以说,情报分析方法和相关工具的合理使用决定了情报获取的准确性和有效性,并将直接影响制定战略决策的有效性和科学性。
技术情报分析系统主要进行与技术相关科技论文、专利、互联网情报数据的分析,实现分析方法、算法、分析结果的表现形式以及分析报告自动生成等技术。该情报分析系统除了基本的维度统计分析外,更多的侧重于利用知识发现、数据挖掘等技术进行情报数据的深度处理与分析。通过情报分析系统开发设计,结合数据挖掘等技术的合理使用,使得系统使用者能够快速、有效、全面地获取技术的情报信息。
2 系统的设计与功能描述
2.3 数据挖掘技术设计
2.3.1数据文本特征表示
在进行文本挖掘时,对文本特征进行处理,实现对非结构化的文本向结构化转换。情报分析系统采用向量空间模型(Vector Space Model,VSM)进行文本的表示,并利用倒排文档频率TFIDF进行专利文本的特征提取,以此作为论文、专利文本挖掘的基础。
2.3.2关联算法
在挖掘论文专利作者之间、机构之间、国家之间的研究内容关联性上,采用了基于文本挖掘的关联算法。通过对技术关键词的共生关系(Terms Co-occurrences)计算来识别、确定一组文献内部所包含的技术组(群)。
2.3.3 层次结构可视化算法
情报分析系统中关于论文和专利的引证分析、专利同族分析采用了层次结构可视化算法Hyperbolic Tree,即双曲树算法。其主要原理是将树结构在双曲空间进行布局,然后映射到欧式空间的庞莱卡圆盘进行显示。欧式空间中两个相同大小的区域离庞莱卡圆盘中心越近,在双曲空间中所占用的空间越小;反之,双曲空间中两个大小相同的区域离原点越近在庞莱卡圆盘中所占用的空间越大。
4 结论
本文提出运用数据挖掘方法实现对大量数据的分析和判断,可有效帮助科技情报机构和人员提高综合情报分析能力和决策的质量。同时,该方法可按照不同需要进行功能拓展,实现向更多的技术情报领域延伸。
参考文献
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一届亚太地区知识发现与数据挖掘国际会议(PAKDD),IOS Press出版, 2007.
[2]乐明扬.公安情报分析中的数据挖掘应用研究.信息与电脑.2012(8).
[3]蒲群莹.基于数据挖掘的竞争情报系统模型[J].情报杂志.2005,1.
关键词:数据挖掘;决策树;C4.5算法;教学管理;高校教学
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2012)30-7150-04
随着数字信息化社会的飞速发展,计算机技术和数据库管理系统被广泛应用于科学探索、商业、金融业、电子商务、企业生产等各种行业,已逐渐发展成为一种智能管理过程。数据挖掘作为一种新兴的数据分析技术,它的研究成果取得了令人瞩目的成就[1]。利用数据库技术,通过对教务管理的大量数据进行多层次、多维度的加工处理,从而实现人性化管理,为科学决策提供支持。
毕业论文在教学体系中占有十分重要的位置,是本科生培养计划中衡量教学质量的重要指标。提高毕业论文教学质量是一项系统工程,为研究在当前的教学条件下如何提高毕业论文教学质量,本文采用数据挖掘技术对影响毕业论文成绩管理的多方面因素进行了深入分析和挖掘,以期发现对学校毕业论文教学管理有用的知识,将这些知识应用于本科学生毕业论文教学实践中,为学校管理者提供有用的信息,进而获得更好的管理效益,为学校未来的发展提供更广阔的空间,发挥重要的作用。
1 数据挖掘简介
数据挖掘(Data Mining),又称数据库中的知识发现(Knowledge discovery in Database. KDD)[2],是通过分析每一个具体数据,从大量的、有噪声的、模糊的、随机的海量数据中寻找其规律的技术,它是数据库研究中的一个很有应用价值的新领域。
1.1 数据挖掘的定义
H包含如下功能:
综上所述,数据挖掘具有三大特点:其一是处理大型数据;其二应用数据挖掘的目的是发现未知的、有意义的模式或规律;其三是一个对大量数据处理的过程,有特定的步骤[3]。
1.2 数据挖掘的主要方法
数据挖掘是一个多学科交叉领域,它由人工智能、机器学习的方法起步,并与统计分析方法、模糊数学和可视化技术相融合,以数据库为研究对象,围绕面对应用,为决策者提供服务。
数据挖掘的方法主要可分为六大类:统计分析方法、归纳学习方法、仿生物技术、可视化技术、聚类方法和模糊数学方法。归纳学习法是目前重点研究的方向,本文根据给定的训练样本数据集,采用归纳学习法中的决策树技术构造分类模型,将事例分类成不同的类别。
2 决策树算法基本理论
2.1 决策树方法介绍
决策树[4]方法是以事例学习为基础的归纳推算法,着眼于从一组无序的,无规则的事例中推断出类似条件下会得到什么值这类规则的方法,它是一种逼近离散值函数的方法,也可以看作一个布尔函数[5]。决策树归纳方法是目前许多数据挖掘商用系统的基础,可以应用于分析数据,同样也可以用来作预测。建模过程中,即树的生长过程是不断的把数据进行切分,采用“自顶向下,分而治之”的方法将问题的搜索空间划分为若干个互不交叉的子集,通常用来形成分类器和预测模型。如图1所示,为决策树的示意图。
决策树一种类似流程图的树形结构,是一种知识的表现形式。为了对未知样本进行分类,生成具体的分类规则,信息样本的各个属性值要在决策树上进行测试。主要分为两个阶段:在第一阶段中生成树。决策树最上面的节点为根节点,是整个决策树的开始,然后递归的进行数据分区,每次切分对应一个问题,也对应着一个节点;在第二阶段中对树进行修剪,此过程中去掉一些可能是噪音或异常的数据,防止决策树的过匹配,进而保证生成决策树的有效性和合理性。当一个节点中的所有数据都属于同一类别,或者没有属性可以再用于数据进行分割时,分割工作停止。具体的工作流程如图2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3决策树算法,它是最早的决策树算法之一。ID3算法运用信息熵理论,选择当前样本中具有信息增益值的属性作为测试属性,对样本的划分则依据测试属性的取值[6]。C4.5算法是在ID3算法基础上发展起来的,它继承了ID3算法的全部优点,并增加了新的功能改进了ID3算法中的不足,可以进行连续值属性处理并处理未知值的训练样本。在应用单机的决策树算法中,C4.5算法不仅分类准确而且执行速度快。
C4.5通过两个步骤来建立决策树:第一阶段树的生成,第二阶段树的剪枝。C4.5算法采用信息增益率来记录字段不同取值的选择,首先计算各个属性的信息增益率,寻找到规则信息的优劣,选出信息增益率最大的属性作为结点,自顶向下生成决策树。C4.5算法构造决策树的基本策略如下:
首先计算出给定样本所需的期望信息,设S为一个包含s个数据样本的集合,对于类别属性,可以取m个不同取值,分别对应于m个不同的类别[Ci(i∈1,2,...,m)]。假设类别[Ci]中的样本个数为[si],期望信息为:
其中,[Pi]是任意样本属于[Ci]的概率,并用[sis]估计。
接着,计算当前样本集合所需用的信息熵,设一个属性A具有n个不同的值[(a1,a2,...an)],利用属性A可以将集合S划分为n个子集[S1,S2,...Sn],其中[Sj]包含了S集合中属性A取[aj]值的样本数据。如果属性A被选作测试属性,设[Sij]为[Sj]中属于[Ci]类别的样本集,根据A划分计算的熵为:
然后利用属性A对当前分支结点进行相应样本集合划分计算信息增益:
最后,求信息增益率,表达式为:
C4.5算法的伪代码如下:
输入:训练样本Samples;目标属性Target—attribute;候选属性的集合Attributes
输出:一棵决策树
1)创建根节点root;
2)If Samples都在同一类C Then;
3)返回label=类C的单结点树root;
4)If Attributes为空Then;
5)返回单结点树root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each测试属性列表Attributes中的属性;
8)IF测试属性是连续的Then;
9)对测试属性进行离散化处理,找出使其信息增益比率最大的分割阈值;
10)Else;
11)计算测试属性的信息增益比率;
20)添加子树Generate Tree C4.5;
21)对已建立的决策树计算每个结点的分类错误,进行剪枝,并返回根结点Root。
3 毕业论文成绩管理系统的设计和实现
利用数据挖掘技术对学生的成绩数据进行提炼,所产生的结果和信息会对以后的教学管理工作提供有用的信息,进而获得更好的管理效益。解决问题的重点在于怎样对学生的毕业论文成绩进行全面且深度的分析,从而挖掘出成绩与其他因素之间隐藏的内在联系。本文采用决策树技术挖掘信息时,主要操作步骤如下:
1)确定挖掘来源:清晰地定义挖掘对象,明确挖掘目标是数据挖掘所有工作中重要的一步。本文中应用于挖掘的数据信息是毕业生的毕业论文成绩,旨在通过对大量成绩数据进行各层次的挖掘,全面了解具体影响学生毕业论文成绩的各方面因素,正确的针对问题拟定分析过程。
2)获取相关知识:数据是挖掘知识最原始的资料,根据确定的数据分析对象,抽象出数据分析中所需要的特征信息模型。领域问题的数据收集完成之后,与目标信息相关的属性也随之确定。这些数据有些是可以直接获得的,有些则需要对学生进行调查才能的得到。
3)数据预处理:此过程中是对已收集的大量数据进行整合与检查。因为存放在数据库中的数据一般是不完整的、不一致的,通常还含有噪声的存在。因此就需要对数据库中数据进行清理、整理和归并,以提高挖掘过程的精度和性能。
4)数据转换:对预处理后的数据建立分析模型,对于特定的任务,需要选择合适的算法来建立一个准确的适合挖掘算法的分析模型。本文采用决策树技术进行分类建模来解决相应的问题。
5)分类挖掘知识和信息:此阶段的工作目的是根据系统最终要实现的功能和任务来确定挖掘的分类模型。选择合适的数据挖掘技术及算法,并采用恰当的程序设计语言来实现该算法,对净化和转换过得数据训练集进行挖掘,获得有价值的分析信息。
6)知识表示:将数据挖掘得到的分析信息进一步的解释和评价,生成可用的、正确的、可理解的分类规则呈现给管理者,应用于实践。
7)知识应用:将分析得到的规则应用到教学管理中,教师可以利用所得到的知识针对性的开展毕业设计的教学活动,进一步指导教学工作,提高教学水平和学生的毕业论文质量。
4 结论
最终发现影响学生毕业论文成绩主要的因素不是指导教师的职称,学生的基础及感兴趣程度,而是指导教师的学历高低。根据具体分类规则的结论,学校教学管理工作应加重对教师的素质及能力培养,合理的分配每个教师的毕业论文指导工作,不仅能够有效的完成毕业课题指导工作,更有助于学生整体论文质量的提高。
在高校教学数字化的时代趋势下,利用数据挖掘技术来挖掘提取教学工作中的全面而有价值信息,可以为教育管理者的教学工作提供有效的参考信息,改进教学管理方法,提高教学质量和学生的综合素质,是高校保持良好的可持续发展的有力工具。
参考文献:
[1] 刘玉文.数据挖掘在高校招生中的研究与应用[D].上海:上海师范大学,2008.
[2] 魏萍萍,王翠茹,王保义,张振兴.数据挖掘技术及其在高校教学系统中的应用[J].计算机工程,2003.29(11):87-89.
[3] 刘林东. Web挖掘在考试系统中的应用[J].计算机应用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡内基梅隆大学.机器学习[D].曾华军,张银奎,译,北京:机械工业出版社,2003.
攻略1 医学论文的基本要求
1.1 创新性 医学论文的创新性是指文章要有新意,要发展医学成就,破解医学问题。医学论文有无创新,选题是关键。选题创新是医学论文写作的灵魂,是衡量医学论文价值的重要标准。可体现在:①理论方面的选题应有创新见解,既要反映作者在某些理论方面的独创见解,又要提出这些见解的依据;②应用方面的选题应有创新技术等,也就是要写出新发明、新技术、新产品、新设备的关键,或揭示原有技术移植到新的医学领域中的效果;③创新性还包括研究方法方面的改进或突破。
1.2 可行性 所谓选题的可行性,是指能够充分发挥作者的综合条件和可以胜任及如期完成医学论文写作的把握程度。选题切忌好高鹜远,脱离实际,但也不应过低,影响主客观的正常发挥,降低了医学论文的水平。影响选题的可行性因素有:①主观条件,包括作者知识素质结构、研究能力、技术水平及特长和兴趣等;②客观条件,包括经费、资料、时间、设备等。
1.3 实用性 撰写医学论文的目的是为了交流及应用。要从实际出发,选择够指导科研、指导临床、造福人类的主题,因此,选题的实用性尤为重要。
1.4 科学性 医学论文是临床和医学科学研究工作的客观反映,其写作的具体内容应该是取材客观真实、主题揭示本质、科研设计合理、论证科学严谨、表达逻辑性强、经过实践检验。所以,严格遵守选题的科学性原则,是医学论文写作的生命。
1.5 前瞻性 要选择有研究价值及发展前途的主题,应积极开发研究新领域、新学科和新理论。
攻略2 选题的基本方法
2.1 根据课题研究的结论来确定主题 这是常用的方法,可分为:①以科研的结论或部分结论作为医学论文的主题;②科研结果与开题时预测不一致,待查出原因后,再寻找主题;③科研达不到预期结果,可总结经验,从反面挖掘主题。
2.2 在科研过程中选题 医学科研的过程中,有时会出现意外的现象或问题,作者如果能够细心观察、及时发现,可以在这些偶然中获得新的选题。
2.3 在临床实践中选题 临床工作是医学论文写作取之不尽的源泉,作者在临床中会经常遇到许多需要解决的实际应用问题或理论问题,对此,只要从本学科实际出发,用心思考,会从中产生很多好的主题。其包括:①探讨发病机制与预后情况;②分析临床症状与表现;③研究诊断方法和治疗方法;④疾病的多因素分析等。
2.4 从文献资料中选题 医学文献是人们长期积累的宝贵财富,是医学论文选题的重要来源。阅读最新文献资料,可以了解当前医学科学研究的进展情况,开拓思路、激发灵感,从而挖掘提炼出好的医学论文主题。
攻略3 医学论文的一般体裁
3.1 实验研究 一般为病因、病理、生理、生化、药理、生物、寄生虫和流行病学等实验研究。主要包括:①对各种动物进行药理、毒理实验,外科手术实验;②对某种疾病的病原或病因的体外实验;③某些药物的抗癌、抗菌、抗寄生虫实验;④消毒、杀虫和灭菌的实验。
3.2 临床分析 对临床上某种疾病病例(百例以上为佳)的病因、临床表现、分型、治疗方法和疗效观察等进行分析、讨论,总结经验教训,并提出新建议、新见解,以提高临床疗效。
3.3 疗效观察 指使用某种新药、新疗法治疗某种疾病,对治疗的方法、效果、剂量、疗程及不良反应等进行观察、研究,或设立对照组对新旧药物或疗法的疗效进行比较,对比疗效的高低、疗法的优劣、不良反应的种类及程度,并对是否适于推广应用提出评价意见。
3.4 病例报告 主要报告罕见病及疑难重症;虽然曾有少数类似报道但尚有重复验证或加深认识的必要。
3.5 病例(理)讨论 临床病例讨论主要是对某些疑难、复杂、易于误诊误治的病例,在诊断和治疗方面进行集体讨论,以求得正确的诊断和有效的治疗。临床病理讨论则以对少见或疑难疾病的病理检查、诊断及相关讨论为主。
3.6 调查报告 在一定范围的人群里,不施加人工处理因素,对某一疾病(传染病、流行病、职业病、地方病等)的发病情况、发病因素、病理、防治方法及其效果进行流行病学调查研究,给予评价,并对防治方案等提出建议。
在近年信息处理与分析相关技术领域的进展中,文本挖掘是最引人注目的领域之一。文本挖掘是一个方法群,涉及统计学、自然语言处理、信息抽取、可视化等多项信息技术。同很多新兴领域一样,文本挖掘目前并没有统一的定义,没有完全一致的方法与模型,但是,Feldman和sanger那个很笼统的定义:“可将文本挖掘大致定义为一个知识密集的过程,在此过程中用户与文档集合通过分析工具进行交互”,清晰表明了这种方法与信息分析的内在联系。
信息分析方法可广泛用于决策支持和科学研究,在社会科学问题的研究中,它也具有一般社会科学研究方法所不具备的某些方法论优势。但情报学产生至今的数十年时间里,信息分析方法一直没有成为社会科学研究的主流方法,造成这一现象的原因,除了情报学对本领域的理论与方法缺乏有效的宣传之外,信息分析方法本身的效率问题是一个关键因素。由于社会科学所需要的信息分析方法的效率不高,制约了它们大规模进入社会科学研究的应用领域。值得庆幸的是,随着计算机技术的日渐成熟,高效率的文本挖掘方法出现了。尽管文本挖掘方法本身尚未完全成熟,仍在发展过程中,它在专门领域的应用也需要情报学家根据信息分析的特点加以完善,但它作为一种优秀的社会科学研究方法的前景已经展示无疑了。
2010年,笔者承担了国家社会科学重点项目“我国图书馆核心价值体系构建研究”。考虑到我国图书馆核心价值会受到我国社会主流价值的制约,我们需要判断国际上通行的图书馆核心价值是否为我国社会主流价值体系所认同。这就需要从国际上所有已经产生的图书馆核心价值中提取核心价值文本,并将其置入我国社会核心价值体系中进行考察。由于我国社会并没有形成“社会核心价值”,我们假定代表我国社会主流价值体系的文本,比如《人民日报》全文库或新华网,包含了我国社会的核心价值体系,而这类代表我国主流价值体系的文本必定是海量的、非结构化的,除非采用专门的方法与工具,否则无法发现这些文本中所包含的社会主流价值,也无法判断它们与图书馆核心价值的联系。
关键词:科技期刊;媒体融合;知识服务;精准传播
近年来,随着计算机技术的进步,科技期刊出版正在经历着前所未有的巨大变革。目前,信息技术已呈现出“人-机-物”三元融合的态势,数据分析工具和基于云计算的数据资源成为期刊出版的重要特征[1],期刊出版的数字化和集群化发展成为当下期刊发展的主流趋势,人工智能也将在学术期刊的出版、存取、质量评价等多个环节上得到广泛应用,并推动科技期刊出版方式的变革[2]。目前,在科技期刊界,学者们就如何促进科技期刊媒体融合发展开展了大量的研究,既包括理论层面的探讨,又包括从实践和案例的角度开展的应用研究[3-6]。与此同时,我们注意到,全球的科学产出以极快的速度增长,从第二次世界大战结束以来,全球的科学产出相当于每9年就会翻1番[7],读者也更容易被无用的信息轰炸,难以在期刊论文的海洋中高效准确地找到自己需要的内容,科技期刊要想扩大自身的影响力也愈来愈难。信息爆炸时代,科技期刊关注读者“需要什么”比“提供了什么”更重要。在智能技术变革的时展潮流中,科技期刊应如何顺应时展趋势,利用智能技术整合资源,更好地满足读者的需求,扩大期刊的影响力,创造科技期刊人、出版商、作者、读者的共赢局面?本文从以上问题切入,尝试从扩展学术搜索的路径、构建个性化的精准推送平台和多元化的传播模式、向用户提供有针对性的服务方面探索在媒体融合形势下如何提升科技期刊的精准传播能力,以期为我国科技期刊媒体融合建设增瓦添砖。
1借助人工智能,扩展学术搜索的路径
互联网时代改变了人们获取信息的方式,搜索引擎在促进科技期刊的传播、提高影响力等方面的功能逐渐凸显。虽然现有的一些搜索门户网站诸如Webofscience、PubMed、谷歌学术、各图书馆网站、中国知网、万方数据知识服务平台等搜索引擎可以帮助读者检索科技论文,但是仍不能满足用户多样化的检索需求。Tancheva等[8]针对康奈尔大学图书馆开展的一项调查研究发现受访者“往往既对搜索方法的效率感到满意,同时又对搜索的棘手和费力感到不满……当研究人员无法完成一个特定的搜索任务,他们很可能放弃现有的方法(或工具或技术),而不是找出如何使它工作”。为了解决这一问题,需要开发新的模式解决学术出版的过量负载,利用智能技术优化搜索引擎的现有功能。目前很多科技公司都在探索开发基于人工智能的学术搜索引擎和知识服务。例如Springer网络平台不断对其功能进行集成,并提供个性化服务功能;Elsevier等出版商为用户等提供搜索引擎培训课程;微软学术(MicrosoftAcademic)通过在实体之间建立有意义的关联,自动生成可视化的知识图谱,引导学者阅读[2];2014年,Wiley线上图书馆为用户提供了增强型HTML文章服务(AnywhereArticle),它将可读性、交互性和可移植性设为用户体验的核心,使读者能够在页面中快速找到最重要的信息[9]。一些关于科学出版的新模式和平台被相继开发,如Chorus[10]通过集成服务和开放APIs,优化了科技论文被搜索的路径,并为政府机构、出版商、研究人员、图书馆员和作者提供可持续的解决方案。目前我国已经形成一些专业的期刊集群,一部分学术期刊数据库平台也开始进行语义出版形式的探索,对科技期刊内容进行深度加工和挖掘。不同的科技期刊具有不同的特点,在学术期刊的数据库平台建设过程中需要平台开发团队与期刊编辑充分交流[11],发挥编辑的优势和主导作用,凸显本学科的学科特色。
2利用智能算法,构建个性化的精准推送平台
技术是科技期刊创新发展的重要推手,技术应用能力也成为科技期刊发展的竞争资源,充分利用技术强化科技期刊的知识服务和加工能力,创新出版和传播模式,满足数字化时代的读者需求,对于科技期刊的精准传播和融合发展非常重要。在人工智能背景下,可以借助于算法实现科技期刊出版的智能化。算法的设计程序与设计者的思维密不可分,设计者选择数据样本、赋予数据意义、设计模型与算法,拥有数据并设定算法的智能化平台具有很强的主导性[12],因此设计者需要尽可能考虑并消除算法偏见和利益冲突对精准传播带来的负面影响。日前,腾讯研究院和腾讯AILab联合的人工智能伦理报告指出“人工智能等新技术需要价值引导,做到可用、可靠、可知、可控”[13]。目前“智能算法+学术期刊”已成为创新趋势,学术期刊可构建信息数据基础环境,进一步完成动态精准信息推荐,最后以传受关系交互实现长期有效的黏性连接[14]。一方面可以通过算法整合资源,实现大量科技期刊的数字资源的聚合;另一方面可以通过算法分析用户的阅读兴趣、研究领域,基于用户的需求建立相关用户数据信息,从而进一步将数字资源和用户数据相匹配,实现科技期刊的智能化精准传播。如中国知网推出的“CNKI全球学术快报”整合全球文献和超星集团推出的“域出版”超星学习通学术平台[15],用户不仅可以在其App上进行文献检索、分版阅读、专题阅读等,还可以与作者进行互动交流。此外,还可以利用智能算法设计追踪用户的信息反馈,通过学术平台进一步增加用户的体验感,提升科技期刊的精准传播能力。
3创新知识加工,构建多元化的传播模式
在人工智能和融媒体时代,除了运用智能技术构建个性化的知识服务平台,科技期刊也需要充分发挥社交媒体的作用,通过加强期刊网站建设、建立App客户端、微信、微博等新媒体传播平台,可以根据各自领域的特点,对科技论文进行多次加工和编辑,构建个性化的传播方式。如论文编辑平台Kudos为作者提供了一种利用社交媒体使他们的论文更易下载和传播的工具,通过为作者已发表的文章创建介绍并添加简短的标题、易懂的摘要和补充内容,可以使他们的文章对读者更具吸引力[16],学术出版平台也可以通过建立二维码,为读者提供开放增值服务,使读者进一步了解论文的数据、图片等资料,实现与用户的精准对接。如中国煤炭行业知识服务平台为该平台上的每篇论文制作了二维码,用户阅读纸刊论文时,通过扫描其中的二维码可以免费下载PDF、HTML文件,此外读者还可以通过扫描二维码向作者提问或向责任编辑反馈意见[17]。目前,邮件推送也正在成为科技期刊提升精准传播能力的一个重要手段,国内一些期刊在这方面做了大胆的尝试。例如:《计算机工程》基于语义分析和智能分词等技术,设计了一套期刊内容精准推送系统,将读者—文章—标准关键词进行匹配,通过邮件为潜在读者推送与其研究方向相关的最新研究论文[18];《应用生态学报》通过运用大数据和数理统计方法,构建了科技期刊论文单篇推送客体指标体系,通过邮件对读者进行单篇精准推送,取得了较好的传播效果[19]。此外,利用音频、视频、科学可视化等多媒体技术可以在短时间内表达丰富的科学信息,增加科技论文的广泛传播。如虚拟现实/增强现实(VR/AR)为读者提供沉浸式的阅读环境,提升读者的体验感,从而吸引了更多读者的关注。中国科学技术大学王国燕博士及其团队开展的前沿科学可视化研究和设计,使科技论文通过图像的形式向读者展现,提高了科技论文的交流和传播,她通过对顶级科技期刊《Nature》《Science》《Cell》的一项实证研究发现,科技期刊封面故事和封面图像的使用可以提高论文的引用率[20]。《上海大学学报(自然科学版)》借助第三方AR展示平台实现了学术期刊的多模式AR融合出版,取得了很好的效果[21]。
4满足用户需求,提供有针对性的服务