时间:2023-03-28 15:02:12
序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇信息计量学论文范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。
普赖斯(Derek de Solla Price)(1922-1983)被誉为“科学计量学之父”,其主要学术成就体现在如下几方面:发现了科学发展的指数规律;指出了论文间引证与被引证关系;创立了反映文献老化程度的普赖斯指数;提出了反映科学家生产率的普赖斯定律等。贝尔纳(J.D.Bernal)的《科学的社会功能》不仅为科学学,而且为科学计量学提供了基本的研究范式。受贝尔纳科学学思想的影响,作为科学史家,普赖斯开始系统运用定量方法对科学、技术、医学等进行历史、哲学、社会学、心理学、经济学、政治学、运筹学等等研究的先驱者之一。《巴比伦以来的科学》和《小科学,大科学》两部著作成为他的科学计量学成果的集大成之作,也是科学计量学的奠基之作。尤其是情报学家加菲尔德(Eugene Garfield)博士创立科学引文索引(SCI)后,普赖斯巧妙地借助这一工具,赋予科学计量学研究以新的生命活力。1965年,他借助SCI在《科学》杂志上发表了科学计量学重要论文《科学论文的网络结构》,为人们利用大规模数据绘制知识图谱做出了开拓性探索。在这篇论文中第一次界定了“研究前沿(Research front)”和“知识基础(Intellecture base)的内涵,使得利用科学引文数据探测和识别学科知识前沿和研究热点成为可能。正是在普赖斯科学计量学范式的强大影响下,使科学计量学研究在全世界得到快速发展,并形成了多个国际科学计量学研究重镇,如美国费城的德雷克赛尔大学、荷兰的莱顿大学、英国的苏塞克斯大学等。科学计量学理论、指标和方法的研究成果,也为宏观科技政策和各层次的科技管理提供重要的工具和手段。
普赖斯奖是为纪念普赖斯的学术成就于1984年设立的国际科学计量学和信息计量学界最高奖。该奖项每两年颁发一次,截至2011年,共有25位科学计量学家获此殊荣。这些学者都是在科学计量学领域做出杰出贡献的人,他们为推进科学计量学从“软科学”走向“硬科学”做出了卓越成就,为科学计量学的繁荣和发展增添了浓墨重彩的一笔。
2011年在南非举办的国际科学计量学和信息计量学大会17个主要会议主题中提出了“学术生涯(Academic careers)”这一值得关注的研究领域。这不仅是科学计量学学科自我总结和反思的需要,也是科学计量学逐步走向成熟的一个重要标志。系统梳理普赖斯奖获得者的学术思想和成就,对我国学者把握科学计量学发展的特点和发展方向不失为一个独特视角。基于此,我们考虑从科学计量学角度对这些获奖者的学术生涯逐一进行梳理,以便能从中挖掘若干有益的信息,并为丰富科学计量学的研究领域展现新的研究视角,为科学计量学史研究提供较为详实的信息。
2012年是普赖斯诞辰90周年,为纪念这位在科学史和科学的定量研究方面做出巨大贡献的学者,我们特编发四篇梳理普赖斯奖获得者学术成就的文章,以深切缅怀普赖斯的卓越思想。
摘 要:文章以CNKI所收录的文献为依据,利用文献计量方法,对我国中小学图
>> 我国中小学图书馆研究:基于文献计量学的统计分析 2006年―2015年我国中小学图书馆研究文献计量分析 基于共词分析的我国文献计量学研究主题分析 基于文献计量学的梨研究动态 档案管理体制研究的文献计量统计分析 基于文献计量学的我国化学学科半衰期分析 基于文献计量学的世界苹果研究态势分析 基于文献计量学的栀子研究领域全景分析 基于文献计量学的图书馆资源建设 我国中小学图书馆的发展现状与对策 我国中小学图书馆建设的问题与对策 统计分析法与文献计量法在档案学研究中的应用分析 《科技与经济》文献计量与研究热点统计分析 基于文献管理软件NoteExpress的文献计量学研究的探讨 基于文献计量学的我国心理学学科半衰期分析 基于文献计量学分析的我国酸枣研究现状 基于文献计量学的国内知识竞争力研究现状 基于文献计量学的管理学学科半衰期研究 基于文献计量学的无人驾驶汽车技术研究 浅谈我国中小学校图书馆员应具备的素质 常见问题解答 当前所在位置:l.
[2] 邱均平.信息计量学(二)第二讲 文献信息增长规律及应用[J].情报理论与实践,2000(2):153-157.
[3] 于斌斌.学校图书馆利用对中学生学业表现的影响研究[D].天津:南开大学,2012:7.
[4] 邱均平.信息计量学(三)第三讲 文献信息老化规律及应用[J].情报理论与实践,2000(3):237-240,192.
[5] 吕红,马海群.近8年我国信息构建论文的文献计量统计分析与评价[J].情报科学,2010(10):1526-1531.
[6] 邱均平.信息计量学(四)第四讲 文献信息离散分布规律[J].情报理论与实践,2000(4):315-320.
[7] 全浮.中学图书馆建设现状调查:以烟台市为例[D].烟台:鲁东大学,2013:3.
[8] 邱均平.信息计量学(五)第五讲 文献信息词频分布规律:齐普夫定律[J].情报理论与实践,2000(5):396-400.
[9] 杨海花.近5年我国中小学图书馆理论研究综述[J].图书馆学刊,2012(6):137-139.
2.1 数据来源
本研究选用的数据来源为中文社会科学引文索引(CSSCI)数据库,而没有选择中国知网(CNKI)数据库。主要原因如下:根据文献计量学研究规律,如果某学科的文献量呈逐年增长趋势,则表明该学科处于稳步发展阶段,其发展动向与研究成果的文献量密切相关。一个研究主题的发文量和很多因素有关,例如主题文献的易产性等。在某学科领域中,有些方面的主题比较容易产生出大量的学术论文,而有些领域则需要经过漫长的实验、实证即大区域和长时段的研究才有少量论文产出,因此对学科内各研究领域而言,文献发表的数量和质量不是“机会均等”的。此外,科研管理政策和学术氛围也会影响到文献量的增长,例如科研方法的规范性要求越高以及国际化接轨的程度越强都会影响到发文的数量。因此,科学计量学特别是共词分析等方法对文献集来源期刊的选择有一定规定,应该选择学科的核心期刊,特别是在一定范围内在本学科领域中具有相当影响的重要刊物。通常一种期刊的级别越高,其对论文的质量要求也越高,通过同行专家的评议和审核,能够有效确保文献内容有较高的新颖性和学术性,从而把那些产文量大、学术性不够强的文献排除在外,进而提高学科内各研究主题文献量“机会均等”的几率。在这样的条件下,发文量越大的主题越是学科中研究的热点。对于少部分高质低投的论文,可以通过一定时期内的文献共被引分析将其统计和反映出来。因此,本研究选用CSSCI来源期刊的文献作为研究的对象科学合理。值得说明的是,由于CSSCI数据库2008年才开始增加扩展版源刊,为保证数据统计的口径一致,加之该数据库不完整,所以本研究检索数据不含CSSCI扩展版来源期刊。2013年3月7日,选择检索时间跨度为1998~2012年,以检索条件:“(来源篇名(词)=品牌/名牌)或者(关键词=品牌/名牌)”进行检索,经过辨识、去重和补充,共获得有效文献5134篇。其中,2012年有344篇。
2.2 研究方法与主要应用软件
本研究将采取如下方法:文献研究与内容分析相结合的方法、实证分析与规范分析相结合的方法、动态分析与静态分析相结合的方法、定量分析与定性分析相结合的方法。其中,定量分析采取科学计量学理论与方法,即通过绘制科学知识图谱把复杂的学科知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,具体包括引文分析、共被引分析、共现分析、词频分析和社会网络分析(SNA)等研究方法,主要的应用软件包括CiteSpaceII、Bibexcel、UCINET、Netdraw和SPSS等分析软件。其中,CiteSpace II是美国德雷克赛尔大学美籍华人陈超美教授开发出来的一种知识可视化计量软件。CitespaceII是一个由Java语言编写的主要基于共被引分析与共现分析的引文网络与共词网络可视化软件。
高被引学者是指,学者写的论文被引用的次数很多,也就是常说的被引频次很高,就叫“高被引学者”。
文献计量学中测量论文的影响力或者质量的基本指标是论文的被引用次数,一名学者的影响力大小,可以根据其发表的所有论文获得的引用次数来设计指标测算。学者发表的论文被数据库收录后,其他研究学者可以通过检索来获取信息,引用这篇论文,这些被引用的文章叫做被引文献,被引文献的作者叫被引学者。
(来源:文章屋网 )
1 网络信息资源老化的原因及特征
1.1 网络信息资源老化的原因
网络信息资源的老化是指网络信息资源中情报的有效价值随着时间的流逝逐渐衰减,利用率逐步降低。这与传统文献的老化一样,是一种普遍存在的现象。造成网络信息资源老化的因素很多,我们大致可以将其归纳为以下几个方面:
(1)网络信息资源的增长。情报学家M.劳恩曾说过:“文献增长得越快,文献的半衰期就越短。”信息资源的增长和老化是同一事物的两个方面,它们从不同的角度反映信息资源的动态变化。众所周知,网络信息资源的增长速度极其惊人。以我国为例,据中国互联网络信息中心的统计,2002年12月31日,全国网页总数为157,091,220个,字节总数为2,877,754,095KB[1];2003年12月31日,全国网页总数为311,864,590个,字节总数为6,059,431,526KB[2];到2004年12月31日,全国网页总数就达到了650,682,300个,字节总数增长到20,537,214,718KB,与2003年相比,增幅分别为108.6%和238%[3]。
(2)网络信息资源的更新。网络信息资源的更新是指网络信息资源在载体形态、数据组织方式、网址等外在特征不变的情况下,所含知识和情报在内容上的变化。1998和1999年,Bar-Ilan和Peritz对信息计量学领域网络信息的生命周期研究表明,在6个月内近50%的网页发生了变化[4];而Wallace Koehler的观察结果更为显著,他发现97%的网站6个月内会发生变化,如观察时间为1年,则比例上升为99%。对于网页而言,这组数据分别为98.3%和99.1%[5]。应该指出的是,网络信息资源更新并没有引起网络信息资源总量的增长。
(3)网络信息资源的消失。网络信息资源的消失是指网络信息资源无论出于何种原因,被从系统中删除,不能再被访问和利用。文献[4]表明,68%的网页1年内将被从网上移除;而文献[5]发现,有12.2%的网站和20.5%的网页6个月后不能再被访问到。1年后,分别上升到17.7%和31.8%。并且,每周有0.5%的网页和网站消失。与网络信息资源的更新不同,网络信息资源的消失意味着网络信息资源总量的减少。
(4)替代性网络信息资源的出现。随着人类对客观事物和社会运动规律认识水平的提高,原有的知识不断被完善和突破。同时,由于技术的进步和社会信息需求的共同推动,网上信息的加工深度越来越大,原有的知识和情报被包含在新的知识和情报之中,因而,原来不完善、不全面的陈旧信息资源逐渐不再被利用。替代性网络信息资源的出现并不意味着原有信息资源的更新和消失,而表现为网络信息资源中,蕴含新知识和情报的信息的出现和信息总量的增长。
(5)网络信息资源的吸引力。网络信息资源的吸引力主要来自两个方面:一是网络信息资源所揭示和反映的对象所处的发展阶段。处于诞生和发展初期的事物,相关网络信息资源的数量往往呈指数增长,老化遵循负指数函数关系。进入成熟期后,信息的增长速率变小,老化曲线也变得平缓,半衰期加长。当对该事物的认识积累到一定程度,将出现质的飞跃,相关信息的增长进入新一轮的指数增长阶段,相应的,老化曲线也恢复成负指数曲线。二是网络信息资源的受关注程度。对于网络信息资源所揭示和反映的对象而言,受关注程度越高,往往意味着知识更新越快,半衰期越短,反之则越长。对于网络信息资源自身而言,其受关注程度遵循“Winner takes all”法则,受关注程度越高的网络信息资源半衰期越短,也就是说信息更新越快,质量和数量也稳步提升。
1.2 网络信息资源老化的特征
网络信息资源老化与传统文献资源老化既有相同之处,又有显著的差异,其独特之处主要表现在:
(1)非累积性。传统文献资源的重要特征之一就是其存在的永续性,即使这些载体上的知识和情报完全失去了使用价值,它也不会消失。原有信息的修正与更新、替代信息的生产以及新信息的产生必须依靠新的载体。因此,传统文献资源从数量上来说,总是不断增长的。而网络信息资源则不然。网络环境中的信息是介于产生后永续存在与即刻消失两种状态之间的第三类信息,它的更新和消亡是其存在和运动的常态。在网络环境下,新信息的出现并不一定意味着信息总量的增长,而且,相当一部分信息在丧失其使用价值之后会彻底消失,引起信息总量的减少,呈现负增长状态。所以,我们认为网络信息资源具有非累积性,这表明网络信息资源的老化研究往往只能基于特定时间点或时间段,难以系统地回溯其历史状态。
(2)动态性。动态性与非累积性是内在统一的。任何信息都是外在形态与所含内容的统一体。记录信息的载体和信息的组织方式是信息资源的外在形态,而内容,即其所蕴含的知识和情报才是核心。传统文献资源的外部形态和内容是不可分割的,因而必然具有累积性。而网络信息资源的外部形态和内容可以是相互独立的,因此,在网络信息资源载体的形态、信息组织方式、网址等保持不变的情况下,内容可以不断更新,甚至删除,这就体现为它的非累积性。众所周知,半衰期、普赖斯指数的测定都是依据特定领域文献资源的被利用情况,而网络信息资源的动态性使其老化规律的研究增加了新的内容,即对网络信息资源自身生命周期的研究。
(3)不完全性。传统文献,的生产和传播是受控的,由相关机构统一审核和管理。因此,在传统文献资源老化研究中,研究对象的范围一般相当清晰,在数量上也是可数的。而在网络信息资源的老化研究中,研究对象的不完全性却是无法回避的问题。导致该问题出现的原因主要来自两个方面:一是网络的开放性决定了网上信息的基本上处于不受控制的状态,因此,任何研究者都无法确知网络信息资源的精确构成和分布状况,在研究特定领域的网络信息资源时,也就不可能准确地划定研究对象的范围和数量。二是网络信息资源的非累积性和动态性造成了研究对象在时间维度上的缺失,因此,在研究中也就难以系统地回溯研究对象的历史状态。
2 衡量网络信息资源老化状况的指标
根据网络信息资源老化的原因及其特征,我们从网络信息资源自身的生命周期和网络信息资源被利用情况两个方面,建立衡量网络信息资源老化状况的指标。
2.1 网络信息资源的生命周期
网络信息资源的生命周期反映的是网络信息资源自身的老化状况,可以采用半衰期和生存期两项指标衡量。
2.1.1 半衰期
半衰期源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间。我们借用这一概念,将网络信息资源的半衰期定义为网络信息资源的基本构成元素有半数发生变化所需的时间。根据是否考虑网络信息资源的增量部分,网络信息资源的半衰期又可以分为静态半衰期和动态半衰期。
(1)静态半衰期。静态半衰期是指在不考虑增长的情况下,网络信息资源的基本构成元素有半数发生变化(含消失)的时间。例如,以网页为基本构成元素,考察网站A的静态半衰期。假设网站A有10000个网页,每个月有1000个不同的网页发生变化,并且有100个网页消失。根据上述定义,网站A的静态半衰期为10000÷2÷(1000+100)=4.55(月)或0.38(年)。
(2)动态半衰期。动态半衰期是在考虑增长的情况下,网络信息资源的基本构成元素中较新的一半产生于多长时间内。例如,在上例的基础上,假设网站A每个月新增500个网页。根据动态半衰期的定义,网站A的动态半衰期为10000÷[2×(1000+500)-(500-100)]=3.85(月)或0.32(年)。
当然,半衰期的计算在实际研究中情况会复杂得多。首先,网页不会匀速地发生变化、消失和增长;其次,一个网页可能连续多次发生变化,由于我们考察的基本元素是网页,因此只能将其计为一次;第三,在计算动态半衰期时必须认识到,新增网页也会发生变化;最后,出于研究的需要,我们可能会选择在信息组织上比网页粒度更细的单元作为基本构成元素,譬如知识单元、网络链接、单词等。
2.1.2 生存期
网络信息资源的生存期是指特定网络信息资源的URL存续时间。如同人的遗传密码一样,URL是区分不同网络信息资源的唯一标识,因此,我们认为URL是判定网络信息资源生存期最理想的依据。根据该定义,只要URL保持不变,无论内容如何变化,都视为同一个网络信息资源。在极端情况下,特定URL所对应的网络信息资源内容甚至可以为空反之,即使内容没有发生任何变化,只要URL被改动,我们就视为原信息资源“生命”的终结和新网络信息资源的诞生。当然,如果特定网络信息资源及其URL同时被删除,同样也意味着该网络信息资源生存期的终止。
2.2 网络信息资源的价值周期
网络信息资源的价值周期的计量依据是其被利用的状况,这与传统文献资源老化规律的研究思路基本相同。文献半衰期的研究可以分为学科文献的半衰期和论文的半衰期。学科文献的半衰期是指某学科(专业)现时尚在利用的全部文献中较新的一半是在多长一段时间内发表的;论文半衰期是指引用这篇论文的全部其他论文的二分之一是在这篇后的多长时间内发表的。需要强调的是,学科文献的半衰期是相对于被引文献而言,而论文的半衰期是相对于引用文献而言的[6]。与此相对应,我们仍然以“半衰期”为指标衡量网络信息资源的价值周期,并按研究对象分为宏观网络信息资源半衰期和微观网络信息资源半衰期。
(1)宏观网络信息资源半衰期。根据学科文献半衰期的概念,我们将宏观网络信息资源半衰期定义为某主题领域网络信息资源所含链接的链宿所指资源中较新的一半是在多长时间内产生的。例如,如果我们说网络信息计量学的网络信息资源半衰期是1.2年,就表明在我们进行统计研究的那一年里,在网上的网络信息计量学文献中的链接所指资源的50%是在最近1.2年内发表的。
宏观网络信息资源半衰期的研究是基于网络信息资源中的链接。由于网络信息资源中的链接与文献的被引文献是性质完全不同的两类事物,因此,在借鉴其研究思路的同时,我们应该注意自身的特殊性。笔者认为,最重要的几个需要解决的问题是:第一,必须明确链接的目的,也就是链源与链宿之间的关系;第二,当链宿的时间晚于链源所在网络信息资源的时间时应当如何计算;第三,是应该采用网络信息资源中所有的链接,还是只考察出链;第四,从理论上来说,我们需要获得该主题领域的所有网络信息资源,并提取其所含有的链接。由于网络信息资源的不完全性,研究结果可能与客观实际存在相当程度的差异。
(2)微观网络信息资源半衰期。参照论文半衰期的概念,微观网络信息资源半衰期是指指向该网络信息资源的全部其他网络信息资源的二分之一是在其后的多长时间内出现的。例如,网上某文档的半衰期是1.5年,就意味着该文档所获得入链的链源所在网络信息资源的50%出现于其后的1.5年内。
与宏观网络信息资源半衰期的研究相比,微观网络信息资源半衰期研究所面临的问题相对较少。根据上述定义,微观网络信息资源半衰期的研究不涉及自链,并且基本不会出现入链的链源所在资源的时间早于研究对象出现时间这样的情况。因此,需要考虑的问题中最主要的就是解决或尽量缩小网络信息资源的不完全性。尽管有研究表明,网络链接的使用动机与文献引用动机存在巨大差异,但笔者认为,无论处于何种动机,网络信息资源获得入链就意味着其使用价值的实现,我们在计量其半衰期时不必做过多的区分[7]。
3 网络信息资源老化研究展望
网络信息资源的老化研究与网络信息资源的增长、分布与利用研究共同构成了网络信息计量学研究的基本框架,对丰富与完善网络信息计量学的学科体系具有极高的理论价值。同时,网络信息资源老化研究的成果也是网络信息资源建设、管理和利用的依据,具有重要的现实意义。
目前,国内对网络信息资源的老化研究才刚刚起步,所见文献仅有2004年王宏鑫和邱均平在《情报理论与实践》第4期所发表的《关于网络信息老化研究的若干问题》一文[8]。因此,在现阶段应该借鉴文献计量学的研究成果,在充分认识网络信息资源与传统文献资源所存在差异的基础上,建立网络信息资源老化研究的理论与方法体系,为探索网络信息资源老化规律和实践应用奠定基础。
【参考文献】
1 2002年中国互联网络信息资源数量调查报告.cnnic.net.cn/html/Dir/2003/11/22/1393.htm
2 2003年中国互联网络信息资源数量调查报告.cnnic.net.cn/download/manual/report20030330.pdf
3 2004年中国互联网络信息资源数量调查报告.cnnic.net.cn/download/2005/2005041401.pdf
4 Bar-Ilan, Peritz B.C.The life span of a specific topic on the Web: the case of "informatrics" a quantitative analysis. Scientometrics. 1999, 46(3):371-382
5 Wallace Koehler. An Analysis of Web Page and Web Site Constancy and Permanence. Journal of the American Society for Information Science. 1999, 50(2).
6 邱均平编著.文献计量学.北京:科学技术文献出版社,1988.
7 Hak Joon Kim. Motivations for hyperlinking in scholarly electronic articles: A qualitative study. Journal of the American Society for Information Science. 2000,51(10)
KI为数据源,用CiteSpace Ⅱ的关键词聚类和突变词检测功能,客观全面分析了国内知识图
谱研究热点及相关学者?研究前沿及热点与前沿的演化,以揭示国内知识图谱研究进展?
〔关键词〕知识图谱;CiteSpace
Ⅱ;共词分析;研究热点;研究前沿;VOSviewer
DOI:10.3969/j
.issn.1008-0821.2014.01.019
〔中图分类号〕TP399;G202 〔文献标识码〕A 〔
文章编号〕1008-0821(2014)01-0084-05
Research Development of Mapp
ing Knowledge Domains in China
——Analysis Based on CiteSpace Ⅱ
Sun Yusheng Qiu Rongrong Deng Xing
(School of Management,Hubei University of Technology,Wuhan 430068,China)
〔Abstract〕”BZ〗With the CNKI as data source,this article made use of the keyword cluste
ring and burst detection function of CiteSpace Ⅱ,analyzed research hotspots and
related scholars,research frontier and the evolution between hotspots and front
iers objectively and comprehensively,in order to reveal the research development
of mapping knowledge domains in China.
〔Key words〕mapping knowledg
e domains;CiteSpace Ⅱ;co-word analysis;research hotspot;research frontier;VOSvi
ewer
作为一种可从宏观?中观?微观层面可视化揭示学科?领域?主题发展概貌的方法,知
识图谱可辅助学者多角度直观审视领域研究主体(含机构)及其合作?研究热点及前沿?研
究结构和现状?研究范畴等,其理论及应用研究逐渐成熟,成为科学计量?信息计量?文献
计量等领域新兴研究热点,发文量近年来成倍增长,呈J型曲线走势?
知识图谱根据构建方法分为传统计量图谱?三维构型图谱?多维尺度图谱?社会网络图谱?
自组织映射图谱?寻径网络图谱[1];所用工具包括引文分析软件HistCite?统计
分析软件SPSS?社会网络分析软件Pajek?Netdraw?Ucinet等;所用方法涉及词频分析?共
词分析?共被引分析?聚类分析?因子分析等;所研究主题经历算法?复杂网络分析?科学
动态性内容分析,并趋于融合;所应用范围不断扩大,根据研究性质分为学科研究(如管理
学?医学等)?主题研究(如政府绩效管理?创新研究等)和其他研究(如辽宁省高校自然
科学学科分布与合作网络)[2],根据实际应用分为科研领域?教育领域?社会问
题领域等[3];存在研究缺乏标准?方法不系统?深度不够?中文引文数据库不完
善?工具兼容中文文献不理想等[4]问题?
本文基于CiteSpace Ⅱ分析国内知识图谱研究热点?前沿及热点与前沿的演化,以揭示其研
究进展?
1 数据来源?研究框架?工具与方法
1.1 数据来源
中国知网(CNKI)相较其他中文数据库,文献数量最多,覆盖面最全,为确保来源数据的高
相关性及高质性,本文以CNKI的中国学术期刊网络出版总库?中国博士学位论文全文数据库
?中国优秀硕士学位论文全文数据库为数据源,以“知识图谱”为检索词,用主题方式进行
检索,共得到552篇文献(检索时间为2013年8月24日,发文截止日期为2012年12月31日)并
保存为refworks格式?此外,国内“知识图谱”最早出现在陈悦和刘则渊于2005年发表的《
悄然兴起的科学知识图谱》一文中?
1.2 研究框架
本文基于CiteSpace Ⅱ和共词分析法,用路径搜索算法精简生成作者和主题词共现网络,分
析研究热点及相关学者;用突变词检测算法探测突变词及其突变率,分析研究前沿;生成关
键词时区视图以分析研究热点与前沿的演化,最终揭示国内知识图谱研究进展?
1.3 研究工具与方法
1.3.1 CiteSpace Ⅱ简介
CiteSpace Ⅱ是陈超美博士开发的基于Java平台及共引网络理论[5],适用于多元
?分时?动态复杂网络分析的?支持ISI格式(可将部分其他格式转换为ISI格式)文献数据
导入的开源知识图谱软件?其以可视化图形展现并识别学科前沿及其演进路径?经典基础文
献,辅助用户挖掘?分析科学知识及其相互关系,并通过关键词聚类和突变词探测来确定领
域研究热点和趋势[6]?此外,还可进行作者合作?机构合作?关键词共现?作者
共被引?文献共被引等分析[7]?
1.3.2 研究方法
共词分析法最早由法国文献计量学家在20世纪70年代中后期提出,基本原理是统计一组词两
两出现在同一文献中的次数并基于此进行聚类,通过分析词所代表学科和主题结构深度剖析
当前研究热点[8]?
2 国内知识图谱研究现状分析
笔者用CiteSpace Ⅱ的数据格式转换工具转换并导入国内知识图谱文献数据,进行相应设置
后生成所需图谱:在“preferences”中选择“Chinese Encoding”选项;设置“Time Scal
ing”为1年;“Term Source”选择为Title(标题)?Abstract(摘要)?Descriptor(叙
词)?Identifiers(标识符);“Node Types”选择“Author”;阀值设置为Top 30;最
后点击“go”运行CiteSpace Ⅱ,生成通过不同颜色及大小反映各知识节点及其关联的作者
与主题词混合图谱,见图1?其中,方形节点表示热点术语,圆形节点表示作者;节点大小
表示出现次数;节点年轮颜色及厚度表示出现时段;紫红色外框节点是发生研究转向或引发
大量学者关注的关键节点;节点间连线颜色和粗细表示关联年代及关联度[9]?FL)〗
2.1 研究热点及代表作者分析
由图1可看出,该共现混合网络聚类效果不明显,呈星形结构,研究力量较分散,一方面,
作为研究方法,知识图谱实现方式?构建工具相对较多;另一方面,不同领域学者多用知识
图谱进行各自领域主题研究?紫色外框主题词节点“知识图谱”?“科学知识图谱”?“科
学计量学”?“研究热点”?“信息可视化”具有较高中心性及频次,为关键节点,其他主
题词节点星形分散在其周围?从与主题词共现的作者连线颜色看,大连理工大学刘则渊?候
海燕?候剑华?陈悦?许振亮等构成的合作团队最早开始该领域研究,其中紫色外框作者节
点刘泽渊?侯海燕?许振亮中心性较高,为核心作者?刘泽渊教授将知识图谱引入国内并创
建了WISE(网络——信息——科学——经济计量)实验室,其带领的研究团队(包括侯海燕
?陈悦?侯剑华等)开拓了国内知识计量学与科学知识图谱研究的新方向[4];南
京大学宗乾进?袁勤俭?沈洪洲等构成的合作团队近两年发文量较高,该团队利用其开发的
多功能数据处理软件POPCite处理所收集原始数据[8],用CiteSpace?VOSviewer
?Ucinet等工具构建信息管理?旅游?管理学?金融等学科知识图谱,发表了系列论文,为
知识图谱应用做出了重要贡献;其他学者合作关系不太明显?
研究热点是特定时段内数量较多且有内在联系的文献共同探讨的科学问题或内容,通常其频
次?中心性较高[10],国内知识图谱领域中心性及频次均较高的前16个热点术语
(频次均不小于23?中心性均不小于0.01)见表1?可看出:“知识图谱”词频?中心性
均最高,这与检索词为“知识图谱”有关;研究主题主要包括分析原理?研究内容?研究方
法?数据源及分析工具4方面?
表1 国内知识图谱研究热点术语的频次
2.1.1 分析原理
知识图谱定义的详略程度及侧重点各异,或注重结果展示(如可视化效果),或说明理论基
础(如应用数学?计算机科学?科学学?信息科学?统计学?图形学等),或强调研究方法
(如引文分析?共现分析?社会网络分析等),但其内涵较一致:揭示科学知识发展进程与
结构?进行知识发现,属科学计量学范畴[11]?“知识图谱”的出现为文献计量
发展奠定了新的里程碑,广泛用于各学科领域,是“科学计量学”?“科学计量”研究最前
沿,同时“可视化”?“信息可视化”技术使“可视化图谱”得以实现?图1中
“信息可视化”?“科学知识图谱”“科学计量学”?“知识地图”及刘则渊和陈悦形成的
蓝色多边形网络为国内知识图谱领域早期研究主题及相关学者,知识图谱源于科学计量学,
雏形是知识地图,其较知识地图更能揭示知识间联系及进化规律[12]?早期主要
研究概念?发展历程及定位等,以借鉴为主(翻译国外专著与文献),并结合实例展示其研
究方法与应用现状[13]?从与分析原理主题词共现的作者节点看,国内从事该方
面研究的主要有刘则渊?侯海燕?侯剑华?陈悦?杨中楷?葛莉?赵玉鹏?尹丽春?许振亮
?庞杰等?
2.1.2 研究内容
知识图谱涉及的研究主题较广泛且分散,主要研究具体领域的“研究热点”?“研究前沿”
等,从图1所示连线颜色可看出,其主要应用领域根据时间先后涉及“科学学”?“管理学
”?“情报学”?“竞争情报”?“体育科学”?“图书馆学”等?通过分析相关文献,笔
者认为该领域应用研究主要分为知识基础与知识构成,主流学派及代表人物,研究结构及演
化规律,研究热点?前沿及趋势,研究机构空间分布及学术合作五方面?具体体现为节
点“理论体系”?“学术群体”?“代表人物”,“研究进展”?“研究方向展望”?“前
沿领域”等?此外,还涉及“生物”?“人因工程”?“环境”?“信息”等主题研究?从
与研究内容主题词共现的作者节点看,国内从事该方面研究的主要有侯海燕?袁勤俭?宗乾
进?沈洪洲?李江波?杜维滨等?
2.1.3 研究方法
研究方法决定研究内容揭示的角度?结合图1?表1可得出知识图谱研究方法主要包括“共
词分析”?“社会网络分析”?“引文分析”?“聚类分析”及“共引分析(共被引分析)
”等?“共词分析”可进行主题分析,系统?全面?直观了解学科结构及发展状况,预测发
展趋势;“社会网络分析”旨在构建描述群体结构关系及行动者对群体或内部个体影响的关
系模型;“引文分析”可揭示高被引文献,减少数据分析量,简化研究;“聚类分析”根据
彼此相关度分类对象,使类内尽量相似?类间尽量相异,以揭示对象间关系,分析研究过程
;“共引分析(或共被引分析)”通过测度两个或多个分析元素被其他元素共引情形来量化
元素间关联度,进而刻画科学发展的动态过程?图1显示,“共被引分析”包括“文献共被
引”?“作者共被引”?“作品共被引”等;“共现分析”?“关键词共现分析”?“词频
分析”?“作者共引”?“文献共引”等研究方法频次及中心性均较低?此外,从与研究方
法主题词共现的作者节点看,国内从事该方面研究的主要有王琪?刘则渊?侯海燕?侯剑华
?卢章平?赵勇?赵玉鹏等?
2.1.4 数据源及分析工具
数据源选择对知识图谱构建至关重要,多以数据库或期刊为导向?由于CSSCI收录文献质量
较高且含有参考文献信息,国内具体领域研究状况分析多以“CSSCI”为数据源;同样,由
于“Web of Science”(ISIWeb的全称)引文数据库收录文献齐全且回溯时间久远,国外具
体领域研究状况分析多以“Web of Science”为数据源;此外,也有学者以具体领域“核心
期刊”为数据源进行期刊评价,为相关研究人员投稿?期刊自身发展提供参考?分析工具是
实现图谱应用研究的途径,目前多用CiteSpace?从与数据源及分析工具主题词相关的作者
节点看,国内从事该方面研究的主要有赵蓉英?汤建民?姜春林等?
2.2 研究前沿分析
本文通过CiteSpace Ⅱ的Kleinberg算法检测主题词词频变化率,获取知识图谱领域突变词
(出现频次在较短时间内突然增加或使用频次增长率明显提高的术语),以此确定研究前沿
及趋势[7],最终得到17个突变词,将其按突现率高低及其突变时间段列出,详见
表2?
2.2.1 注重计量?分析方法与可视化研究
计量分析?分析方法与可视化对知识图谱研究至关重要,“科学计量”?“知识计量”?“
信息计量”依次成为各阶段研究前沿,从知识计量及信息计量角度研究知识图谱成为新的发
展方向?“共引分析”?“作者共引图谱”?“代表人物”等是国内知识图谱2006-2009年
研究方法的趋势,“共词分析”则是2011-2012年研究方法的趋势?可视化技术的引入使传
统二维或三维图表?社会网络等形式的知识图谱表示过渡为“可视化图谱”,成为知识图谱
表示方法的发展趋势?学者关注的焦点?
2.2.2 应用领域以学科为主并逐步扩展
随着理论基础及构建工具的发展和成熟,知识图谱成为新研究方法并受到领域学者的广泛关
注与应用,体现为突变率较高的“科学学”?“管理学”?“创业型大学”?“ERP”?“
创业教育”等,结合突变时间可看出,知识图谱引入国内后迅速在学科领域得到应用,并逐
渐扩展到主题分析,其中创业教育是近两年国内知识图谱的主要研究主题?
2.2.3 研究主题以研究进展?前沿领域?作者关系为主
国内知识图谱研究通过“研究进展”整体把握研究主题?整体状况?核心内容;通过“前沿
领域”准确把握学科研究主题演化及最新动态,预测发展趋势;通过分析“代表人物”及所
涉及学术群体了解领域研究力量分布和合作关系,常用方法是“作者共引图谱”?
2.3 研究前沿与热点的演化
为更好展示研究热点与前沿的演化过程,本文用CiteSpace Ⅱ生成热点与前沿词汇的“Time
Zone”时区视图,见图2(隐藏了最大节点“知识图谱”,以更好展示演进状况)?其中,
节点及其大小表示热点术语及其出现次数,其他特征(如年轮?连线等)含义与图1相同?
分析图2?表2可大致得出国内知识图谱研究热点与前沿的演进过程及发展趋势:科学知识
图谱的引入与信息可视化密切相关,而要确保知识图谱的准确性和客观性,就必须采用科学
计量方法,两者均为知识图谱研究的核心,始终受关注;2006年主要研究知识图谱构建方法
,包括词频分析?引文分析?社会网络分析等,其中,共引分析?作者共引图谱?代表人物
等突变率较高,作者共引分析成为研究趋势;2007年开始研究知识图谱应用,主要集中在管
理学?科学学?创业型大学等领域;2008-2009年侧重研究方法?研究工具与数据来源?研
究前沿;2010年,随知识管理研究不断发展,知识计量成为知识图谱新研究思路,同时重视
可视化技术研究及应用;2011-2012年向综合应用方向发展,通过知识图谱方法全方位研究
学科领域进展,重点关注创业教育和共词分析法,信息计量成为新的发展方向?
3 结束语
本文用CiteSpace Ⅱ,从研究热点及其代表作者?研究前沿?研究热点与前沿的演化三方面
分析了国内知识图谱研究进展:研究热点集中在分析原理?研究内容?研究方法?数据源及分析工具四方面:分析原理侧重知识图谱概念解析?发展历程研究;研究内容
包括学科领域知识基础与知识构成,主流学派及代表人物,研究结构及演化规律,研究热点
?前沿及趋势,研究机构空间分布及学术合作等;研究方法多用共词分析?社会网络分析?
引文分析?聚类分析及共引分析(共被引分析);数据源多用CSSCI和Web of Science,分
析工具多用CiteSpace?研究前沿注重计量?分析方法与可视化研究;应用领域以学科为主
并逐步扩展;研究主题以研究进展?前沿领域?作者关系为主?研究热点及前沿演化过程为
:始终以信息可视化和科学计量为研究核心,2006年侧重构建方法研究,应用研究主要集中
在2007年和2010年,2008-2009年侧重构建方法?构建工具?数据来源研究,2011-2012年侧
重通过知识图谱全方位展现学科领域研究进展,创业教育和共词分析法?信息计量将成为知
识图谱新的研究趋势?
下一步,笔者将用Ucinet?VOSviewer?SPSS等工具,采用多种分析方法,进一步研究国内
外知识图谱研究进展,尤其是构建方法,为后续构建管理科学与工程学科知识图谱奠定基础
?
参考文献
[1]陈悦,刘则渊,陈劲,等.科学知识图谱的发展历程[J].科学学研究
,2008,26(3):449-460.
[2]魏瑞斌.国内知识图谱研究的可视化分析[J].图书情报工作,2011,55(8):126
-130.
[3]廖胜姣,肖仙桃.科学知识图谱应用研究概述[J].情报理论与实践,2009,32(1
):122-125.
[4]肖明,陈嘉勇,李国俊.基于CiteSpace研究科学知识图谱的可视化分析[J].图书
情报工作,2011,55(6):91-95.
[5]孙雨生,仇蓉蓉.基于知识图谱的国内网格门户进展研究[J].信息资源管理学报,
2013,(1):59-66.
[6]王霞.基于知识图谱的国际知识管理研究可视化分析[J].科技管理研究,2011,
(20):175-178.
[7]姜春林,刘盛博,丁.《中国科技期刊研究》研究热点及其演进知识图谱[J].中
国科技期刊研究,2008,19(6):954-958.
[8]宗乾进,沈洪洲.2009年我国图书馆学研究热点和知识来源谱系——南京大学知识图
谱研究组系列论文之一[J].图书馆杂志,2011,30(6):13-19.
[9]严若谷,周素红,闫小培.西方城市更新研究的知识图谱演化[J].人文地理,2011
,(6):83-88.
[10]姜阳阳.基于共词分析的组织变革知识图谱研究[D].大连:东北财经大学,2011
.
[11]赵丙军,王霞,司虎克.基于CiteSpace的国内知识图谱研究[J].图书情报工
作网刊,2012,(8):23-31.
[12]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149
-154.
1 网络信息资源老化的原因及特征
1.1 网络信息资源老化的原因
网络信息资源的老化是指网络信息资源中情报的有效价值随着时间的流逝逐渐衰减,利用率逐步降低。这与传统文献的老化一样,是一种普遍存在的现象。造成网络信息资源老化的因素很多,我们大致可以将其归纳为以下几个方面:
(1)网络信息资源的增长。情报学家M.劳恩曾说过:“文献增长得越快,文献的半衰期就越短。”信息资源的增长和老化是同一事物的两个方面,它们从不同的 角度反映信息资源的动态变化。众所周知,网络信息资源的增长速度极其惊人。以我国为例,据中国互联网络信息中心的统计,2002年12月31日,全国网页 总数为157,091,220个,字节总数为2,877,754,095KB[1];2003年12月31日,全国网页总数为311,864,590个, 字节总数为6,059,431,526KB[2];到2004年12月31日,全国网页总数就达到了650,682,300个,字节总数增长到 20,537,214,718KB,与2003年相比,增幅分别为108.6%和238%[3]。
(2)网络信息资源的更新。网络信息资源的更新是指网络信息资源在载体形态、数据组织方式、网址等外在特征不变的情况下,所含知识和情报在内容上的变化。 1998和1999年,Bar-Ilan和Peritz对信息计量学领域网络信息的生命周期研究表明,在6个月内近50%的网页发生了变化[4];而 Wallace Koehler的观察结果更为显著,他发现97%的网站6个月内会发生变化,如观察时间为1年,则比例上升为99%。对于网页而言,这组数据分别为 98.3%和99.1%[5]。应该指出的是,网络信息资源更新并没有引起网络信息资源总量的增长。
(3)网络信息资源的消失。网络信息资源的消失是指网络信息资源无论出于何种原因,被从系统中删除,不能再被访问和利用。文献[4]表明,68%的网页1 年内将被从网上移除;而文献[5]发现,有12.2%的网站和20.5%的网页6个月后不能再被访问到。1年后,分别上升到17.7%和31.8%。并 且,每周有0.5%的网页和网站消失。与网络信息资源的更新不同,网络信息资源的消失意味着网络信息资源总量的减少。
(4)替代性网络信息资源的出现。随着人类对客观事物和社会运动规律认识水平的提高,原有的知识不断被完善和突破。同时,由于技术的进步和社会信息需求的 共同推动,网上信息的加工深度越来越大,原有的知识和情报被包含在新的知识和情报之中,因而,原来不完善、不全面的陈旧信息资源逐渐不再被利用。替代性网 络信息资源的出现并不意味着原有信息资源的更新和消失,而表现为网络信息资源中,蕴含新知识和情报的信息的出现和信息总量的增长。
(5)网络信息资源的吸引力。网络信息资源的吸引力主要来自两个方面:一是网络信息资源所揭示和反映的对象所处的发展阶段。处于诞生和发展初期的事物,相 关网络信息资源的数量往往呈指数增长,老化遵循负指数函数关系。进入成熟期后,信息的增长速率变小,老化曲线也变得平缓,半衰期加长。当对该事物的认识积 累到一定程度,将出现质的飞跃,相关信息的增长进入新一轮的指数增长阶段,相应的,老化曲线也恢复成负指数曲线。二是网络信息资源的受关注程度。对于网络 信息资源所揭示和反映的对象而言,受关注程度越高,往往意味着知识更新越快,半衰期越短,反之则越长。对于网络信息资源自身而言,其受关注程度遵循 “Winner takes all”法则,受关注程度越高的网络信息资源半衰期越短,也就是说信息更新越快,质量和数量也稳步提升。
1.2 网络信息资源老化的特征
网络信息资源老化与传统文献资源老化既有相同之处,又有显著的差异,其独特之处主要表现在:
(1)非累积性。传统文献资源的重要特征之一就是其存在的永续性,即使这些载体上的知识和情报完全失去了使用价值,它也不会消失。原有信息的修正与更新、 替代信息的生产以及新信息的产生必须依靠新的载体。因此,传统文献资源从数量上来说,总是不断增长的。而网络信息资源则不然。网络环境中的信息是介于产生 后永续存在与即刻消失两种状态之间的第三类信息,它的更新和消亡是其存在和运动的常态。在网络环境下,新信息的出现并不一定意味着信息总量的增长,而且, 相当一部分信息在丧失其使用价值之后会彻底消失,引起信息总量的减少,呈现负增长状态。所以,我们认为网络信息资源具有非累积性,这表明网络信息资源的老 化研究往往只能基于特定时间点或时间段,难以系统地回溯其历史状态。
(2)动态性。动态性与非累积性是内在统一的。任何信息都是外在形态与所含内容的统一体。记录信息的载体和信息的组织方式是信息资源的外在形态,而内容, 即其所蕴含的知识和情报才是核心。传统文献资源的外部形态和内容是不可分割的,因而必然具有累积性。而网络信息资源的外部形态和内容可以是相互独立的,因 此,在网络信息资源载体的形态、信息组织方式、网址等保持不变的情况下,内容可以不断更新,甚至删除,这就体现为它的非累积性。众所周知,半衰期、普赖斯 指数的测定都是依据特定领域文献资源的被利用情况,而网络信息资源的动态性使其老化规律的研究增加了新的内容,即对网络信息资源自身生命周期的研究。
(3)不完全性。传统文献,的生产和传播是受控的,由相关机构统一审核和管理。因此,在传统文献资源老化研究中,研究对象的范围一般相当清晰,在数量上也 是可数的。而在网络信息资源的老化研究中,研究对象的不完全性却是无法回避的问题。导致该问题出现的原因主要来自两个方面:一是网络的开放性决定了网上信 息的基本上处于不受控制的状态,因此,任何研究者都无法确知网络信息资源的精确构成和分布状况,在研究特定领域的网络信息资源时,也就不可能准确地划 定研究对象的范围和数量。二是网络信息资源的非累积性和动态性造成了研究对象在时间维度上的缺失,因此,在研究中也就难以系统地回溯研究对象的历史状态。
2 衡量网络信息资源老化状况的指标
根据网络信息资源老化的原因及其特征,我们从网络信息资源自身的生命周期和网络信息资源被利用情况两个方面,建立衡量网络信息资源老化状况的指标。
2.1 网络信息资源的生命周期
网络信息资源的生命周期反映的是网络信息资源自身的老化状况,可以采用半衰期和生存期两项指标衡量。
2.1.1 半衰期
半衰期源于物理学领域,原指放射性元素的原子核有半数发生衰变所需的时间。我们借用这一概念,将网络信息资源的半衰期定义为网络信息资源的基本构成元素有 半数发生变化所需的时间。根据是否考虑网络信息资源的增量部分,网络信息资源的半衰期又可以分为静态半衰期和动态半衰期。
(1)静态半衰期。静态半衰期是指在不考虑增长的情况下,网络信息资源的基本构成元素有半数发生变化(含消失)的时间。例如,以网页为基本构成元素,考察 网站A的静态半衰期。假设网站A有10000个网页,每个月有1000个不同的网页发生变化,并且有100个网页消失。根据上述定义,网站A的静态半衰期 为10000÷2÷(1000+100)=4.55(月)或0.38(年)。
(2)动态半衰期。动态半衰期是在考虑增长的情况下,网络信息资源的基本构成元素中较新的一半产生于多长时间内。例如,在上例的基础上,假设网站A每个月 新增500个网页。根据动态半衰期的定义,网站A的动态半衰期为10000÷[2×(1000+500)-(500-100)]=3.85(月)或 0.32(年)。
当然,半衰期的计算在实际研究中情况会复杂得多。首先,网页不会匀速地发生变化、消失和增长;其次,一个网页可能连续多次发生变化,由于我们考察的基本元 素是网页,因此只能将其计为一次;第三,在计算动态半衰期时必须认识到,新增网页也会发生变化;最后,出于研究的需要,我们可能会选择在信息组织上比网页 粒度更细的单元作为基本构成元素,譬如知识单元、网络链接、单词等。
2.1.2 生存期
网络信息资源的生存期是指特定网络信息资源的URL存续时间。如同人的遗传密码一样,URL是区分不同网络信息资源的唯一标识,因此,我们认为URL是判 定网络信息资源生存期最理想的依据。根据该定义,只要URL保持不变,无论内容如何变化,都视为同一个网络信息资源。在极端情况下,特定URL所对应的网 络信息资源内容甚至可以为空反之,即使内容没有发生任何变化,只要URL被改动,我们就视为原信息资源“生命”的终结和新网络信息资源的诞生。当然,如果 特定网络信息资源及其URL同时被删除,同样也意味着该网络信息资源生存期的终止。
2.2 网络信息资源的价值周期
网络信息资源的价值周期的计量依据是其被利用的状况,这与传统文献资源老化规律的研究思路基本相同。文献半衰期的研究可以分为学科文献的半衰期和论文的半 衰期。学科文献的半衰期是指某学科(专业)现时尚在利用的全部文献中较新的一半是在多长一段时间内发表的;论文半衰期是指引用这篇论文的全部其他论文的二 分之一是在这篇后的多长时间内发表的。需要强调的是,学科文献的半衰期是相对于被引文献而言,而论文的半衰期是相对于引用文献而言的[6]。与此 相对应,我们仍然以“半衰期”为指标衡量网络信息资源的价值周期,并按研究对象分为宏观网络信息资源半衰期和微观网络信息资源半衰期。
(1)宏观网络信息资源半衰期。根据学科文献半衰期的概念,我们将宏观网络信息资源半衰期定义为某主题领域网络信息资源所含链接的链宿所指资源中较新的一 半是在多长时间内产生的。例如,如果我们说网络信息计量学的网络信息资源半衰期是1.2年,就表明在我们进行统计研究的那一年里,在网上的网络信息计 量学文献中的链接所指资源的50%是在最近1.2年内发表的。
宏观网络信息资源半衰期的研究是基于网络信息资源中的链接。由于网络信息资源中的链接与文献的被引文献是性质完全不同的两类事物,因此,在借鉴其研究思路 的同时,我们应该注意自身的特殊性。笔者认为,最重要的几个需要解决的问题是:第一,必须明确链接的目的,也就是链源与链宿之间的关系;第二,当链宿的发 布时间晚于链源所在网络信息资源的时间时应当如何计算;第三,是应该采用网络信息资源中所有的链接,还是只考察出链;第四,从理论上来说,我们需要获 得该主题领域的所有网络信息资源,并提取其所含有的链接。由于网络信息资源的不完全性,研究结果可能与客观实际存在相当程度的差异。
(2)微观网络信息资源半衰期。参照论文半衰期的概念,微观网络信息资源半衰期是指指向该网络信息资源的全部其他网络信息资源的二分之一是在其后的多 长时间内出现的。例如,网上某文档的半衰期是1.5年,就意味着该文档所获得入链的链源所在网络信息资源的50%出现于其后的1.5年内。
与宏观网络信息资源半衰期的研究相比,微观网络信息资源半衰期研究所面临的问题相对较少。根据上述定义,微观网络信息资源半衰期的研究不涉及自链,并且基 本不会出现入链的链源所在资源的时间早于研究对象出现时间这样的情况。因此,需要考虑的问题中最主要的就是解决或尽量缩小网络信息资源的不完全性。尽 管有研究表明,网络链接的使用动机与文献引用动机存在巨大差异,但笔者认为,无论处于何种动机,网络信息资源获得入链就意味着其使用价值的实现,我们在计 量其半衰期时不必做过多的区分[7]。
3 网络信息资源老化研究展望
网络信息资源的老化研究与网络信息资源的增长、分布与利用研究共同构成了网络信息计量学研究的基本框架,对丰富与完善网络信息计量学的学科体系具有极高的理论价值。同时,网络信息资源老化研究的成果也是网络信息资源建设、管理和利用的依据,具有重要的现实意义。
目前,国内对网络信息资源的老化研究才刚刚起步,所见文献仅有2004年王宏鑫和邱均平在《情报理论与实践》第4期所发表的《关于网络信息老化研究的若干 问题》一文[8]。因此,在现阶段应该借鉴文献计量学的研究成果,在充分认识网络信息资源与传统文献资源所存在差异的基础上,建立网络信息资源老化研究的 理论与方法体系,为探索网络信息资源老化规律和实践应用奠定基础。
【参考文献】
1 2002年中国互联网络信息资源数量调查报告.cnnic.net.cn/html/Dir/2003/11/22/1393.htm
2 2003年中国互联网络信息资源数量调查报告.cnnic.net.cn/download/manual/report20030330.pdf
3 2004年中国互联网络信息资源数量调查报告.cnnic.net.cn/download/2005/2005041401.pdf
4 Bar-Ilan, Peritz B.C.The life span of a specific topic on the Web: the case of "informatrics" a quantitative analysis. Scientometrics. 1999, 46(3):371-382
5 Wallace Koehler. An Analysis of Web Page and Web Site Constancy and Permanence. Journal of the American Society for Information Science. 1999, 50(2).
6 邱均平编著.文献计量学.北京:科学技术文献出版社,1988.