新世纪儿童医院新世纪信息计量学研究进展评述

发布时间:2020-03-07 来源: 感悟爱情点击：

　　[摘要]在简要回顾信息计量学产生与发展历史的基础上，分别从理论、方法／工具和应用实践3个方面对新世纪以来该领域取得的重要研究进展进行概括和评述，最后还对当前存在的问题与挑战给予简要分析。
　　[关键词]信息计量学网络计量学　文献计量学
　　[分类号]G350
　　
　　1　引言
　　
　　“信息计量学(Informetrie)”这一学科名称首次由德国学者O.Nacke在1979年提出，与之对应的英文术语“Informetrics”则最早见于1980年美国科学基金会公布的年度研究项目的标题中，并随后得到了国际文献联合会的认可。1984年，B.C.Brookes撰文提出要大力发展信息计量学，并就信息计量学的一些基本理论问题进行了较详细的论述。1987年，在第一届“文献计量学与信息检索理论”国际研讨会上，布鲁克斯又提议将术语“Informetrics”补充到第二届会议的名称中去，得到了与会学者的普遍赞同，自此每两年举办一届的国际学术会议及其出版的会议论文集都在名称中使用了“信息计量学”。1995年起，会议名称被正式确定为“科学计量学与信息计量学国际会议”，由“国际科学计量学和信息计量学学会”(ISSI)负责主办。1997年，T.C.Almind和P.Ingwersen首次提出用“Webometrics”一词来描述将传统文献与信息计量学方法应用于WWW信息计量研究，使信息计量学的研究活动拓展到了网络空间。2007年1月，由L.Egg―he担任主编的《Journal of Informetrics》创刊，为新世纪更趋繁荣的学术研究提供了独立和更加专业化的国际学术交流平台。
　　从1979年学科名词的提出，到1987年成为国际学术会议的主题、奠定自身的学科地位，再到1997年“Webometrics”的出现，信息计量学终于从早期对文献计量学和科学计量学的依赖、继承与交流中获得了长足的进步，并在21世纪的网络化环境中开辟出更为广阔的学科发展空间。本文试图对新世纪以来信息计量学的研究活动进行较为全面的概括和评述，但限于篇幅，重点讨论的内容主要包括信息计量学在理论、方法和应用方面取得的重要研究进展，以及当前所面临的问题与挑战。
　　
　　2　理论研究进展
　　
　　2.1网络信息计量学研究的全面推进
　　自1997年“Webometrics”被提出后，基于Web的网络信息计量问题即广受关注。根据作者对中国期刊网全文数据库(2000―2008年)的文献调查，在以“信息计量学”为标题关键词的检索结果中，超过90％的中文文献都是关于网络信息计量的内容。而在2007年4月对Web of Science数据库进行的国外文献调研中发现，网络信息计量主题的核心文献数量呈现逐年激增趋势，其中高品质的学术文献约占18.5％，被同行引用的次数普遍超过了30次。可以说，网络信息计量领域的确立及各项研究活动的全面推进，已成为新世纪以来信息计量学理论研究取得的一个最令人瞩目的重要成就。
　　目前，大量的网络信息计量研究活动又以“网络链接分析”为中心议题。由于网络链接与传统学术期刊文献之间的引用关系具有某种天然的相似性，研究人员不仅将文献计量学的引文分析思想广泛移植、应用到了网络信息计量研究中，而且赋予了相应的研究工作和成果以极其鲜明的引文分析“烙印”。这种“烙印”从以下网络计量指标的设计和使用上即可得到充分的印证，例如“Sitation”、“Web Impact Factor”、“Webcoupling”、“Co-citation”、“Co-link”、“Co-authorship”、“Self-linking”、“Self-linked”等。另外，在具体的研究成果方面，例如网络链接分析与引文分析的异同、网络链接的目的与类型、网络影响因子的定义与应用、核心网站测定等，也都表现出了与传统引文分析的紧密映射关系。
　　除借用引文分析法外，近年来网络链接分析开始采用另一种重要研究方法――来自社会学的社会网络分析(SNA)，并在具体应用中取得了一定进展。
　　随着研究活动的深入，Web环境下更多更具挑战性的信息计量问题正在不断被提出，并赋予信息计量学新的研究使命。例如，(具商业价值的)网络流量分析及其软件工具的研制；各种网络用户行为(例如浏览、查询、下载、标注、订阅等)的跟踪、计量与分析；虚拟社区(包括成员角色、社区结构、主题／话题及其态度／倾向性等)的发展、监测和演变趋势分析；网络空间的知识结构及相关站点群落的识别等。面对这些问题与挑战，信息计量学的研究内容将更具交叉性和丰富性。
　　
　　2.2“信息基本循环图式”的构建及对信息计量学理论基础的探讨
　　1967年，布鲁克斯曾将情报学的研究任务抽象为如下的基本知识方程：K[S]+△I=K[S+△S]。2005年，国内学者王宏鑫基于该知识方程，提出“信息基本循环图式”的构建：
　　
　　图式中各元素含义分别是：W表示人们认识和改造的对象；K’[S]表示社会／他人的主观／客观的知识结构；K[S]表示个人／团体的知识结构；△I表示个人／团体从社会实践活动中得到的信息；而K[S+△S]则表示吸收△I后形成的新的知识结构；“+”表示作用与联系。
　　这一“信息基本循环图式”的提出，不仅具有较为完善的哲学基础和情报学理论基础，而且为研究人员对信息计量学逻辑起点的认知与理解以及规范、定义、预测信息计量学的研究内容、研究方法、发展方向、学科增长点等提供了较为有效的观察视角。此外，该信息基本循环图式对于形成信息计量学更加多元化的研究范式也很具启发性。例如，可据此分别从传播学、认知科学、经济学、决策学等不同视角展开相应的研究工作。
　　
　　3　研究方法／工具的集成与创新
　　
　　在长期的发展过程中，信息计量学逐渐建立了三大核心研究方法：指标计量法、引文分析法和数学模型法。其中，指标计量法简单实用，通过统计某一项或多项指标的数量(累积)值，经数学处理后即可得出不同指标值的关系或指标值的频率、时间等分布规律；引文分析法形成于20世纪50年代，它通过对科学文献之间存在的引用与被引用现象的分析来揭示文献集合的数量特征和内在规律，是信息计量学独有的高效研究方法；而数学模型法则是现代科学的核心方法，并成为研究各种复杂系统和社会问题的关键性方法。在信息计量学中，对“布－齐－洛分布”问题已基于数学模型法取得了一系列重要研究成果，包括：西蒙的斜分布函数组(1955年)；普赖斯的累积优势分布(1976年)；布鲁克斯的混合泊松模型(1977年)；西切尔的通用逆高斯-泊松分布模型(1982年)；巴瑞尔的贝塔－负二项分布(1988年)；布克斯坦的经验负幂分布(1990年) 等。它们对于完善信息计量学的理论基础，有效解释、预测文献流、信息流的变化及相关现象均具有重要的理论意义。
　　进入新世纪以来，信息计量学在研究方法和研究工具方面不断取得新的进展，以下主要从4个方面进行说明。
　　
　　3.1对传统研究方法的综合与集成
　　不可否认，每一种研究方法都有自身的优缺点。以引文分析法为例，由于文献引用具有一定的滞后性，通过文献之间的共引关系来研究、分析学科发展的前沿与热点问题时，结果很可能会有所遗漏；而随着作者合著现象的日益普及，只针对第一作者进行作者共引分析，研究结论的失真程度也将会日益严重。因此，在近期所进行的文献引文分析研究中，研究人员已越来越多地考虑将多种不同的引文分析方法加以综合利用，例如把共引分析和文献耦合分析、共词聚类、词频统计等方法结合起来；或者同时运用第一作者共引分析和全作者共引分析等。
　　由于不同方法之间的较强互补性以及不同方法形成结果的可比较性，多种方法的综合运用和集成可以得到更准确可靠的研究结果。调查发现，国内外近年来进行的引文分析研究中，基于不同引文分析指标、集成多种不同引文分析方法的文献占据了大多数，引文分析已进入了一个具有更大规模和复杂性的研究阶段。
　　
　　3.2社会网络分析方法的引进
　　社会网络分析(SNA)是20世纪70年代以来在社会学、心理学、人类学、数学、通信科学等领域逐步发展起来的一个新的研究分支。作为一种新的方法论和研究范式，SNA主要使用社群图、矩阵等形式化表达工具和所定义的中心性、权力指数、聚类簇／派系、网络结构、社会角色等基本概念(或指标)，从整体网络分析、自我中心网络分析等不同方向开展研究工作。
　　目前，信息计量学研究对SNA方法的引进和应用，主要表现在对Web环境下较大范围内的网站超链接的分析与计算上，并与基于传统引文分析法建立起来的网络链接分析研究模式形成一种对照和互补。概括起来，基于SNA方法开展的主要研究活动有：基于网站之问的超链接分析，识别社会系统之间的各种联系；基于政府组织、非政府组织和私人公司之间网站的超链接网络分析，发现组织间联合的意向；对某一特殊专题不同类型网站之间的超链接追溯，用以理解问题解决过程、辨别社会热点问题等；基于网站主页内容、链接结构和E-mail成员列表等，预测社会成员之间的联系等。
　　SNA方法通常涉及大范围内社群网络结构的分析问题，指标计算和数据处理比较复杂，不过相应的软件工具开发已取得了很多成果。以下是几个较为重要的社会网络分析软件：Pajek、Ucinet、NEGOPY、Sociometryplus、Socio Metrica Suite。它们可在SPSS、SAS等统计分析软件功能之外提供更多的专项分析功能。例如，Ucinet软件能够读取多种不同形式的数据，可处理32767个网络节点，同时还能计算各种SNA测度指标值，并能进行凝聚子群和核心一边缘结构分析等。
　　
　　3.3可视化工具的广泛应用
　　在早期的信息计量学研究工作中，研究人员为了把经过繁杂数据处理后得到的计量分析结果，进行直观和形象的展示比较重视各种可视化方法(或手段)的运用。MDS散点图、基于等级聚类的树状图、雷达图、切诺夫脸(Chernoff-face)等，都是一些比较常见的可视化展示方法。1997年，T.Braun等人就利用一个4维的切诺夫脸，把多维空间的科学计量指标数据(活动指数、吸引指数、平均期望引文率、相对引文率等)用一个由计算机绘制的卡通脸的面部特征表示出来，成功地完成了对1990―1994年间世界科学发展状况的分析和说明。
　　各种可视化方法(或工具)充分利用了人类对可视模式快速识别的自然能力，可将人类对信息阅读、判别和理解等认知负担转变为简单、直观的视觉感知，对于科学研究工作的重要性日益凸显。特别是近年来由于问题研究规模和复杂性的日益增长，在对研究结论和成果进行展示、说明时，普遍存在着对各种可视化工具的迫切需求。
　　当前，各种功能丰富的可视化工具在信息计量学研究中已得到广泛使用，并渐成趋势。如Pathfinder、CiteSpace Ⅱ、HistCiteTM、VxInsight等以及Pajek和Uci―net的使用都是比较流行的。
　　
　　3.4网络引文分析工具的研制
　　根据国内学者以Web of Science(WOS)和Google　Scholar作为引文分析工具进行的实证研究和结果对照，未来的引文分析研究再单纯依赖传统的WOS等工具，将越来越难以获得全面、真实的引文数据，并会导致引文分析结果产生日益严重的偏差。为此，各种新型的网络化引文索引工具的编制逐渐被提上了议事日程，以适应e-Science时代引文分析的研究需求。
　　1998年，第一个网络引文索引CiteSeer开始研制，并于1999年正式投入使用。作为一个主要面向计算机和信息科学领域学术资源的网络引文索引与检索工具，CiteSeer主要基于自动引文索引(ACI)技术编制而成。2004年，Google Scholar也在学术搜索服务中成功引入引文分析方法，并提供功能完善的引文链接服务。同年，全球最大规模的文摘和引文数据库服务系统Elservier’s Scopus正式推出，它涵盖了由4000余家出版商出版发行的科技、医学和社会科学方面的15100多种期刊资源，并基于文献计量学原理开发、整合了丰富的学术计量评价功能，可广泛服务于科研人员、图书馆员、编辑和审稿人、学术机构管理者等。
　　伴随着CiteSeer、Scopus等新型引文分析工具的出现，2004年以来，比较它们和传统WOS工具之间异同的各类研究活动十分踊跃，而目前多数的研究结论是：它们要完全取代WOS或者作为一种权威性的引文分析工具来使用，都面临着一定的困难或障碍，例如：收录范围的不明确；覆盖的学术资源领域受限；回溯年代较短；各学科开放获取运动发展的不平衡；ACI技术与网络搜索技术的缺陷等。
　　
　　4　主要应用实践及进展
　　
　　信息计量学的传统应用领域主要涉及文献管理、学科发展分析与评价、科研管理等，而近年来取得的应用进展则大量集中于网络环境，以下选取几个较有影响的网络应用予以说明。
　　
　　4.1网络流量分析
　　随着网络发展及其对社会生活的全面渗透，商业网站为扩大自身影响力，吸引更多网络广告客户和电子商务客户，都非常注意对自身网站访问流量进行计量和宣传。早期，网站通常采用自行统计、发布网络流量分析报告的方式，但由于日志文件数据比较容易篡改，广告客户常常对网站提供的流量数据心存疑虑。另外，各网站在流量分析过程中所采用的标准、计量指标和工具等的不同，也使得各网站的流量统计结果之间缺乏可比性。为此，制定网络流量分析的行业标准和报告规范，并由此提供第三方流量认证服务，成为随后网络流量分析的发展主流。
　　目前，市场上专门提供对网站流量和日志数据计量分析的相关软件以及流量认证服务的提供商越来越多，如WebTrends Log Analyzer、FlashStats、AcessWatch、OneStatPro和BPA International、Nielsen//NetRatings等。商业化软件和第三方流量认证服务的推出有效促进并形成了信息计量学的一个网络化新兴应用领域。
　　
　　4.2核心网站评测
　　对“核心”问题的研究始终得到信息计量学的高度关注，例如早期对学术期刊、文献作者、词频等分布的集中与离散现象的研究以及由此建立起来的一系列经典定律。进入21世纪以来，对“核心”问题的研究仍在继续，其中尤以核心网站评测最具代表性。
　　核心网站评测主要由核心期刊评选活动引发而来。除了全面分析和比较核心期刊与核心网站评选方法的异同外，如何建立合理的核心网站评选程序进而形成关于核心网站评选的理论与方法体系更为重要。2005年，国内学者袁毅经过系统、深入的研究，提出了“发现、过滤、评价、扩展和更新”的核心网站评选基本流程，并对该流程进行了实证研究和分析，初步验证了其合理性和有效性。
　　
　　4.3 网络标签分布的计量分析
　　网络自由分类法出现于2004年，而大量使用则在2005年以后。基于自由分类法原理提供Web2.0服务的众多新兴网站中用户标签的使用及数量、频率等分布状况逐渐成为网络信息计量研究的一个热点领域。
　　目前，网络标签计量分析研究主要以Del.icio.us、Flickr、Connotea、CiteUlike、Bibsonomy等网站作为实例，从中抽取一定时间范围内的标签样本数据，利用统计描述、聚类、共词分析等方法进行计量分析，试图揭示、说明自由分类法及其网络协作标注系统的运行机制、用户标注行为规律及行为模式以及互联网环境下新兴的长尾分布现象等。已实施的网络标签计量分析研究主要有：①标签、用户、资源三者之间的关联分析；②各种标签的频率和比例分布分析(包括高频标签与低频标签、规范词与非规范词、拼写变化等)；③标签共现分析；④标签词语集合的规模及增长变化；⑤基于标签的用户标注行为和用户相似性分析等。
　　
　　5　面临的问题与挑战
　　
　　5.1基本概念缺乏清晰定义，研究内容庞杂，学科边界模糊
　　信息计量学的基本计量分析对象应是“信息”，但由于“信息”概念的难以定义，时至今日，实际研究工作中大都是以各种各样的信息“替身”为计量对象的。另外，信息(尤其是数字信息)所具备的一些特性，例如无穷性、载体依附性、易复制易传播性、脆弱性等，也为计量分析带来更多的困难。
　　“信息基本循环图式”对信息计量学理论基础的建立虽然有所贡献，但也存在着明显的缺陷，例如对信息计量与知识计量的关系、各组成要素之间具体的联系与作用方式(即“+”)等都缺乏明确的定义和说明。此外，基于基本循环图式而形成的众多不同的研究范式，也会导致信息计量学研究内容的日益庞杂，并使学科边界相对模糊。如果多元研究范式长期并存不能形成主流(或核心)的研究体系，则有可能使学科研究主题进一步出现被模糊或被淡化的危险。
　　
　　5.2研究方法有待继续创新，专用研究工具比较缺乏
　　虽然目前信息计量学在研究方法、工具和指标设计等方面已取得不少进展，研究视野得到拓展，但对传统方法的依赖依然较为严重，尤其是在新兴的网络链接分析方面，引文分析的“烙印”十分明显，而针对网络特性所进行的创新和改进远远不如继承的成分更多。继承之上如何超越正成为信息计量学急需解决的一个方法论难题。
　　研究工具方面，不论是网络抽样、原始数据下载还是网络链接解析与统计，都还缺乏较为有效的专用工具，很多情况下只能依靠搜索引擎来获取样本数据，由此造成研究中存在种种偏差。
　　
　　5.3应用研究活跃，但影响力和应用效果都比较局限
　　与信息计量学研究中存在的理论基础薄弱、方法／工具创新不足形成鲜明对照的是当前各种应用研究活动十分活跃。不过，大部分的应用活动不仅研究方法简单，而且应用效果不确定，难以形成较强的示范效应或者对理论基础和研究方法的完善形成有益的促进。而影响力较大的少数研究活动则仍较多局限于教育、科研等学术性领域，这与网络对当今社会的全方位影响、渗透相比，研究思路还显得过于狭窄。
　　
　　6　结语
　　
　　新世纪以来，信息计量学获得了较为快速的发展和进步。基于篇幅限制和作者个人的选择取舍，本文对信息计量学经典定律、引文分析、h指数等方面的研究进展基本没有涉及。为此，最后推荐数篇优秀的综述性论文[29―31]作为本文的补充，它们分别对1990年－1999年、2000年－2006年间的信息计量学和网络信息计量学研究给予了颇具价值性的概括和分析。

新世纪儿童医院 新世纪信息计量学研究进展评述

热点文章阅读

新世纪儿童医院新世纪信息计量学研究进展评述