[网络使用因子的缺陷及改进]遗传缺陷因子

发布时间:2020-03-07 来源: 历史回眸点击：

　　[摘要]网络使用因子反映桌一国家或网站的网页指向其他网页能力的分布情况，可用于测度某一国家或网站的链接分布特征。网络使用因子自诞生起就不可避免的存在一些缺陷，尤其是假设前提、数据获取和算法本身等方面。建议开发专业链接分析工具，构建链接分类体系，对不同类型的链接进行加权得到“加权出链数”，并据此计算“加权网络使用因子”。
　　[关键词]出链数　网络使用因子　链接分析工具　加权网络使用因子
　　[分类号]G353.1
　　
　　在图书情报领域，链接分析已成为学术研究热点，从最初的介绍性研究到越来越多的实证研究，其研究日益深入实际应用。在实证研究中，某些链接指标备受争议。链接分析计量指标大体可分为4类：①链接数量特征计量指标：总链接数、出链数；②链接分布特征计量指标：链接密度、页面平均链接数、网络使用因子；③网站影响力计量指标：入链数、网络影响因子、链接倾向；④网页重要性计量指标：Pagerank算法、HITS算法等。因为对链接的讨论往往只涉及大学网站的入链数，而较少涉及大学网站的出链数，导致与出链数密切相关的网络使用因子在应用广泛性、受关注度方面逊色于网络影响因子(Web Impact Factors，WIF)。本文对网络使用因子在链接分析中存在的缺陷进行探讨，并提出一些改进意见。
　　
　　1　网络使用因子简介
　　
　　1.1　网络使用因子的起源及概念
　　网络使用因子(Web Use Factors，WUF)是反映某一国家或网站的网页指向其他网页能力的分布情况的计量指标，可用来测度某一国家或网站的链接分布特征。长期以来，对链接的讨论只涉及大学网站的入链数，而没有涉及大学网站的出链数。直到2003年Thelwall M.省略WUF可根据有.con域名的链接网页来计算。对网络不同区域在计算上的限制，要求对不同类型网页如国内、国际、教育、商业网页进行比较。另外，解释顶级域名如．tom、edu、uk的计算结果时必须谨慎，因为不能只从表面解释顶级域名。例如，.省略域名，并且在现实中，.com域名包含了庞杂无章的各类信息；即使是.edu域名也不局限于美国的大学。
　　
　　1.2　网络使用因子的算法
　　出链数指从某个网页出发的链接总数量。某一国家或网站的出链数除以网页数、科研人员数或科研生产率便得到了网页平均出链数、科研人员平均出链数或科研生产率平均出链数，即WUF。如果一个国家的科研生产率数据很难获得，并且有理由相信该国的大学在研究能力上相似，或者因为商业搜索引擎和专业网络爬行工具覆盖范围的问题导致难以计算一个网站的网页数，则科研人员数就成为WUF的分母；但若科研人员数无法获得，仍要用网页数作分母。
　　综上所述，笔者用某一国家或网站的出链数作为分子，分别用该国家或网站的网页数、科研人员数和科研生产率作为分母，得出WUF的不同算法，即：
　　
　　1.3　网络使用因子的应用
　　其实，WUF在统计意义上的可信度并不比WIF低。WUF与平均科研生产率显著相关；科研生产率高的大学建立了更多出链，可能因为这些大学制作了数量更多、质量更高的网页。这与对入链原因的解释也是密切相关的。
　　WUF反映网站出链的平均量，通常WUF越高，说明网站利用其他网络信息资源的程度越高，该网站的信息数量和质量也就可能越高。某一网站可以通过WUF的计算知道该网站利用其他网络信息资源的能力高低，以及利用其它网络信息资源的迫切性，并促使该网站评估其网页对其它网页既往的链接中哪些是好的、需要继续链接的，哪些是差的、需要终止链接的以及需要寻找并链向哪些新的、优质的网页。虽然目前关于WUF应用的专门的研究还很少，但WUF与WIF等计量指标相结合，在网站建设和管理等方面有很大的应用前景。
　　
　　2　网络便用因子的缺陷
　　
　　2.1　假设前提方面存在的问题
　　对链接的分析是基于一定假设前提的，不同假设基础上的计量指标，其适用范围不同。为了证明WUF赖以存在的假设前提难以成立，我们先看WIF成立的假设前提。李江在《链接分析工具》中将WIF的假设前提总结为：(A1)从网页A指向网页B的链接是网页A对网页B的推荐或认可；(A2)所有链接都是等价的。该假设前提同样适用于WUF，因为网页A对网页B网页的出链就是网页B对网页A的入链。
　　先从链接分类的角度来考查第一条假设前提是否合理。Smith A.G.将链接分为两类：即实质性链接和非实质性链接，实质性链接可理解为代表“推荐或认可”，可用于WUF的计算，而非实质性链接因为不代表“推荐或认可”，不可用于计算WUF。文中，作者通过统计分析得出：所有链接中，实质性链接约占20％；链接到大学网站的链接中，实质性链接约占27％。Chu Heting将学术机构网站的入链分为4类：即服务、主页、研究、教学，其中前两类共占73％，后两类占27％，并且仅有教学类的入链才可用作学术机构的评估，能用于评价的人链不足27％。由此可见，尽管不同类型网站的链接类型不同和不同研究者从不同角度出发设立的分类体系迥异，但若把实质性链接的比例看成WUF有效性的比例，则网WIJF的有效性比例仅为27％左右。
　　第二条假设显然也是不合理的，因为非实质性链接对于WUF的计量是没有价值的，即便同为实质性链接，不同类型的实质性链接也不可能具有同等的价值。其实，在WUF被提出之前，与WIF几乎同时诞生的Pagerank算法在链接是否等价的问题上已提出更有说服力的表述：(B1)一个网页尽管没有被多次引用，但被一个重要网页引用，则这个网页很重要；(B2)一个网页的重要性被均匀的分布并传递到它所引用的网页。这个表述科学的多，但可惜的是，迄今为止，有关WUF的算法还没有引入类似于Pagerank算法的表述。
　　
　　
　　2.2　数据获取方面存在的问题
　　早期对出链数等指标进行统计时，主要以商业搜索引擎Google、Altavista、Alltheweb等为工具。及至商业搜索引擎的缺陷尽显且无法避免，某些学者择优使用某些商业搜索引擎；另一些学者则尝试使用自制的链接分析工具，但是自制链接分析工具也存在一定的缺陷。
　　2.2.1　商业搜索引擎的覆盖范围有限众所周知，动态性是网络与生俱来的特性，每时每刻都有成千上万的网页出现或消失，因此任何一个搜索引擎都不可能覆盖和采集到所有的网页。有数据显示(见表1)，各搜索引擎收录网页的范围各不相同，因而获得的链接数据也不同。据估计，现在搜索引擎覆盖网页的数量只占总数的20％左右。袁毅认为单个搜索引擎只能搜索到Web资源的16％，即使是几个搜索引擎结合，也只能搜索到整个Web的30％～40％。伯克利信息管理系统的一项统计结果表明，2006年人类产生了约1000万TB(不重复)数据，而搜索引擎覆盖率最新调查显示Google在2006年共组织了1085TB数据，可见，Google仅仅组织了其中的0.02％。
　　2.2.省略的网页数量和反向链接数量进行检索，发现，各搜索引擎所得出的结果相差很大，如表2所示：
　　
　　其次，即使是同一搜索引擎，在不同时间段其检索结果也有很大差异，通常，在高峰期的检索结果，其可信度通常要低一些。
　　再次，使用不同语法意义的检索表达式，其检索结果也不尽相同。对此，笔者在MltheWeb中进行了试验，检索结果如表3所示：
　　2.2.3　自制链接分析工具功能简单、使用范围狭窄面对商业搜索引擎无法避免的缺陷，部分学者尝试用自制链接分析工具取代商业搜索引擎或弥补其不足。其中较突出的有：Lei Cui等人参照引文分析法自制的“Checkweb”，用于分析链接状况，为统计链接数量作准备；Miekle Thelwall针对商业搜索引擎检索结果的不一致性自制的“WIF web crawler”，用于测度WIF；段宇锋自制的“Webstat”，用于链接分析的实证研究。但遗感的是，这些个人自制的链接分析工具因其专门性不可避免的具有功能简单，使用范围狭窄的缺陷。
　　
　　2.3　算法自身存在的问题
　　2.3.1　分子存在的缺陷WIF借鉴JW算法的同时，陷入了JIF算法无法回避的缺陷，即无视入链的质量差异，这也是WIF算法自身最大的缺陷。而WUF用出链数作分子，这与WIF很相近，因为网页A对网页B网页的出链就是网页B对网页A的人链；因此，也存在与WIF类似的缺陷，即无视出链的质量差异，这也是WUF在计量的准确性方面存在的最大问题。
　　2.3.2　分母存在的缺陷WUF算法的分母是该国家或网站的总网页数，但什么样的内容才能被当作一个网页并没有公认的标准，一篇论文可以被视为一个网页，该论文也可以被分为几个网页显示从而被看作几个网页。举个简单的例子，某篇在线电子文档向其它网站或网页发出100个链接，若这篇电子文档的内容全部包含在一个页面中，则其WUF为100，若其内容被分成100个页面显示，则其WUF仅为1。这表明WUF会因电子文档在Web上显示形式的不同而迥异。
　　2.3.3　整体存在的缺陷WUF不一定能反映网站真实的链接分布特征。假设有同样主题的两个网站：A和B。A网站有10个网页，并在一定时期内向其它网站或网页发出了10次链接，而B网站有100个网页，并在同一个时期内向其它网站或网页发出了100次链接，显然，它们的WUF是一样的，但这两个网站的链接分布特征是否一样呢?很明显，虽然两者的WUF一样，但B网站指向其它网站或网页的能力更大，不过是因为网站的高资源率和高链接率相互抵消导致计算出相同的WUF罢了。
　　事实上，WUF的缺陷还存在于网站的语言差异、学科背景差异、专业影响范围差异等方面。
　　
　　3　对网络使用因子的改进意见
　　
　　3.1　对假设前提的改进意见
　　针对“所有链接都是有实质意义的”、“所有链接都是等价的”两条假设前提，可以参考Pagerank算法在链接是否等价问题上的表述：(B1)一个网页尽管没有被多次引用，但被一个重要网页引用，则这个网页很重要；(B2)一个网页的重要性被均匀的分布并传递到它所引用的网页，即认为不是所有的链接都是有推荐或认可意义的，并且不同类型的链接是具有不同价值的。这就为在算法上对WUF的改进提供了理论依据。
　　
　　3.2　对数据获取的改进意见
　　尽管学者们试图利用自制链接分析工具弥补商业搜索引擎的缺陷，且自制链接分析工具针对性比较强，但由于它是个人制作用于专业研究，因而功能简单、适用范围狭窄。这样，WUF无论多科学、合理，都将因为没有有效的工具提供准确数据而难以得到广泛应用。因此，在链接分析研究中，很有必要开发专业链接分析工具，用来计算WUF等计量指标。该专业链接分析工具应以引文分析工具如CSSCI等为参照，兼顾覆盖率、性能稳定性、能有效识别链接类型的专业性等。
　　
　　3.3　对算法本身的改进意见
　　可以设立一套针对特定类型网站的链接分类体系，例如，可在一级类目上将所有链接分为“实质性链接”和“非实质性链接”，并在多次试检网站链接的过程中不断修订链接分类体系；在链接分类体系的基础上采用层次分析法，对不同的链接类型赋予不同的权重。据此，笔者尝试提出“加权出链数”，在将其用于计量WUF时得出“加权网络使用因子”。于是：
　　其中，分母也可以用该国家的科研生产率或科研人员数代替。
　　
　　4　结语
　　
　　WUF自诞生之初就不可避免的存在一些缺陷，尤其是在假设前提、数据获取和算法本身等方面问题较大，据此，建议开发专业的链接分析工具；构建链接分类体系并对不同类型的链接进行加权得到“加权出链数”，然后在此基础上计算“加权网络使用因子”。这是一项任重而道远的工作，我们已对此展开研究。即便如此，也不能保证计算出的WUF绝对准确，因此，最好综合使用包括WUF在内的多个链接指标进行网站评价、网络信息资源管理以及时下方兴的网站健康度检验等。

[网络使用因子的缺陷及改进]遗传缺陷因子

热点文章阅读