Scorpion自动标引思想初探|思想初探

发布时间:2020-03-07 来源: 幽默笑话 点击:

  [摘要]介绍OCLC的Scorpion项目在运用杜威十进分类法探索电子资源自动标引和编目方面所做的主要研究工作,并对杜威法作为自动主题识别工具的可行性进行验证;接着建立Scorpion杜威数据库实验并对其进行结果评价和结果集改进,分析Scorpion的核心思想和技术,最后简单评价scorpion所取得的成绩以及在自动标引上取得的新进展。
  [关键词]Scorpion 自动标引 杜威十进分类法
  [分类号]G250.73
  
  Scorpion是OCLC运用图书馆学和计算机信息检索技术建立自动主题标引工具的一个研究项目,目前已创建了一些自动主题标引工具,其在探索中运用的一些思想对于研究网络资源的自动标引和编目具有较大借鉴意义。笔者系统地搜集了Scorpion项目资料,并对其研究内容进行了具体分析,希望有助于进一步研究自动标引和网络信息资源组织与编目。
  
  1 Scorpion概述
  
  在计算机网络技术迅速发展的背景下,电子网络资源日益增多,终端用户很难查询到所需的精确信息。在此背景下,OCLC启动了探索电子资源自动标引和编目的研究项目Scorpion,其研究的重点在于建立一个基于杜威十进分类法的自动主题识别工具。Scorpion的简单处理流程包括如下步骤(见图1):首先,确定一组要包含在杜威等级检索数据库中的ESS记录,并从这些记录中选取一些字段来建立数据库;其次,将要标引的电子资源转换成相应数据库的检索提问,并在Scorpion杜威数据库中进行检索,输出的结果集即可看作该资源潜在的标引主题词。尽管Scorpion最初的一些思想是容易被证明的,Scorpion研究人员仍花费了大量时间来精炼分级检索数据库,并且在输入数据的预处理和输出结果集的后处理上做了大量的工作。目前,对结果集的后处理已成为Scorpion关注的焦点。 综观Scorpion目前的研究,主要有如下几方面:①Scorpion杜威等级数据库的建立。在这一工作中,Scorpion研究人员分别探讨了Scorpion与杜威十进分类法的关系以及Scorpion杜威实验数据库结果的检验、评价和改进,其中使用了截词算法和SMART的几种得分算法,尤其重要的是引入杜威法上下位类等级关系,提高了自动标引的质量。②Scorpion实验结果集的改进及其质量评价。在这一研究中,Scorpion研究人员运用对比杜威号码集和Scorpion结果集的方法,并在结果集的改进中提出了几种过滤方法。③其余相关研究,如Scorpion与自动聚类的关系等。
  
  2 建立Scorpion杜威、实验数据库过程中的研究
  
  OCLC发起Scorpion项目之目的在于以合理的成本费用将等级分类法和主题标题法应用于电子信息资源的组织与检索,因而其论题之一即杜威十进分类法能否用于对电子信息资源进行自动主题分类。由于杜威法目前是由OCLC森林出版社使用编辑支持系统(Editori―al support system,简称ESS)以电子方式在线进行维护的,ESS系统相应的记录可用来制作杜威十进分类法最近的印刷版本,因而Scorpion隐含的思想之一即使用ESS记录来建立自动标引文献主题的等级检索数据库,然后把某一文献看作这些数据库的检索提问,检索的结果即作为该文献可能的主题标引词集合。
  
  2.1建立实验数据库的基本方法和思想
  由于任何分类工具都希望其依据的知识基础立类完整,每一个主题概念明确无歧义。因而在建立杜威数据库的过程中,Scorpion研究人员首先对杜威法是否可作为自动主题分类工具进行了验证。具体做法即根据ESS记录中描述的概念建成数个数据库,然后将每一概念都转换成针对相应数据库的检索请求,让分级检索软件确定数据库中与输入概念最为匹配的概念。
  
  
  
  
  研究人员选用了SMARTll,O版(System for Ma-nipulating and Retrieving Text)作为实验数据库平台,并选取了SMART的两种得分算法ATN和ATC,这两种算法是以同样的方法来确定术语权重的,区别在于ATN计算的仅是术语权重的简单总和,而ATC则使用记录的长度将其权重标准化到0.0和1.0区间内。标准化的目的是为了削减较长记录比较短记录更容易被检索的特点。记录长度之所以被作为实验考虑的一个因素,是因为在等级层次中越靠后的概念具有的限制术语数越多。
  在实验过程中,研究者发现ESS记录实际上是依赖于杜威法的上下位类等级属性来完整定义一个概念。针对ESS记录数据库的检索提问,只有当考虑了号码的等级层次以及与之关联的概念短语时,才可能产生更精确的检索结果。因而,研究者调查了在概念记录中增加上下位类等级信息对Scorpion结果的影响。除此之外,研究人员还检测了截词法对杜威法概念术语检索结果的影响,即建立有截词算法功能和无截词算法功能的两种不同版本Scorpion数据库。
  此实验是在6个特定数据库中进行的,输入的检索提问记录都限于该记录所在的数据库,如表1所示:
  
  2.2实验过程
  为了客观评价Scorpion杜威数据库,研究人员首先检测了一条输入检索提问概念被转换成潜在主题排序列表中第一条结果的频率。实验假定只要输入的检索提问概念出现在排序结果中,就表明自我匹配发生。并且实验中所有的结果集都只包含20个概念。这样,每个结果集至多应包含有1个自我匹配记录和至少19个自我不匹配记录。
  对于杜威号307.77(Self-contained communities),使用012数据库和ATC得分算法,得到如表2所示的20个返回概念:
  以上实验结果非常满意,自我匹配记录出现在排序的第一条,并且超过半数的其他检索概念出自数据库中杜威号307所在的同一领域。
  而事实上并非每一个ATC算法结果集中自我匹配记录都出现在序号1的位置上,这主要是SMART系统本身的两个因素造成的:①在ATC得分算法下,当一个概念和它自身对比的时候,返回的得分总是为1.0(最高的可能得分)。因而,在结果集中每一个输入的概念得分都会为l,问题在于由于ATC得分算法的标准化,其他概念的得分也会为1.0。②SMART系统对所返回的具有同样得分的记录是按照SMART内部文献号的递减顺序排列的,而Scorpion数据库是按杜威号的升序排列的。因而,在确定所输入的检索提问概念作为潜在主题排序列表中第一个返回结果的频率时,在同样的得分组中,概念是按杜威号的递减顺序排列的。
  考虑到以上两个因素,研究人员计算了某个输入概念在一个给定数量的分值为1.O的关系组中出现的次数,并将这些结果值绘制成图(见图2)。其中,x轴表示包含输入记录得分为1.0的结果集的数量大小,Y 轴表示具有这个数量或更少的关系组的所有结果集占总数的累计百分比。例如,数据库012的结果集有99%是由得分为1、概念数量为4或更小的关系组组成。对数据库012、013、015和016来说,至少97%的输入概念作为排序号最高的概念和自身相匹配。在两个没有上下位等级的数据库011和014中,结果不尽满意,但是其匹配率仍然在93%以上。
  
  2.3实验发现――上下位类等级信息对Scorpion杜威数据库有重要影响
  在图2中,将具有截词功能和不具有截词功能的数据库进行对比(数据库011和014对比,012和015对比,013和016对比),发现截词功能对于自我匹配效果的影响不是很明显。产生影响的主要因素是所包含的等级关系信息的数量,包含有上下位类等级关系数据库的结果比仅包含上位类的数据库更好。可以预言,两者的结果都优于不包含等级关系的数据库。为了进一步验证以上结果,又使用SMART ATN得分算法进行了相似的分析,同样证明在概念中增加其上下位类等级记录后,其结果得到了最大程度的改善。
  表3列出了杜威法中的概念535,028在数据库011,012,013中运用ATC算法检索所得的前20条匹配记录。值得注意的是在数据库011的结果中ATC得分为1,O的大量的杜威概念号码(等级序号从1-15)。当通过增加上下位类关系使概念具有更多的上下文环境时,数据库011中前边的匹配概念在数据库012和013中被分散了。在数据库012中只有三条非自我匹配的(用黑体显示出来)概念仍然保留在前20条记录中。同样在数据库013的检索结果中,只有6条记录仍然被保留下来。
  图3和图4以绘图的形式展示了上下位类关系对记录自我匹配效果的影响。这两个图是关于输入某一检索提问概念的前20条记录散布图。其中x轴是相应的检索提问概念的杜威号,Y轴是检索出的相应概念的杜威号。通过对比图3和图4,可以明显看出上下位类信息加强了概念间的匹配。
  
  2.4实验结论
  从以上实验中得出的结论有:①杜威法描述了一个高度结构化的分类整体,其中的概念定义很严密,互不交叉;②增加上下位类环境可以在很大程度上改善Scorpion为主题概念分配较窄范围号码的能力。以上结论表明杜威法是自动分类工具可依据的很好的知识基础;③实验结果集中还出现了明显不符合要求的记录,还有待进一步改进。
  
  3 结语
  
  Scorpion是基于杜威法来建立sc唧ion标引数据库,并通过对该数据库的检索得到标引词集合的一种将关键词和赋词标引相结合的方法。sc0Ipion在建立杜威数据库过程中引入杜威法的上下位类等级关系以改善结果,此方法对于目前的自动标引研究有较大的借鉴意义。这一思想在中文自动标引研究中也有所反映,如韩客松与王永成在其《中文全文标引的主题词标引和主题概念标引》一文中,提出了一种用层次概念词典改进主题词标引质量的新方法。另外,针对仅仅用主题词标引的不连贯性等缺陷,提出采用直接选取上位词、通过聚类产生上位词、由两个或以上的主题词合成主题概念三种方法进行主题概念标引。由于目前还没有好的层次概念词典,尚不能运用这一思想进行真实文本测试。总的来看,尽管scorpion已经建立了一些自动主题标引的工具,但是还不能进行完全智能操作,并且其自动结果集中仍存在明显不符合要求的记录,还需要对结果集进行进一步过滤和改进。因此,迄今为止scorpion还不能代替手工编目,但对于可获得的电子资源来说,它可以向手工编目员提供一个主题列表,供其从中选择最适合的主题,从而降低传统编目的成本。这已经将目前的自动标引和网络资源编目向前推进了一步。

相关热词搜索:标引 初探 思想 Scorpion自动标引思想初探 基于引文的自动标引法初探 自动洗片机使用初探

版权所有 蒲公英文摘 www.zhaoqt.net