数字图书馆网格信息资源组织模式研究:数字图书馆的信息资源数字化

发布时间:2020-03-07 来源: 历史回眸 点击:

  〔摘要〕从网格资源构成的角度,分析比较数字图书馆网格信息资源、数字图书馆非网格信息资源,通过对Digital Library Grid信息资源管理模型的解读,提出在网格环境下,数字图书馆信息资源管理、信息资源组织的概念模型,并在此基础上分析、讨论网格环境下DL信息资源发现、信息资源描述、信息资源命名和信息资源发布等主要环节。
  〔关键词〕网格数字图书馆信息资源组织
  〔分类号〕G250.76
  
  Resarch on Digital Library Grid Information Resource Organization Pattern
  Bi QiangShen Yong
  Management College of Jilin University, Changchun130022
  
  〔Abstract〕From the perspective of grid resources constitution, this paper compares DL grid information resources with DL non-grid information resources. Then it proposes the conceptual model of information resource management and organization for digital library in the grid environment by unscrambling the model of DL grid information resources management, and on the basis of that discusses the main procedures including digital library information resource discovery, information resource description,information resource naming and information resource publishing.
  〔Keywords〕griddigital libraryinformation resource organization
  
  1引言
  
  挺进网络研究领域,已经成为国际和国内信息资源组织管理研究领域的共识。网格环境下的数字图书馆(Digital Library,以下简称“DL”),以无所不在的分布式的网络和计算环境作为技术支持和应用基础,具有对于海量的、多媒体的信息资源进行制作、组织、存储和发布的能力,还可以针对不同需求的用户群体提供主动的、个性化的终极信息服务[1]。网格技术作为DL信息资源(Information Resource,以下简称“IR”)组织模式变革的思想平台和技术支撑,为DL信息资源组织提供实践理性化的操作样式。
  
  2数字图书馆网格信息资源
  
  2.1网格信息资源的构成
  传统因特网实现了计算机硬件的连通,Web实现了网页的连通,网格将实现互联网上所有资源的连通,包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等[2](见图1),网格能让人们透明地使用这些资源[3]。
  
  2.2DL网格信息资源与DL非网格信息资源
  DL网格信息资源和DL非网格信息资源的异同如表1所示:
  
  DL的网格信息资源与非网格信息资源的本质区别就是信息资源所处环境的异构。在网格环境下,DL信息资源管理系统所管理的IR不仅是属于一个管理域,而是跨越多个管理域[6-7]。各个域中构成网格系统的计算机在体系结构,操作系统、数据库管理系统及元数据模式等多个方面均存在异构。这就造成来自不同管理域的相似或同类IR的异构性。
  DL非网格信息资源提供者仅限于本地的DL,DL网格信息资源的提供者既有本地的DL又有异地的各个IR的所有者。
  DL非网格信息资源的组织不需要重新命名,DL网格信息资源的组织必须重新命名。
  
  3网格环境下DL信息资源组织概念模型
  
  信息资源组织即IR的有序化的活动:利用一定科学规则和方法,通过对信息外在特征和内容特征的描述和序化,实现无序信息流向有序信息流的转换,从而保证用户对信息的有效获取和利用及信息的有效流通和组合。网络环境下,数字图书馆IR组织模式如图2所示:
  
  从图2可以看出,该模式仅适用于互联互通有限容量的IR。但要互联互通海量的、分布异构的IR,该模式就受到了现有技术的约束。引入网格技术,应用信息网格则能够实现DL组织建设所需的各种数字信息资源的互联互通。信息网格已成为国内外DL信息组织管理研究领域的共识。
  Digital Library Grid是美国Andrew W. Mellon 基金会由Old Dominion大学DL研究组在其原有的OAI(Open Archives Initiative)系统(即ARC系统)研究和实践基础上所提出的项目,图3是Digital Library Grid信息资源管理模型。
  
  在图3中,DL的数字资源分布在DL网格中的数据提供者节点中,采集节点负责对数据提供者节点的信息资源内容进行元数据采集,然后经由元数据收集和传输服务机制,整合由采集节点获得的全部元数据,按照一定的规则和机制,对这些元数据进行分发,将其分别存储在各个检索服务器节点(D1....D3)中,I1…I3负责对D1...D3上的元数据进行索引管理,可以针对新增的元数据进行增加索引,更新D1...D3中储存的索引。用户向跨库检索节点提出检索请求,跨库检索节点提供用户检索接口,并将收到的请求分发到D1…D3节点,并执行检索请求,检索结果由调度服务进行排序执行,将匹配的信息资源返回给用户。调度服务存储一个包含数据提供者列表的配置文件,向任务节点分配任务,任务完成后还要记录节点和信息资源的参数,为新的任务分配提供参考。
  在网格信息资源管理模式的基础上,结合DL的应用特点,借鉴国外DL网格项目的经验,构建了网格环境下DL信息资源管理系统抽象模型。
  
  如图4[10]所示,虚线所框的部分是网格环境下DL信息资源组织概念模型。与网络环境下的信息资源组织相比,有以下几点差异:
  ●在网络环境下,DL所包含的信息源是已经确定的若干个信息资源数据库;网格环境下的信息源是可扩展的有限多个信息资源数据库和信息资源节点。
  ●对于网格环境下的有限多个信息资源数据库和信息资源节点的增加和扩充,除了特定的情况下需要工作人员的参与,大多数情况下是通过被动发现信息资源机制完成的;网络环境下,新的IR数据库的加入只有依靠人工才能完成。
  ●在网格环境下,DL为用户查找IR除了IR发现机制之外,还有IR发布。
  ●在网格环境下,新加入的IR要进行重新命名,用户无需知道资源的所属数据库或节点,就可以下载使用IR;网络环境下,DL系统中IR的名字和在其所属数据库中的名字是一样的,无需重新命名。
  用户利用网格环境下DL信息资源管理系统获取研究所需的IR的过程,简单概括为以下两个步骤:
  ●DL网格的各个节点上有类型内容各异的IR。首先通过IR发现机制(主动发现和被动发现)寻找到DL所需的IR,主动发现是基于用户的需求进行,被动发现是系统在IR提供者提供的IR属性状态中根据系统需求(潜规则)选择合适的IR,并对IR进行描述、索引和命名,然后将索引信息汇总到数字图书馆IR索引中心,通过IR发布机制呈现给用户。
  ●DL用户发出IR请求,IR管理系统将根据用户的请求在索引中心内查找匹配的IR索引,然后追根溯源,找到IR所在的网格节点;根据节点和资源的状态信息参数进行IR预置(IR预置通常用来实现对IR的保证存取或对多个IR的并发存取,它的作用类似于一个记录器,记录目前所有的用户需要的IR,确保用户所需要的IR全部都被安排执行传输)、状态估计(即依据IR当前的状态信息和历史数据库、传送时间等为任务调度提供信息)、任务调度(确定任务执行的相关顺序)等一系列环节,确保将用户所需求的IR提交给用户。
  3.1信息资源描述
  信息资源描述是根据一定的规则和标准,对IR的形式特征和部分内容特征进行描述并给予记录的过程[5]。 信息资源描述为IR共享、IR发现等关键环节提供必要的信息。信息资源描述信息把不同的用户、不同的应用、不同的IR联系起来[11]。
  在介绍信息资源描述的作用之前,先引入三个概念:IR请求者:一般情况下就是指用户,在这里就指DL用户;IR中介者:网格环境下DL的IR管理器;IR提供者:IR的所有者,DL本地/远程数据库,或网站、个人。IR描述的作用如图5所示。
  
  ① IR请求者应用IR描述机制来描述自己所需求的IR,向IR中介者提出需求;② IR提供者通过IR描述机制,按照统一的规范(如DC)提供关于自身资源的元数据给IR中介者;③ IR中介者通过IR提供者的IR描述信息,判断是否匹配,将匹配的IR提供给IR请求者。
  无论在网络环境下,还是在网格环境下,元数据都是IR组织的有效工具[12]。元数据描述的是关于数据的who, what, when, where, why, and how[13]。在网络环境下,以DC(都柏林核心数据,Dublin Core)元数据为例,DC由15个元素组成:标题、作者、主题、说明、出版者、其他责任者、日期、类型、格式、标识符、来源、语言、关联、覆盖范围、权限。
  在网格环境下,元数据除了上述的15项之外,还要包含距离、区域、数量和精确位置[12](见图6)。本文2.2部分提到,DL网格信息资源提供者不同,所处环境异构,因此在对网格IR进行描述时,就必须要对IR所处的空间位置进行必要的描述。在DL网格信息资源组织中的IR描述阶段,元数据利用HTML、SGML(Standard Generalized Markup Language--标准的通用置标语言)等标记语言将其嵌入在IR中。在网格IR的整个生命期内,元数据要随着IR的状态发生变化而不断地更新,确保网格系统迅速准确地查找到所需的IR。
  
  至今为止,还没有一种通用的IR描述方法得到广泛的应用,随着网格技术的应用发展,IR描述方法将告别“百花齐放”的现象,产生一种通用的IR描述方法和规范。
  3.2信息资源命名
  在DL网格系统中,每个IR对应一个属于自己的地址,这个地址的特点就是便于机器识别,但是用户记忆和使用这个IR地址都比较困难。用户访问IR的时候是通过一个中介,来连接IR的地址,这个中介就是IR的名字。IR命名,就是给网格中的IR重新取个名字。IR的旧名字是由IR提供者选定的,在网格中难免会出现重名现象,如果对名字为X的IR发出呼叫,有多个IR应答,就会导致用户不知如何选择自己最终需要的IR。IR的命名和IR本身必须一一对应。另外,命名后的IR也方便用户使用。我们知道,网络上的每个主机除了自己的IP之外还有一个域名,域名便于用户记忆和使用,例如,www.省略是搜狐网站主机的域名,但是用户不需要知道实际的IP是多少,只要知道域名就可以方便地使用。同理,给网格中的每个IR都取个名字,用户就可以根据IR的名字方便的访问IR。
  IR命名的意义和作用在于[11]:
  ●IR命名可以把IR进一步的抽象,将IR的标识和IR的位置分离开来。
  ●IR命名机制可以建立虚拟的空间,扩大和缩小用户空间。
  ●实现IR的按名访问,方便用户使用。
  DL中网格系统涵盖的IR数量巨大,IR命名需要遵循一定的原则。系统可以根据IR之间的内在关系为IR命名。例如:包含关系,层次关系,并列关系(见图7)。
  
  A包含A.a、A.b和A.c,所以A和A.a,A和A.b,A和A.c是包含关系,但是这种情况也满足层次关系,所以包含关系和层次关系经常混合出现。A.a和A.b和A.c是并列关系。A.a和A.a.x,A.b和A.b.y,A.c和A.c.z是层次关系。他们之间的层次关系是单一的,并没有混合包含关系。按照这样的关系命名可以有效地避免IR的名字的重复,进而有效的帮助网格系统提高任务作业完成的效率。IR命名还要规定命名的字符要求,如同网络域名中有英文字母、圆点等规定字符一样。例如,规定IR的名字字符中只能包含英文字母、中文汉字、阿拉伯数字、圆点“•”、斜杠线“\”和“/”。那么@、#、$等其它的字符对于IR命名来说就是非法字符。
  3.3信息资源发现
  分为主动发现信息资源和被动发现信息资源。
  主动发现信息资源是IR请求者和IR之间进行联系必不可少的环节,如果没有主动发现机制,网格环境下DL的IR数量巨大,IR请求者就不能确定自己可以使用哪些IR,也就满足不了请求者获得IR的需求。如图8所示,设定一个IR描述信息,IR发现能够根据IR描述的信息在DL的网格节点中查找到与需求匹配的IR并将IR的信息返回给IR请求者,就可以选择使用自己需要的IR。
  
  被动发现IR机制运作在IR和网格系统之间,可以在网格系统原有IR数量的基础上,扩展网格资源系统所包含的网格节点的数量和范围。如图9所示,网格节点将自己拥有的,却没有被系统收纳的IR的描述信息提交给系统,系统选择其中自身需求的IR,对该资源进行描述命名,并将描述信息存入系统数据库,使其成为系统资源的新成员。
  
  用公式F=f(xreq) [11]描述IR发现机制更为形象。如表2所示,针对被动发现机制或主动发现机制,公式中元素的含义也是不同的。
  
  网格发现机制的优劣,直接影响网格的整体性能。
  织女星网格是中国科学院计算技术研究所2001年开始研究的项目。织女星网格的资源发现机制的体系结构由三个层次组成,它们自左向右依次为:用户层、资源路由器层和资源层(见图10)。
  
  织女星网格的资源发现属于主动发现IR机制,其过程包括以下5 个步骤[14]:
  第一步:资源信息通过路由器网络进行传播。
  第二步:网格用户向相邻的资源路由器发出资源请求。
  第三步:资源路由器根据用户资源请求寻找匹配资源,同时完成请求在路由器网络内的转发。
  第四步:路由器为资源请求寻找一个能满足需要的物理资源,找到则完成资源的定位,找不到则认为用户的资源请求不能在本网格中得到满足。
  第五步:路由器将资源发现的结果返回给用户。
  主动发现IR机制是IR和IR请求者之间必要的桥梁,能够根据用户的请求寻找匹配的IR,优质的完成用户提交的检索任务。被动发现IR机制是DL网格系统和与未被利用的网格节点及其资源之间的纽带,利用该机制可以挖掘新的IR,纳入DL网格系统为用户所使用。资源发现机制的优劣,直接影响网格的整体性能。
  3.4信息资源发布
  在网格环境下,DL为用户查找信息资源除了信息资源发现机制之外,还有一种方法就是信息资源发布。信息资源发布,是信息资源寻找某个用户可以提供给自己一个匹配的应用[10],是从信息资源出发,试图去发现能够利用该信息资源的合适的应用。换句话说,具有某信息资源的终端系统为A,有关该信息资源的信息为B,信息资源发布就是把来自于A的B推(push)到可应用该信息资源的节点[15]。
  IR发布与IR的更新密切相关。
  如果按照批次或者周期性的方法对IR信息进行更新,也称为定时更新,IR发布也就要批次地或者周期性的通过DL网格进行,即定时发布。这种方法的好处就是不会给网格环境下DLIR管理器带来很大的压力,但是可能导致IR的信息的滞后,也可能影响任务调度及用户应用等一系列进程。
  如果按照在线或者按需的方法对IR信息进行更新,可称为时时更新,也就是说,只要IR的信息有所变化,就要进行一次更新,然后通过IR发布,将IR信息从源机器发布到DL网格信息资源管理器中,等待匹配的应用,即时时发布。这种方法的益处就是IR的信息时刻保持最新状态,但是这会给IR管理器带来很大的压力。
  两种方法各有利弊,网格环境下的DL在应用时可根据IR信息变化频率的大小选择不同的IR发布方式。如针对信息状态经常发生变化的IR,就应该选择网格IR定时发布;针对信息状态较少发生变化的IR,就可以选择网格IR时时发布。
  根据IR主体在发布过程中的作用不同,可以将IR发布的机制分为两种类型:被动发布和主动发布。
  
  IR的被动发布方式,强调用户的主动性,而且资源自身缺乏安全控制能力;相比较来看,IR的主动发布方式,由于强调了资源自身的主动性,可以很容易地实施对性能和安全性的控制,从而根据不同的资源和不同的用户采用不同的策略,提高资源的利用率和安全性。
  综上所述,在网格环境下,数字图书馆IR组织的概念模型包括4个步骤:信息资源描述、信息资源命名、信息资源发现、信息资源发布。这些步骤在组织管理过程中无明显的界限,它们之间相互融合、相辅相成。
  
  4结语
  
  DL是以知识概念为支撑的一种信息服务和知识服务环境,也是重要的社会信息基础设施之一。未来基于网格和DL的应用研究应该加强以下几个方面:①网格技术与DL信息资源管理结合的技术策略研究,探讨主要技术和系统开发方法;②应用网格技术进行DL信息资源组织的实施研究,验证理论的可执行性;③网格环境下DL信息资源管理的发展趋势研究,不断结合新型的技术改善管理方法和模式。
  虽然,DL网格信息资源组织管理尚处于初级阶段,但是,如果在一个合理科学的环境支撑体系下,正确、科学地运用信息网格与知识网格,DL信息资源组织管理有望跨越传统的、初级的互联互通理念、结构和模式,而进入深层组织管理,并能够使它在一定条件下向知识网格转化。
  参考文献:
  [1]李亮先.网格技术在数字图书馆的应用.情报科学,2004(6):703-706.
  [2]张俊.网格环境下的应用模式的研究[学位论文].北京:北京理工大学, 2003.
  [3]王丽华.基于网格技术的虚拟图书馆.情报科学,2004(4):482-487.
  [4]王艳峰,王峰,王恩海,等.网格资源描述与发现.[2005-11-21]. http://www.省略/grid/paperppt/gct/gct08.ppt.
  [5]杨玉麟.信息描述.北京:高等教育出版社,2004:4-5.
  [6]Froster I,Kesselman C.网络计算(第二版).金海,袁平鹏,石柯,译.北京:电子工业出版社,2004:149-162.
  [7]柯青.网络环境下异构信息检索标准体系研究[学位论文].武汉:武汉大学, 2004.
  [8]龙朝阳,秦素娥.数字图书馆个性化信息组织模式构建.情报理论与实践,2006(3):355-357.
  [9]Digital Library Grid 项目组. Digital library grid. [2006-11-15]. http://128.82.7.230/grid/status/architecture.doc.
  [10]丁箐.网格环境下资源管理的研究[学位论文].合肥:中国科学技术大学,2002.
  [11]徐志伟,冯百明,李伟.网格计算技术.北京:电子工业出版社, 2004:104-112.
  [12]National Information Standards Organization. Understanding metadata. [2006-12-25]. http://www.省略/standards/resources/Understanding Metadata. PDF.
  [13]What is metadata. [2006-03-23] http://www.csc.noaa.gov/metadata.
  [14]董方鹏,龚奕利,李伟,等.网格环境中资源发现机制的研究.计算机研究与发展,2003(12):1749-1755.
  [15]杭小勇.网格资源的安全主动发布机制[学位论文].天津:天津大学,2005.
  
  毕 强 沈 涌
  吉林大学管理学院长春 130022

相关热词搜索:网格 信息资源 数字图书馆 数字图书馆网格信息资源组织模式研究 数字图书馆运作模式研究 研究的运作模式

版权所有 蒲公英文摘 www.zhaoqt.net