[数字资源收割工作的发展]数字资源建设与发展建议

发布时间:2020-03-07 来源: 短文摘抄 点击:

  [摘要]介绍各国数字资源收割技术的发展,如挪威、新加坡、丹麦等从法律上明确公共图书馆对数字资源进行收割和保存的职责;日本、韩国、美国等都各自开发有对网络资源爬行和抓取的工具软件。并着重论述新西兰国家图书馆与英国不列颠图书馆合作开发Web CuratorTool,在收割质量保障、保存格式、授权管理等方面优点明显,但在图像资源收割及大规模任务执行等方面还存在不足。
  [关键词]数字资源长期保存 数字资源收割
  [分类号]G253
  
  1 数字资源收割工作的现状
  
  当今的数字资源将成为未来的科学史、文化史、社会史。正如我们从印刷资源中追溯文明一样,后代将从被保存的数字资源中回顾和利用我们所创造的知识,让人类可持续发展。数字资源长期保存工作的意义不言而喻。
  数字资源收割是数字资源长期保存的第一步,近年来,各国的数字资源的收割工作在制度、机构和工具等各方面都有了长足的发展。
  
  1.1 数字资源收割的相关制度
  挪威于1990年生效的《保存本法》所规定的国家图书馆收割和保存范围涵盖了网络电子出版物,并提供了具体实施规章。
  新加坡于1995年通过了“新加坡国家图书馆管理局法案”(NLB Act),规定在法定的呈缴框架下,电子或联机形式传播的出版物不论是否已通过网页内容收割和存档,都须向管理局呈缴两份复本。
  丹麦于2000年出台的第340号法案规定了公共图书馆收割、保存和提供包括因特网与多媒体在内的电子信息的职能。
  澳大利亚联邦于2006年修正的著作权法案(Amendments t0 the Copyright Act)第40条和41条,对图书馆的数字收割和保存活动给予了重视与支持。
  英国国家图书馆正建议国家立法,不限制数字资源的自动获取,支持以保存为目的缴送和复制,并涵盖有可能增加的各种介质出版物。
  德国的国家存档项目Nestor正建议修改《呈缴本法》,要求法律支持数字资源副本的创建和修改权,取消由DRM提出的限。
  
  1.2 数字资源收割的执行机构
  目前进行数字资源收割和保存的执行机构主要是各国的国家图书馆,但除此之外,许多政府、文化与科研机构及联盟也成为了重要力量。
  澳大利亚的PANDORA项目以国家图书馆为核心,参与机构包括国家声像档案馆、战争纪念馆、原住民及托雷斯海峡居民研究协会、澳大利亚可持续知识仓储伙伴计划(APSR)中的联盟成员等。
  德国国家图书馆组建了数字资源长期保存专业技术网,参与的组织除几所大学图书馆外还包括柏林博物馆信息协会和巴伐利亚州档案馆。
  互联网档案组织(Internet Archive,IA)由美国国会图书馆和Smithsonian组织共同构成,以为后代保存稍纵即逝的、具有历史性重大意义的“原生”互联网资源为目的。
  澳大利亚、加拿大、丹麦、芬兰、法国、冰岛、意大利、挪威、瑞典等国的国家图书馆,英国不列颠图书馆,美国国会图书馆和IA等机构共同建立了国际网络资源保存社团(International Internct Preservation Consorti―um,IIPC),鼓励和支持利用通用工具、技术与标准建设国际档案馆(international archives),并资助相关研究项目。
  
  1.3 数字资源收割的工具
  2006年,在WARP项目(Web Archiving Project)中,日本国会图书馆开发了一个须版权人授权的网页爬行机器人进行网络资源收割。主要收割对象是网站,其次是在线期刊和城镇农村信息资源。
  2008年,韩国国家图书馆在OASIS计划(Online Archiving&Searching Internet Sources)中进行网络数字资源的收割和保存。目前的收割对象主要为两类:网站和其他单独网页数字资源。
  新加坡国家图书馆管理局从2006年开始启动了收割互联网中所有与新加坡有关的网页内容计划。2007年,该局建设并使用了一个自助提交系统,出版者可以在网络上直接提交数字出版物。
  澳大利亚PANDORA项目开发了PANDAS系统,与IA协作进行大规模地域收割活动,已完成两次大规模的资源“爬行”,主要抓取采用.au顶级域名的网页资源。
  2006年,美国国会图书馆开通了直接隶属于国家数字信息基础设施和保存计划(NDIIPP)的网页抓取项目,使用IA专门设计的开发源代码爬虫软件Heri―trix进行网页收割。
  
  2 新西兰的数字资源收割工作
  
  2.1 相关制度和机构
  新西兰于1965年出台了136号法令――《新西兰国家图书馆法》,并在1971―2003年间进行了多次补充和修订,对国家图书馆进行数字资源收割与保存的职责及权利提供了法律支持。
  
  2.省略站点下载。新西兰国家图书馆使用WCT的硬件系统是Sun SPARC servers,操作系统是Solaris,数据库管理系统是Oracle,网络服务系统是Apache HTrP Server and Tomcat,用户识别系统是Novell e―Directory。整个软件系统被布署在两个服务器上:一个服务器用作核心指令舱(core module);另一个用作收割器(harvest―er)。
  WCT工作系统的主菜单上共包括9个功能模块,如图1所示:
  
  In Tray:总览模块。Harvest Authorisations:收割授权模块。Targets:收割对象管理模块,负责管理收割任务时间表。Target Instances:收割对象列表模块。Groups:收割对象分组模块,通过比较元数据信息、对同类资源进行成批收割。Permission Request Tem―plates:收割许可请求生成模块。Reports:报告生成模块。Harvest Configuration:收割设置模块,负责依据时 作界面可列出辅助评估的数据清单,包括:概述信息、起始日期、已下载数据、获取成功的和失败的URL,共用时间与当前状态等。WCT还可提供多个窗口,以对比收割结果和该资源的原始版本及其他版本间的差异,使得评估更直观、有效。2007年,新西兰国家图书馆共进行了1249项收割任务,其中953(76%)项完成了收割并经评估被认可后保存,69(6%)项未完成收 割,224(18%)件收割结果未通过评估被拒绝保存。
  2.4.2 不断改进适宜被长期保存的数据格式新西兰国家图书馆早在1999年就已开始进行程控Web资源收割,在2006年底以前一直使用的收割工具是:HT―Track Website Copier。长期以来,HTTrack对MARC格式的网络资源数据库进行资源选择和获取,累积性地遗留了海量的无法被长期保存的数据,目前正依靠数据迁移技术对这部分资源进行格式转化处理。2007年,新西兰国家图书馆开始使用WCT,其显著的不同在于:使用ARC文档格式输出收割结果,ARC以“分要素层存放数据”为特征,这种格式使得长期保存工作更为方便和有效。
  2.4.3 通过建立各环节间的沟通机制提高收割效率WCT的设计充分考虑了过去类似软件在各环节工作间存在的鸿沟(gap),设计了加强整个工作流程整体性的各环节交流机制。例如,规定评估环节每周向描述环节提交报告,以提示资源描述需求、预告技术层对资源数量和大小的后续要求。
  2.4.4 收割任务规模有限WCT还不能同时进行多项(大于8项)收割工作,也不能胜任对大规模网站资源的收割任务。目前已成功完成的最大的一次收割任务数据量是10G,新西兰国家图书馆曾尝试过一次21G的收割任务,但收割结果未通过评估。
  2.4.5 图形资源收割能力不足对于用Javascript建设的网站图像资源,WCT在收割后难于对其图像要素(如下拉菜单)进行导航加工,也难以收割深植(embeded)的背景图像(background images)。WCT图像收割能力的提高将依赖于当代图像传输和处理技术的全面提升。
  
  3 新西兰国家图书馆数字资源收割工作的参考意义
  
  3.1 以应用集成的方式实现机构间分工合作
  新西兰国家图书馆与新西兰维多利亚大学(新西兰唯一开设图书馆学与信息学专业的大学)、新西兰电子文本中心联合构建“收割结果评估工具”(Quality Review Tools),并以在线链接的方式实现辅助工具的远程调用(见图6),充分实现了分布式应用的集成。我国的相关机构(如国家图书馆、国家档案馆、中国科学院、教育部、科技部等)也可以组建“协作链”,实现技术上的合作攻关、工作环节的分布式操作、经费支持上的合理分配。
  
  
  3.2 建立和依据数字资源呈缴制度
  新西兰以及新加坡、丹麦、挪威等国在数字资源呈缴制度方面成为了先行者,以法规形式规定了图书馆负责该国数字资源长期保存的职责和权利,并建立了国家层面上的数字资源呈缴框架与信息存档体系,值得我国借鉴。
  
  3.3 健全收割授权管理避免版权纠纷
  WCT的“获取版权许可”工作环节,有效地保障了整个收割过程的版权合法性。而我国现阶段的一些网络资源收割活动,仍采用先侵权后处理的工作方式,为日后的知识产权纠纷埋下了巨大隐患。WCT通过主动请求版权许可,防患于未然,使长期保存工作可持续,是可学习的模式。
  
  4 结语
  
  保存人类记忆,传承社会政治、经济、科技、文化的整体图像,是图书馆的社会职责和历史任务。新西兰国家图书馆在国家法律授权前提下,应用WCT自动收割来自网络图书、网络报纸、网站、网页、博客和各种数字媒体的各类数字信息,捕获并再现资源原有的整体性与真实性,并保证版权的合法性,这种做法值得我国数字资源长期保存工作者借鉴。

相关热词搜索:收割 数字 发展 数字资源收割工作的发展 数字资源整合的发展与实践 数字化部部门工作规划汇报

版权所有 蒲公英文摘 www.zhaoqt.net