[我国机构知识库模式构建与流程设计]知识库系统

发布时间:2020-03-07 来源: 短文摘抄 点击:

  [摘要]构建与设计我国机构知识库建设模式与应用流程,针对建设目标、实施对象、资金库源、软硬件选择、组织管理方式、知识产权、内容收集、服务模式、数字保存做出详细规划,并以南开大学为例,从内容建设流程、数据处理流程、资源共享流程和检索使用流程4部分展开设计分析。
  [关键词]机构知识库模式设计
  [分类号]G250.76
  
  1 前言
  
  国外开放存取运动的兴起带动了国外机构知识库(Institutional Repository,缩写为瓜)的蓬勃发展。而我国瓜建设则处于起步阶段,在实施规模和数量上与国外相差甚远。为加速中国学术研究进展,提高其学术水平与科技创新收益,m建设无疑成为中国学术界所急需解决的事项之一。为此,本文对我国(不含港澳台地区)瓜的建设模式进行大胆构建,并以具体院校为例进行建设流程设计,以期为国内iR建设提供启示。
  
  2 我国IR模式构建
  
  国内外瓜建设环境的差别使我们不能照搬国外瓜建设模式,但按照国外IR建设经验,IR建设中最大的困难不是来自技术,而是来自于人文环境、管理维护、内容获取、知识产权等方面。因此,在对我国IR进行建设之前必须对这些内容做好规划架构,以顺利推动其建设过程。
  
  2.1 建设目标
  瓜的建设目标是以我国高校科研机构为依托,通过IR的建设,加强高校科研机构之间学术资源的交流与整合,促进知识共享与创新,提升我国科研机构的学术地位,并为全球范围内的学术交流做出贡献。
  
  2.2 实施对象与资金来源
  IR的实施对象应定位于高校与科研机构。因这些机构是学术成果的主要生产地与利用地。与其他机构相比,它们在资金来源、学术成果搜集、职员技能等方面更具优势。
  国外瓜建设的资金一般都来源于政府支持及一些私人基金会的赞助。如澳大利亚政府于2003年10月投入1200万澳元进行IR的相关研究,其所支持的4个项目覆盖本国15所大学,且主要研究大学都建有IR。Fedora、DSpace软件的研发则由商业公司和基金会资助。因我国商业公司和基金会对瓜建设少有投资,建设资金只能源于政府投入与高校支持。可以由教育部门每年拨出一定资金用于瓜建设,各高校科研机构也可以从自身经费中划拨一部分用于IR。
  
  2.3 软件选择与运行支持
  构建IR的软件已研发出十几种,可选范围较大。但按照我国IR建设目标与实施对象的定位,本文推荐DSpace、Eprints、Fedora三种软件。
  ?DSpace的数据组织方式是按照使用机构的组织结构来排列的,其所有的社区对应不同的组织机构,社区之间可按照等级关系进行排列。这样就特别适用于高校,因其社区设置完全可参照高校内的院系来设置,便于资料的搜集、管理、使用。对运行环境,DSpace要求操作系统为UNIX、MacOSX或Windows,编程语言为Java 1.4,数据库系统为PostgreSQL7.3或Oracle9,Web服务器为Apachel.5,对客户端支持和浏览器无特殊要求。
  ?Eprints按照主题来组织数据,方便用户按不同的学科分类来查找。与其他软件相比,Eptints简单灵活,是全球使用最多,分布最广的软件。软件使用的广泛性增加了系统的基本能力,使其能以相对较低的技术花费和较快速度被注册运行,也能按机构具体要求进行改进。对运行环境,Eprints要求操作系统为UNIX、GNU、Linux或Solaris,编程语言为Per15,数据库系统为MySQL 3.4/4.1,Web服务器为Apache2,客户端支持需要Netscape、Mozilla、ie或Lynx浏览器。
  ?相对于其他软件而言,Fedora的功能比较齐全,系统体系的分层模式使其具有很强的灵活性和扩展性,不仅能适应已有的数字资源类型,还能适应新数字资源类型,适用于一些有着复杂应用需求的瓜。对运行环境,Fedora要求操作系统为UNIX、MacOSX或Windows,编程语言为Java1.5及以上,数据库系统为Oracle9i、MySQL 4x/v3.23x或PostgreSQL,Web服务器为Tomcat5.x,客户端支持需Web浏览器和SOAP客户端。
  
  2.4 组织方式
  IR的组织方式可采用联盟式,先由国家教育部发起瓜建设的联盟项目,成立相关委员会,对IR建设给予政策与资金支持。最初的参与者可从我国科研成果丰富、实力雄厚,并有进行IR建设意向的高校中选出。委员会只对参与者进行宏观指导和资金支持,对具体运作过程不做统一规定,由各参与者按照自身状况来制定实施策略。委员会定期召开相关交流会,使各参与者能够总结自身经验教训,以方便他人借鉴。
  
  2.5 管理方式
  IR建设的宏观管理由政府及教育部来承担。各独立瓜的管理运行职责可由该机构的图书馆承担,图书馆在此方面有着得天独厚的条件。许多高校图书馆都建有数字图书馆,并从事数字化馆藏建设,图书馆员所拥有的分类、编目、元数据等专业技术正是IR建设所必需的。相比于校内其他机构,图书馆面向全校服务,与校内院系及师生接触最多,便于图书馆各学科馆员向对口院系宣传瓜的实施益处,鼓励师生参与IR建设。
  
  
  
  2.6 知识产权
  知识产权是限制IR建设的一个重要瓶颈。我国作者在发表论文后仍拥有该论文的版权,对于作者非赢利性的传播利用,出版商没有明确限制。这种现状下,作者本身就有权向瓜提交论文,不像国外作者需辗转得到出版商许可。但考虑到出版体制的改革会带来对知识产权归属问题的新规定,我们应借鉴国外在此方面的得失,借助政府的规划决策来避免学术期刊出版商对论文版权的绝对控制,以免形成学术出版的商业垄断,加大瓜及相关项目的建设难度。
  
  2.7 内容获取
  内容获取和知识产权是紧密相连的两个问题,也是制约瓜发展的重要瓶颈。国内瓜建设的内容获取可采用以下方式进行。
  第一,在观念上要对IR的实施益处进行宣传,让高校内各院系与师生明白向瓜提交内容可提升个人及机构在专业领域内的声誉,方便与同行间的学术交流,确立优先发现权,从而提高其参与度。
  第二,借助高校管理部门的支持,要求各院系将其已有的、具有学术利用价值、便于转化为数字化类型的学术成果向瓜整理提交,同时要确保正在生产的学术成果的管理与提交。
  第三,目前,高校各学科领域经常举行学术交流会,学术交流会可反映各参与高校的学术水平,会议内容也是学术成果的一部分,应加以保存以便交流利用。对此,学术交流会的举办高校或机构应将会上各专家学者的发言、会议论文等资料进行记录保存,并存入本单位的IR中。
  第四,高校图书馆都建有数字图书馆,并拥有特色数字馆藏,可将这部分内容加入瓜。另外,图书馆所存博硕士论文也是充实IR的一个重要来源。   第五,鼓励师生进行自存档,主动将其学术论文、专利、科研数据、教学资料等学术性资料提交给IR。
  
  2.8 服务模式
  国外IR的服务模式有中央集中式、分布式和收割式,其中以收割式服务模式应用最为广泛。收割式服务模式的基本原理是利用OAI-PMH协议从其他支持OAI协议的知识库中收割元数据,对其进行加工后重新暴露给最初的数据提供者和其他服务提供者。考虑到瓜建设的成本和发展规模,我国瓜的服务模式也应以收割式为主,并可采用以下体系结构:①ePrints UK项目所使用的体系结构;②基于浏览入口(Portal-in-a-browser)的体系结构。
  ?ePrints UK项目属于从国家层面进行的收割式模型,其目的是发展国家化的服务,使英国的教育社区能够获得英国知识库的公共电子资源。它通过利用OAI-PMH从IR、学科知识库、个人知识库中收集元数据,发展一个全国范围的e.print服务提供知识库。通过8个RDN(resource discoverynetwork)和建立在利兹大学的教育入口,供公众使用。其体系结构(见图1):
  基于浏览入口的服务模式由AlmaSwan等人提出。该模型简单易用,采用标准协议,易于实施且成本较低。与ePrintsUK模型相比,该模型去掉了网络服务,并增加一个中央知识库,用来除掉那些还没有建立瓜的机构成员所提交的论文。
  其体系结构如图2所示:
  OAI-PMH complialt repositorie0
  
  2.9 数字保存
  IR的数字保存不仅需要技术支持,还需要制定一系列的相关政策,来明确数字保存中所涉及到的一系列问题,对于保存什么,如何保存,由谁保存等问题做出规定,明确各环节的责任义务,并在各环节中建立良好的合作机制。对于保存中所应用到的各种技术方案,可以采用迁移、仿真、UVC、封装、技术保存、数据再造等方法,具体到各瓜需要采用哪一种技术方案,可视自身情况,并综合考虑该技术方案的可行性、可持续性、实用性与合理性,采用上述方案中的一种或多种混合使用。
  
  
  
  3 我国IR模式应用的流程设计
  在构建我国IR建设的一般应用模式之后,本文拟以一具体院校为例,对我国瓜的建设应用流程进行设计分析。在此,本文选择南开大学为设计对象。
  考虑到南开大学的学术影响力和在天津教育领域所起的带头作用,南开大学IR的建设可作为天津地区IR的建设试点来进行,由天津教委和南开大学共同拨款支持,由南开大学图书馆负责具体运行与管理维护,采用DSpace软件,建立收割式服务模式。南开大学图书馆现有UNIX、Windows等多个操作系统,数据库系统有sQL server、Oracle 9i,编程语言为Java,Web服务器为Apache4.5,既有系统自带的专门客户端支持,也有Apache2.2,浏览器为Ⅲ,其软硬件设施完全足以支持DSpace的运行需求。
  设定南开大学IR建设的宏观模型,笔者对南开大学IR运行的具体流程进行设计,其流程图如图3所示:
  
  3.1 内容建设流程
  内容建设流程拟采用“学校宏观规划,院系具体落实”的策略。由学校宏观规划指导,对各院系和研究中心、实验室下达硬性规定,明确各参与单位的任务与作用,由各院系负责本部门的内容收集与提交,由图书馆、档案馆负责提交内容的审核、整理、保存。
  除了学校政策支持,还需要师生认可瓜。对此,图书馆可利用师生对其每日需求与依赖性,通过举办交流会和在图书馆主页进行介绍的方式,把IR的建设理念和实施益处向广大师生进行介绍,对IR的使用进行培训,让师生熟悉认可瓜,并参与到IR的内容建设与使用过程中。
  内容提交过程由研究中心、各院系、图书馆和档案馆、师生来进行。研究中心指南开大学教学院系以外的各实验室和研究中心,它们侧重于提交第一手的实验数据、研究发现和技术报告;参与院系指各教学院系,它们侧重于提交本部门所产生的教学资料、会议论文、工作报告等,把这些内容按照专业来组织并提交;图书馆和档案馆侧重于提交该馆的特色馆藏和历年博硕士学位论文;为保障瓜的学术质量,这里的南开师生主要指在校任职的教师和在读博硕士生,他们侧重于对学术论文预印本的提交和对已往所发论文的整理提交,还可提交自己其他形式的学术成果。
  由于南开大学瓜侧重于收集本校所生产的学术资源,因此个人提交者必须先经过注册认证,证明为南开大学的师生后才有权力向IR提交内容。
  
  3.2 数据处理与保存流程
  数据处理流程的实现分为两大块:①对本校学术资源的整理验证,②对从其他开放资源中所收集到元数据记录的整理。
  对本校资源的处理保存要经过身份验证、规范控制和索引。首先要对提交者身份进行验证,非注册用户的提交内容将会被拒收。规范控制是对所提交内容的文件类型、文件格式、元数据质量进行规范。包含对不正确的文件归类进行调整;对不符合系统要求的文件格式进行相应格式转换;对重要元数据字段空缺、非专业化的标引词汇、拼写错误等问题进行纠正补充,以保证元数据质量。对通过验证和规范控制的内容,要按照一定的检索点建立索引,以供用户检索。
  对于从其他开放资源中收集到的元数据记录的整理,要经过元数据过滤、格式转换、标准化、建立索引的处理过程。包含对采集来的元数据进行初步分类整合,并把不符合标准的元数据过滤掉;将不同来源处的元数据编码格式与南开大学IR的编码格式相统一;为采集后的元数据添加来源信息、版权信息等新字段,并对某些字段的内容进行清理,如按唯一标识号、元数据前缀等关键词排序以剔除重复记录;对经过上述处理的元数据按照一定的检索点进行索引并形成相应的倒排档,以供用户检索。
  通过数据处理过程的元数据和资料将被添加到南开大学瓜的存储区进行保存,并向校内外的广大师生提供使用。
  
  3.3 资源共享流程
  资源共享流程的实现要求南开大学IR的建设要遵从OAI.PMH协议,并注册为OAI用户。资源共享流程的实现是双向的,一方面南开大学瓜利用OAI-PMH协议从与OAI协议相适应的其他IR、学科知识库、开放存取期刊和个人网站中采集相关元数据记录;另一方面南开大学瓜也要允许其他瓜、学科知识库等开放资源对其元数据记录的采集。通过OAI―PMH协议的应用,可实现不同开放资源之间的互操作,增加资源的利用效率。
  
  3.4 检索使用流程
  检索使用流程是由用户通过互联网对南开大学IR界面进行访问来实现的。使用用户没有身份限制,既可是南开大学IR注册用户,也可是社会公众。通过南开大学IR用户界面,用户可通过标题,作者、主题等关键词来浏览或检索;IR在收到用户的检索浏览请求后,会向检索浏览处理区发送相应的指令,然后系统会根据指令对存储区内的现有内容进行筛选排序,并将处理结果反馈给用户。
  
  4 我国IR发展前景展望
  
  随着我国开放存取理念的深入人心和相关实践活动的陆续进行,IR也会随之蓬勃发展。笔者相信,我国瓜的发展将会呈现以下趋势。
  
  4.1 大学IR建设的普及性
  大学作为我国主要的教学中心和科研中心,拥有丰富的学术资源与科研成果,在学术交流创新中发挥着重要作用。目前我国大学还没有大规模地开展瓜建设,但随着国内外已有IR的发展壮大,我国大学会逐步认识到瓜的重要性,从而把它的建设当作重点项目来进行,给予资金和政策支持。而国家教育部门在认识到IR的战略重要性以后,也会鼓励资助大学开展IR建设,使大学IR的建设能够在全国高校中普及。
  
  4.2 大型IR建设的合作化
  IR的实施可加速学术交流,提高实施机构的学术地位与声誉。但这些益处的实现建立在对该IR的点击浏览量之上,而点击量的多少取决于IR所收录的内容的多少和实施规模的大小。因为用户倾向于使用包含内容比较多、规模比较大的瓜,认为这样会收获更多。基于用户这种心理,可考虑由规模实力相当的院校或机构合作建立一个大型IR。这样可综合收录各机构的学术成果,从整体上同时提高各参与机构的声誉,而且通过各机构之间的合作也能避免技术体系的重复建设,实现规模经济。
  
  4.3 区域性的IR联盟建设
  IR建设的前期成本并不高,但要维持瓜运行,就需要不断投入人力、物力和财力。一些重点院校能够得到国家扶持,经济实力雄厚,有充足经费来保障项目的建设和运行。但对于中小型院校,由于经济实力不足和学术资源有限,由其单独进行IR建设将会造成投入与产出不协调,而通过区域性的瓜联盟建设,则可有效解决这一问题。中小型院校可不设立自己的IR运行系统,通过加入该地区的瓜建设联盟,借助联盟内的其他IR,来保存展示该校的学术资源。

相关热词搜索:知识库 构建 流程 我国机构知识库模式构建与流程设计 简述众筹模式的构建流程 酒店众筹模式流程

版权所有 蒲公英文摘 www.zhaoqt.net