数字图书馆系统 [数字图书馆建设实践中的智能技术应用]

发布时间:2020-03-07 来源: 人生感悟点击：

　　[摘要]将智能技术在数字图书馆中的应用归纳为智能信息访问、智能信息搜索、个性化信息服务、信息代理以及语义网和社会网络应用等5个方面，重点介绍前三个方面的智能技术在数字图书馆建设中的实践案例，给出具体应用的体系结构和关键技术。
　　[关键词]数字图书馆智能技术应用
　　[分类号]G250
　　
　　1　引言
　　
　　数字图书馆智能技术，实质是智能信息技术在数字图书馆系统建设中的应用。所谓智能技术，是指为了有效地达到某种预期的目的，用计算机模仿人脑的功能，进行规划、推理、学习等思维活动，解决由人脑才能处理好的复杂问题的一系列相关技术。有关智能技术的研究，如果从1956年正式提出人工智能学科算起，已经有50多年的历史了。自美国于20世纪90年代初期提出“数字图书馆”概念开始，数字图书馆领域就十分重视智能技术在数字图书馆中的应用。例如，1994年启动的“美国数字图书馆创新计划(DLll)”就已经开始强调智能技术的应用。
　　但是，从总体上看，在相当长的时间里，数字图书馆领域的智能技术主要还是处于研究阶段，研究成果基本上停留在实验室，表现在实验系统中，投入到实际应用中的还很少。著名的图书情报学者F.W.Lan-easter和J.Warner在他们2001年所著《图书馆与信息服务应用的中智能技术》一书中做过这样的总结：“专家系统或‘智能技术’在图书馆中的应用已经在文献中有许多探讨，但是，这带来了很多误导。已经发展成‘运行’状态――即在日常工作中发挥作用并向图书馆工作人员或用户提供实际服务――的系统几乎是不存在的”。Lancaster等人的结论，的确反映了上个世纪智能技术在数字图书馆实践中应用的状况。
　　然而，进人21世纪以后，随着数字图书馆研究的发展和实践经验的积累，数字图书馆中的智能技术已经开始逐渐走出实验室，投入到实际运行的数字图书馆系统中，成为了当前数字图书馆技术和数字图书馆系统发展与建设的一种趋势。
　　本文目的不是系统地综述这一领域研究进展，而是重点介绍一些实际应用案例，用应用案例来说明智能技术在数字图书馆建设实践中应用的实际，所举的示例都是已经投入了实际使用的公开的数字图书馆系统，可以从所提供的网址进入其系统界面，其中有些可以从网上下载其完整的系统代码。本文不涉及仅有文献报道的研究及其实验系统以及没有具体公开应用的开源系统。
　　
　　2　数字图书馆建设实践中的智能技术应用
　　
　　目前，从国内外数字图书馆建设和研究的实际情况来看，已经初步形成了智能信息访问、智能信息搜索、个性化信息服务、信息代理以及语义网和社会网络应用等数字图书馆智能技术的热点研究领域，其中前三个领域中的研究成果，已经部分地投入实际应用。
　　
　　2.1智能信息访问
　　智能信息访问(Intelligent Information Access，IlA)是指利用人类知识或类人智能，有效和充分地访问大规模、分布式、异构和多语言(目前主要是文本)信息资源。换句话说，凡是应用人的智能进行检索、理解、综合或抽取信息的信息访问技术，都被认为是智能信息访问技术。
　　
　　
　　2006年，欧洲的PASCAL将IIA列为专题计划(Thematic Programme)，并于2006年7月6日至8日在芬兰首都赫尔辛基召开了国际智能信息访问研讨会(HIA-2006)。从相关的文献及会议内容来看，HA主要包括文档自动分类与聚类、文档概要、信息抽取、跨语言检索、问题应答、整合与可视化等6个子领域。
　　从上述IIA的研究领域来看，研究范围较为广泛，其中的每一个子领域都比较多的研究成果，在数字图书馆系统中也有一些实际应用，这里不一一列举，着重介绍一个比较综合的开源项目Lemur。
　　Lemur是美国卡内基梅隆大学语言技术研究所和美国马萨诸塞大学智能信息检索中心开发的一个开放源码项目，其目标是促进语言建模和信息检索方面的研究，包括特定目标检索、分布式检索、跨语言检索、自动概要、信息过滤和文本分类等技术的研究。图1显示了Lemur的功能结构。
　　从图1中可以看出，Lemur主要由索引模块和检索模块组成，同时提供简单的用户界面和应用程序接口，因此，Lemur不仅仅是一个独立的系统，而且是一个程序接口库API，用户可以根据自己的要求调用其索引方法和检索方法，从而达到预定的目的。
　　Lemur最大特点是支持多种语言模型，不仅支持较为传统的向量空间、TF/IDF、Okapi、InQuery等模型，而且支持基于统计的语言模型如KL-divergence、相关度模型等。加上Lemur可以处理多种格式的文本(平面文本、HTML、XML、PDF、Microsoft Word、MicrosoftPowerPoint、TREC Text、TREC Web以及MBox)和多种语言的文本(可以处理英文、中文和阿拉伯文的文本)，这使得Lemur有强大的智能处理功能以及多文本处理适应性，从而能够完成HA领域中的大多数工作，包括常规文本检索、段落检索、分布式检索(基于查询取样的数据源描述以及基于CORI算法的数据源选择等)、跨语言检索、文档聚类、文档概要等。
　　Lemur的技术在美国国家科学、数学、工程和技术教育数字图书馆(NSDL)、美国国会图书馆的“美国记忆”(American Memory)、欧盟的“多媒体国际数字图书馆”(MIND)项目”0中均有应用。
　　Lemur的代码可以从http：//www.省略/上获得。
　　
　　2.2智能信息搜索
　　智能信息搜索是根据用户的意图，在特定的网络空间上应用人的智能对信息进行处理(如查询、理解、综合或抽取)，从而发现、下载与用户需求相关的信息。与普通搜索引擎相比，智能信息搜索更注重对用户需求以及搜索内容的理解，旨在确保搜索到的内容符合用户需求。
　　除在计算机领域召开的国际学术会议中对智能搜索问题进行探讨以外，2004年在德国召开的“第七届比勒费尔德国际会议”专门举办了题为“数字图书馆与信息门户中智能搜索引擎及导航技术”的专题研讨会。概括地说，智能信息搜索的主要研究内容包括资源理解技术、查询理解技术、用户需求理解技术以及智能搜索策略等几个方面。
　　加州大学图书馆开发的Nalanda iVia FocusedCrawler(NiFC)，是一个面向主题(专题)的智能搜索系统，它可以根据图书馆工作人员指定的主题样例(即种子站点或种子URL)自动发现Web上的主题相关信息，图2显示了NiFC的结构：
　　从图2中可以看出，NiFC使用了两种类型的分类器；一种是学习模式的分类器，它利用NiFC存储在系统“分类表”中的内置分类体系以及存储在“样例表”的URL指定的种子站点进行学习，建立Web文档的分类模型，爬行器进而据此判断采集到的文档是否属于预定的主题，从而确定应该采集回来那些文档；另一种分类器是过滤模式的分类器，它的功能是分析采集回来的Web文档中的链接与采集要求的相关性，根据网页链接与预定主题的相关度来维护一个链接优先级队列，确保与预定主题相关度大的链接能够被先访问。NiFC的另一项特色技术是链接分析技术，采用了HITS和PageRank相结合的算法来提高爬行效率。此外，NiFC还提供了一个用户界面，允许用户根据当前的采集结果调整相应的类别和样例，以便更好地训练分类器，使之建立的分类模型更加符合用户的需求，这实质是一个用户的反馈过程。
　　NiFC是加州大学图书馆开发的开源系统iVia的四个组成部分之一(另外三个组成部分分别是iVia虚拟图书馆软件、DataFountains以及iVia c++接口库)。加州大学图书馆的INFOMINE系统则是利用iVia构建起来的Internet资源的虚拟图书馆，该系统面向大学教师、学生和研究人员服务，资源类型包括网络上的数据库、电子期刊、电子图书、公告、邮件列表、图书馆联机目录、网络文章、研究人员人名录以及其他类型的信息资源。INFOMINE系统的特点之一是利用NiFC来自动地爬行和识别相关的Internet资源。
　　iVia的源码可以从http：//ivia.ucr.edu/中获得。
　　
　　2.3个性化服务
　　个性化服务是指以用户为中心，根据用户提出的明确要求，或基于用户的学科、偏好、兴趣等个人特征，通过用户定制、系统推荐和推送等方式，主动向用户提供其可能需要的信息和服务。
　　个性化服务的思想来源于电子商务领域，随着数字图书馆的发展，个性化服务的概念被引入到图书情报领域，并得到了广泛的重视，2007年DELOS的第10届专题研讨会的主题就是“数字图书馆中的个性化访问、模型管理和环境感知”。总体上说，目前数字图书馆个性化服务技术的主要研究内容为用户建模、用户信息收集、信息推送等三个大的方面。
　　意大利乌迪内大学开发的个性化服务系统Bib-lioMed，综合运用了上述用户建模技术、用户信息收集技术以及信息推送技术，是一个已经投入实际使用的数字图书馆个性化服务系统。该系统可以提供的资源包括医学数据库(如PubMed等)、联机医学期刊、网上书店资源(如Amazon等)、乌迪内大学及相关机构的图书馆目录、医学网络资源门户以及医学论坛、博客、名录等。图3显示了BiblioMed系统的结构：
　　在BiblioMed中，允许最终用户以文档片段的方式提交自己感兴趣的信息，例如用户可以将其感兴趣的文章作为样本，提交给系统。ifMONITOR模块用语词共现技术对用户提交的样本文档进行分析，形成由共现词对来表达的用户兴趣模型。当元搜索模块和期刊搜索模块发现有新的文献时，iIMONITOR模块对新文献进行处理，得到基于语词共现的文档内容表示，并将这种文档内容表示与已有的用户模型做匹配，将匹配结果大于一定阈值的文献作为符合用户需求的文献主动推送给用户。
　　BiblioMed系统于2006年开发完成，部署在乌迪内大学图书馆和乌迪内医院，当年即有l 250名注册用户，平均每天的信息推送服务超过了70名用户。目前BiblioMed系统还在不断地进行改进，根据用户的反馈，提升系统的性能并增加服务项目和服务方式。
　　4　结语
　　
　　正如本文开始所说的那样，自从数字图书馆这个概念出现的那一天开始，研究人员就一直试图引入智能化技术，以提高数字图书馆的服务性能，因而，这方面的研究成果很多，发表的文章无数，也有很多实验性的系统。本文所举的实例可能不是众多研究中最好的，但它们却是实实在在投入实用的系统，能够真实地反映智能技术在当前数字图书馆建设中的应用现状。可以预见，随着研究人员对现有研究成果的总结和提炼，在不久的将来，数字图书馆的智能化水平将会被提升到一个新的高度。

数字图书馆系统 [数字图书馆建设实践中的智能技术应用]

热点文章阅读