Deep Web信息抽取研究|信息抽取

发布时间:2020-03-07 来源: 美文摘抄 点击:

  [摘要] 针对DeepWeb信息资源的利用问题,指出对其进行信息抽取的意义,分析对比在信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,采用基于关键词查询和建立文档对象模型的方法对专利数据库进行抽取实验。通过分析实验结果,验证抽取方法的准确性,指出不足之处和解决的途径,以期达到充分利用DeepWeb信息资源的目的。
  [关键词] Deep Web 信息抽取 查询接口 命名实体识别 文档对象模型
  [分类号] TP31l
  
  1、Deep Web的特点
  
  随着网络信息资源的爆炸式增长,如何从中获取用户所需要的信息成为人们所关注的焦点问题。人们可以通过搜索引擎来获取需要的信息,但这是建立在搜索引擎对网页进行索引的基础上。而有很多网页是搜索引擎所无法建立索引的,这些具有隐形特性的网页集合被人们称之为Deep Web或Hid―denWeb。
  Deep Web的概念最初由Dr.Jill Ellsworth在1994年提出,指的是常规搜索引擎不能索引到的网络资源。根据2001年Michael K Bergman关于Deep Web研究的白皮书数据,相对可以被搜索引擎索引到的Surface Web而言,Deep Web的规模是其400至500倍,而根据文献[2]中关于DeepWeb的调查报告,从2000年到2004年,它的规模增长了3~7倍,并且还在不断增长中。由以上的研究数据可知,如果能够将如此规模庞大的网络资源的信息内容有序地抽取、整理出来,对于情报分析和研究工作是很有意义的。
  
  2、抽取方法概述
  
  Deep Web中的信息资源,根据文献[2]中的分析,基本上是以网络数据库的结构进行存储。那么在访问时,首先要经过数据库的访问接口,普通搜索引擎不能索引Deep Web内容的原因也就在于其不能同Web表单进行交互,因此也就无法取得检索结果页面进行索引。那么要实现对这种资源类型的信息抽取,除必要的抽取程序外,还需要处理数据库查询接口的交互问题,以下分两部分进行介绍。
  
  2.1 处理查询接口
  Web表单,其实质是后台数据库查询接口。用户通过查询接口输入相应的信息来查询数据库内容,而抽取程序通过特殊定制的表单交互程序来访问数据库。
  按交互程序的特点,可以分为两类:
  2.1.1通过关键词覆盖的方法使查询有选择地覆盖结果集。此类方法的原理可以表述为:给定查询q,使用P(q,)表示对于查询qi服务器所返回的结果页面占所有可能结果页面的比例,那么目标就是寻找一个查询集合(q1,q2,…,qn)使得返回结果P(q1 V q2 V…V qn)值最大化。在实际查询中,有两种关键词选择策略:一是随机策略,即从候选词典中随机选取关键词用于提交查询表单;另一种是适应性策略,通过分析之前查询所返回的结果集,估测待选查询关键词的返回页面数,并找到可能返回数最高的关键词。适应性策略是一个迭代计算的过程,步骤上比随机策略复杂,但根据文献[5]中的实验结论可知其查询覆盖率一般要优于随机策略。
  2.1.2根据对表单形式的查询接口进行的研究所总结出的基于查询接口模型的方法表单内一般含有以下常见的控件元素:文本框、选择列表框、单选按钮、复选按钮等。这种方法将表单内各种控件元素进行归纳分析,解析控件元素的标签元素和值域类型以构造出一个查询接口模型。此模型的形式如二元关系组的集合:F={(E,D1),(E2,D2),…,(En,Dn)},其中F代表当前表单,E是标签元素,D是值域。如专利数据库的查询表单通常由专利类型、申请专利号、专利名称、申请专利权人等元素构成,有以下结构的模型:
  F={(专利类型,{发明专利,实用新型专利,外观设计专利}),
  (申请专利号,字符串),
  (专利名称,字符串),
  (申请专利权人,字符串),
  (…,…))
  这个模型描述了这个专利数据库的查询接口特征。用(L,V)的二元关系来表示输入表单的信息,其中L是标签名,V是输入值,所有的(L,V)关系组成集合Label Value Set(Lvs)。对于每个标签元素E,它的标签名是L=label(E),对应有V={v1,v2,…,vn}的值集合来满足输入条件。那么对于一个表单F,其所有可能的输入集是(F,Lvs)=V1×v2×…×vn,所需要的输入集就是使有P({E1←∥V1,En←Vn})=1-II(1-Mv),其中Mv是值v的相关度。这里的相关指的是该输入值与值域的相关性,其计算有不同的实现方法,常见的方法有计算相关性权重以及计算特征向量的夹角等。
  
  2.2抽取结构化数据
  信息抽取的信息类型主要分为:结构化信息、半结构化信息和自由格式文本,而要抽取的Deep Web资源对象一般以半结构化的查询返回网页的形式存在,对它进行信息抽取实际上是将半结构化网页内的信息以结构化的形式抽取出来的过程。
  根据MessageUnderstandingforComprehension(MUC)对信息抽取的分类,按信息抽取的内容和抽取信息的聚集水平,信息抽取可以分为命名实体识别(Named Entity Recognition)、多语种实体识别任务(Multi-lingual Entity Task)、模板元素(Template Element)、参照(coreference)、模板关系(TemplateRelation)、情景模板(scenario Template)这6种类型。基于以上分类,对Deep Web的信息抽取方法可归纳为以下三类。
  2.2.1基于命名实体识别的抽取方法 命名实体识别是信息抽取中的基础类型,抽取系统从信息源中标识出命名实体并按相应的实体名进行分类。在检索结果页面中,存在大量可标注信息,如文献检索结果页面内的题名、摘要、作者等和专利检索结果页面内的申请号、公开号,专利权人等。此类方法在实现上一般借助文本识别工具,将标注的文本信息匹配识别出来。针对返回页面,通常使用正则表达式匹配标注的字符串。正则表达式又称正规表达式,是指用来描述或者匹配一系列符合某个句法规则的字符串的单个字符串表达式。标注命名实体也就是对要抽取的数据编写相应的正则表达式,然后根据这些正则表达式就可以把命名实体从返回页面中抽取出来。这种方法的优点在于正则表达式构造过程比较简单,而检索结果页面上的命名实体数量一般不会超过30个,因此使用这种方法能够快速地构造抽取程序,并且可以保证很高的准确率(见表1)。但缺点就是命名实体的表示和正则表达式的紧密耦合,一旦返回页面发生改变,就得重新进行标注,导致抽取程序缺乏通用性。
  2.2.2基于模板的抽取方法在MUC对信息抽取的分类里, 模板元素指的是从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的属性模板中。基于模板的抽取方法的核心就是预先构建属性模板的过程。在实现时,针对返回页面,一般先将其解析成语法树,再由语法树生成抽取模板。在网页信息抽取中,使用文档对象模型(Document ObjectModel,DOM)来生成语法树是常用的手段。DOM文档中的逻辑结构可以用节点树的形式进行表述。通过对网页进行解析,页面中的元素便转化为DOM文档中的节点对象,生成的语法树也称为DOM树,而包含所有待抽取节点的DOM树就是抽取模板。与基于字符串匹配的抽取方法比较,基于模板的抽取方法通过模板这个抽象概念将被抽取对象与抽取程序解耦,因此具有较高的通用性,但模板依赖网页结构生成,仍然具有一定的局限性。
  2.2.3基于情景的抽取方法这里的情景(Scenario)指的是要抽取的特定信息实体及实体之间的关系。这种方法抛开了信息载体的表面结构,挖掘信息的内部联系并将这种关系提取出来。该方法综合涉及实体的标识、实体与不同场合的自身及不同实体间的参照、在模板基础上的模板元素间关系的抽取和由实体到事件的填充并还原整个事件模型等内容。虽然目前的英文抽取系统在命名实体和实体关系的识别方面已达到或接近实用的水平,但在真正使用中,由于实体到事件和还原事件模型方面涉及自然语言处理中的一些核心问题,抽取性能还有待提高。
  除以上三种方法,还有一些其他信息抽取方法和模型,如基于语言模型的隐马尔可夫模型和最大熵模型、基于神经网络、本体以及基于元数据标引等抽取方法。但Deep Web的信息内容主要由结构化网页构成,这些抽取方法有些不适用,有些被前述三类方法所包含。
  
  
  3、基于模板的专利数据抽取实验
  
  对于专利数据,其绝大部分的都存储在专利数据库内,那些可以通过网络来访问的专利数据库构成了Deep Web资源的一部分,并且很难被搜索引擎索引到。使用上述的信息抽取方法对这部分专利数据进行抽取,对于专利情报研究工作很有帮助,同时也可以验证所总结出的信息抽取方法的有效性。
  这里对美国专利数据库(USPTO)和中国专利数据库内的部分资源进行抽取。在设计表单处理程序时,考虑到实验的规模,没有采用遍历整个数据库的形式,而是选择一些关键词在其所代表的领域内进行小范围内的信息抽取。经由分析数据库的查询表单,将关键词和限定条件(专利年份、类型等)封装到HTTP POST数据包内,发送到服务器端,并取得返回的检索结果页面。在对结果页面进行信息抽取时,在保证准确率的前提下选择适用性较高的基于模板的抽取方法,对返回页面进行解析,生成抽取模板,具体步骤如下:
  页面转换。使用Tidy等工具将HTML格式的返回页面去除页面噪音,并转换为XML或者XHTML的格式以方便DOM树的生成。
  DOM遍历。使用DOM工具遍历转换后的文档内容,生成对应的DOM树。树的结构如图1所示:
  
  生成抽取模板。将DOM树上不需要的节点裁剪,得到关于抽取节点的最小DOM树,即为模板。如把图l中TD→“申请专利号”、TD→“申请日”等多余标签所在的路径去掉后得到的树就是一颗包含页面上所有专利信息的最小DOM树。
  信息抽取。在得到抽取模板后,就可以对整个检索结果页面集进行抽取。对每个页面,依次进行上述前两步处理,得到DOM树对象,然后按最小DOM树抽取模板取得树上各节点的值。在程序实现时,涉及树节点的定位问题,常用的方法是采用XPath工具来解决。对于XML文档,XSL(可扩展样式表语言,Extensible Stylesheet Language)使用XPath来标识XML文档中的元素位置。对于抽取模板,用XPath表达式的形式把各节点的位置信息记录下来,而对于检索结果页面生成的DOM树,就可以使用根据模板得到的XPath表达式来把需要的节点一一找到。如把图l中申请专利号、申请日、专利名称、公开号和公开日这几个节点的位置用XPath表达式来描述就是一个如下的集合:
  
  集合表示的是各节点及其位置的一一对应关系,其中的数字序号表示兄弟节点的顺序(图1中同一颗子树内最左边节点的位置计为1,其兄弟节点位置计数向右递增)。那么对于已经DOM化后的检索结果页面,就可以使用以上XPath表达式来定位节点并获取值。
  按以上方法,对两个专利数据库的部分专利数据进行抽取,得到实验结果如表2所示。
  
  实验数据来自对两个数据库内有关纳米颗粒的专利数据,都抽取100项专利,在美国专利中一共有129项相关专利,得知召回率是100/129=77.5%,而由于该专利数据库检索结果页面本身的结构上差异比较大的原因,很多页面所包含的待抽取信息项(抽取节点数)并不相同,导致抽取模板的适用性不高,直接影响抽取准确率即抽取记录中相关记录占总抽取记录数的比例;而中国专利数据的准确率很高,达到了98.7%,原因在于该专利数据库检索结果页面结构统一,每个页面均含有19个待抽取信息项,因此抽取模板对于拥有统一结构的检索结果页面能够准确地把每一项专利信息抽取出来。由实验数据可知,在页面结构统一的情况下,基于模板的抽取方法能得到较高的准确率,相反,差异性较大的页面结构也降低了抽取准确率。
  
  4、结语
  
  本文针对Deepweb资源的信息抽取,总结了信息抽取过程中处理查询接口和抽取结构化数据这两个主要步骤所使用的技术,并实证基于模板的抽取方法的可行性。基于模板的抽取方法具有较高的准确率,并且模板结构使得抽取程序具有较好的可移植性,但它在模板生成和抽取准确率上过于依赖网页结构的局限性,限制了它在Deepweb众多结构的网络资源抽取工作中的进一步应用。随着自然语言处理技术的进一步发展,抛弃了信息载体的结构特征而基于信息内部联系的抽取技术将是下一步研究工作的重点。   3.2图书馆学理论传播和普及过程中的中国化
  西方图书馆学作为与中国图书馆实践有一定距离的学理结构,其输入过程大致经历了以下几个阶段:①中国的现实需要,这是前提。从鸦片战争及洋务运动中国先贤对西方图书馆的宣传介绍,到戊戌变法前后学习西方创办新式图书馆,到清末新政时期公共图书馆观念的传播和公共图书馆运动的兴起,直到1919年新文化运动以来对西方图书馆学理论的引进,中国近现代图书馆理论和实践过程始终伴随着如何学习西方的问题。这其中积累的经验和教训,在当今图书馆学研究如何中国化的问题上仍有参考价值。②传播普及。即努力突破西方图书馆理论的纯粹学术层面,引起官方和大众的广泛关注。这首先涉及到语言转换和理解转换的问题,意味着学者们不仅要在学术层面上一展身手,还要在学术层面之外有所作为。③发现问题和证伪通则。即西方学理在面对中国图书馆实践时,到底表现出了哪些错位甚至无能。这是中国化研究过程中最为重要和核心的一环,集中体现了中国图书馆实践的现实需要与西方学理之间的张力。
  图书馆学知识体系现有了一定程度的普及,全国高校设立的图书馆学本科、硕博士教育已初具规模。如何在普遍性工作大发展的基础上,对因中国社会政治经济发展而带来的图书馆事业新问题作出新理解,这是目前中国化问题的重中之重。遗撼的是,学术界目前津津乐道的仍是上世纪90年代以来西方“后现代”话语在图书馆学中的嫁接和应用。技术图书馆学、科学图书馆学和人文图书馆学,作为当前中国图书馆学研究的三大话语类型无一不是在亦步亦趋于西方的学术理论。如图书馆哲学作为一个新兴的研究领域,即起源于1986年卿家康等翻译了美国学者谢拉的《图书馆哲学》。
  3.3西方图书馆学科学主义经验研究的中国化
  西方图书馆学理论是具体的,同时也因具有西方科学主义经验研究的传统而具有“通则”性。然而,这些具有“通则”性的理论虽然“科学”,但不一定符合中国的国情。这样,通则如何在中国经验下被证伪,就成为图书馆学研究中国化的重要课题。我们认为,那些在西方形成的“科学”理论,在相关论域中只能作为分析中国问题的参照,无可避免地体现着西方理论与中国实践之间的紧张。如,元数据作为一种微观知识组织法,其理论所强调的对各种复杂形式的知识的格式化描述,在现实知识组织过程中并不为中国人(尤其是普通用户)所接受和理解。早在《七略》时代,中国图书分类的类名就不是“格式化”的。如“六艺略”这个一级类名其实下分“九种”文献,人们是根据先秦以来关于“六艺”(它的组成、它和孔子的关系、它在政治教化上的功能等)文化背景来理解这一“略”的所有文献的;又如《四库总目?集部?诗文评》类以《文心雕龙》为核心文献,人尽皆知的“《文心雕龙》”参与着人们对“诗文评”类名含义及其下分所有文献的理解[8]。虽然以“科学和民主”为信念的五四新文化运动迄今已有近一个世纪的时间,但饱受传统文化熏陶下的中国知识分子仍然更多地倾向于诸如“六艺略”或“诗文评”那样的经验感受而不是西方科学主义演绎下的抽象理解。这可以很好地解释,为什么西方自信心爆棚的各种知识管理方法,当运用于中国图书馆实践时几无成功案例的事实。
  
  4结语
  
  图书馆学研究中国化是世界范围内图书馆学研究本土化的一个子课题。当今世界的全球化浪潮,作为一种非蓄意和非预期的全球性效应,正促进着基于民族本位立场的图书馆学中国化关怀。图书馆学研究中国化问题不仅渊源久远,而且将永远存在,这是由西方图书馆学产生的历史背景和其学理结构决定的。图书馆学研究中国化的内容包罗甚丰,但目前中国化研究的重点应该转移到努力发现中国当今特定时空下、特定图书馆实践的新问题,去证伪那些一度作为中国图书馆学研究中心的西方通则。
  
  参考文献:
  [1]吴慰慈.图书馆学学科建设要本土化.图书情报工作,1998(1):1.
  [2]刘兹恒.再论图书馆学本土化.图书与情报,2005(4):13-16.
  [3]刘兹恒.试论图书馆学本土化的目的与特征.图书馆杂志,2004, (11):2-7.
  [4]孟广均,徐引篪.国外图书馆学情报学研究进展.北京:北京图书馆出版社,1999:64-114.
  [5]刘国钧.发刊词.图书馆季刊,1926(1):1.
  [6]鲍曼.全球化――人类的后果. 郭国良,徐建华,译.北京:商务印书馆,2001:57.
  [7]艾斯.全球网络的文化与交流:文化多元性,道德相对主义,以及一种全球伦理的希望.华明,译.上海师范大学学报,2006(5):11-23.
  [8]傅荣贤.《七略》中的核心文献.大学图书馆学报,2004(4):69-72.

相关热词搜索:抽取 研究 信息 Deep Web信息抽取研究 deepweb网民恐怖经历 deepweb暗网链接

版权所有 蒲公英文摘 www.zhaoqt.net