【新版DC元数据抽象模型研究】 元数据模型

发布时间:2020-03-07 来源: 感悟爱情 点击:

  [摘要]概要介绍新版DC元数据抽象模型,详细分析新版抽象模型的三个主要组成部分:资源模型、描述集模型和词表模型。在此基础上,分析新版抽象模型对旧版的改进以及对DC元数据编码规范、术语词表、应用纲要的影响。最后指出,抽象模型的完善必将对DC元数据的进一步发展与广泛应用奠定基础。
  [关键词]元数据 DC 抽象模型 DCAM
  [分类号]G250
  
  1 引 言
  
  作为通用的元数据标准,DC元数据致力于描述网络上的各种资源,以使其更加容易地被发现。为实现这个目标,DC元数据从诞生之日起就不断发展和完善。DC元数据的不断发展使DCMI意识到,要实现DC元数据的理性发展和机器可处理,需要一个内在一致的数据模型,于是提出了“DC元数据抽象模型(DCMI Abstract Model,DCAM)”。DCMI从2003年年中开始制定DC元数据抽象模型,相应规范在2005年3月成为DCMI的推荐规范。2007年6月,经过修订的新版抽象模型发布。
  
  
  2 新版DC元数据抽象模型概述
  
  作为抽象的元数据概念模型,新版DC元数据抽象模型更加明确地定义了DC元数据描述所使用的概念、DC元数据描述所使用的术语词汇类别及其相互关系以及DC元数据描述记录的基本结构。抽象模型清晰地定义了DC元数据描述的各类实体对象及其相互之间的关系,明确了一些长期争论或者容易引起歧义的概念,描述了DC元数据所使用的描述资源的信息结构,定义了各个组成部分,说明了这些组成部分如何组织在一起,及如何解释这个信息结构。DC元数据抽象模型描述了DC描述集的结构,但没有规定如何用具体的形式表达DC描述集;描述了元数据术语词汇的各种类型,但没有规定任何固定词汇集合或词表的使用。因而,它提供了一个独立于任何特定编码方式的信息模型,这有助于更好地理解所编码的元数据描述的种类,便于元数据之间的映射和语法翻译。
  
  3 新版DC元数据抽象模型主要内容
  
  新版DC元数据抽象模型由相互关联的三个信息模型组成:资源模型(Resource Model)、描述集模型(Description SetModel)和词表模型(Vocabulary Model)。
  
  3.1 资源模型
  
  资源模型定义了使用DC元数据描述资源的基本结构:“资源―属性―值”三元组的构成(如图1所示)。一个资源(Described Resource)由一个或者多个“属性―值”对来描述,每个“属性―值”对由一个属性和一个值组成,每个值是一个文字值(Literal Value)或者是一个非文字值(Non-literal Val-ue),属性的取值也是资源,是与被描述资源的相应属性相关的物理实体、数字实体、概念实体或者文字实体。文字值指属性的取值是一个文字实体,非文字值指属性的取值是一个物理实体、数字实体或概念实体。
  
  3.2 描述集模型
  描述集模型定义了DC元数据描述记录的结构,如图2所示:
  它使用URI来标识资源和所使用的元数据术语词汇。一个描述集(Description Set)是一条或多条描述(Descrip-tions)组成的集合,每条描述描述一个资源。一条描述是由一个或多个陈述(这些陈述与一个并且仅仅一个资源相关)和零个或一个标识被描述资源的标识符组成。这里体现了DC元数据的一对一原则(One-to-one Principle)。每个陈述是一个“属性一值”对,由一个标识属性的属性标识符和一个值代理(Value Surrogate)组成。一个值代理是一个文字值代理或一个非文字值代理。文字值代理由一个值字符串(值的编码,表达值的内容)组成。非文字值代理由零个或一个值标识符(标识值),零个或一个词表编码体系标识符(标识值所属规范词表)和零个或多个值字符串组成。一个值字符串是一个普通值字符串或是一个某种类型或结构的值字符串。普通值字符串附带一个语言选项,这个选项是一个ISO语言标签如en-GB。具有某种类型或结构的值字符串附带一个句法编码体系标识符来标识值字符串的类型或结构所从属的句法编码体系,如日期类型。
  文字值是一个文字串,如题名(文本),数量(整数)等,不能进一步描述,可以有语种或句法编码体系。非文字值是事物、概念或其他非文字串的东西,如人物、文档、事件等,指代某种事物,可以进一步在另一条描述中进行描述或用一个陈述描述,可以是有值字符串,词表编码体系,值标识符。
  一条DC元数据描述只能描述一个且仅仅一个资源。但是在现实世界的元数据应用中,被描述的资源常常具有各种各样的联系,这就需要把具有某种联系的资源的元数据描述聚合起来形成描述集。而在软件或应用之间交换数据时,通常根据DCMI编码指南对描述集进行编码,以元数据记录(Record)的形式进行交换。
  
  3.3 词表模型
  词表模型定义了DC元数据所使用的规范词表的构成――术语词汇的类型及其相互关系,如图3所示:
  
  一个词表是一个或多个术语词汇组成的集合,一个词汇是一个或多个词表的成员。一个词汇是一个属性(元素)、类、词表编码体系或者句法编码体系。一个属性可以通过关系“有定义域(has domain)”与一个或多个类相联系。如果一个属性与某个类具有此种关系,而且这个属性是一个“属性―值”对的一部分,那么意味着被这个“属性―值”对所描述的资源是这个类的实例。一属性可以通过关系“有值域(has range)”与一个或多个类相联系。如果一个属性与某个类具有此种关系,而且这个属性是一个“属性―值”对的一部分,那么意味着这个“属性―值”对中的值是这个类的实例。一个属性可以通过关系“子属性”与一个或多个其他属性相关联。如果一个“属性―值”对使用子属性及对应的值来描述一个资源,那么这个资源也可以用子属性关联的属性(父属性)及子属性的值来描述。这里体现了DC元数据的向上兼容原则(Dumb-down principle)。一个资源可以是一个或多个类的实例(instance of),也可以是一个或多个词表编码体系的成员(member of)。一个类可以通过关系“子类”与一个或多个其他类相关联。资源是子类的实例,也必定是关联类(父类)的实例。一个句法编码体系是一个类。DCAM没有提供明确的表达类的机制。类可以通过在一条描述中使用一个或多个陈述来实现,或通过属性的定义域来实现。
  
  4 新版DC元数据抽象模型对旧版的发展
  
  DC元数据抽象模型从2005年3月成为DCMI的推荐规范以后,包括DCMI应用委员会、DCMI工作组特别是制定DC元数据应用纲要的工作组、DC元数据应用纲要实施人员、元数据研究人员、编码规范制定人员等在内的使用者提 出了自己的应用评价。这些评价在肯定抽象模型重要价值的同时,发现了抽象模型存在的问题如遗漏、模糊、冗余、错误等,提出了对抽象模型的修改意见。这些应用反馈导致了抽象模型的进一步修订,经过2007年2月、4月两轮修改及公示,最终在6月新版抽象模型成为DCMI的推荐规范。
  新版抽象模型在结构、内容和措辞上作了巨大的改动,其语言表达、语义定义、组织结构更加严谨、清晰、明确。
  新版抽象模型的改进主要有以下几个方面:
  
  4.1 语言表达、文字表述的改进
  新版抽象模型修改了对抽象模型目的的描述,并把词表模型从资源模型中抽出单独定义。旧版抽象模型的目的描述没有反映抽象模型在定义什么是DC元数据、DC元数据描述结构的本质以及如何解释这些结构方面所起的作用,新版抽象模型对此做了改进,更明确地表明了抽象模型的目的。词表模型基于RDF Schema,描述了DC元数据描述所使用的术语词汇的类型以及术语词汇间关系的类型,对于DC元数据描述引用其他元数据标准的属性词汇或自定义词汇而言,有必要更明确地对词表模型进行单独定义并进一步扩展,而词表模型在旧版抽象模型中是隐含资源模型中的。此外,新版抽象模型更新了使用UML表达抽象模型的图表,提高了可读性。
  
  4.2 内容、结构的删减
  新版抽象模型删除了旧版抽象模型中关于编码指南和关于结构化取值的附录以及关于向上兼容的讨论。基于抽象模型的编码规范制定之后,附录中的编码指南将显得冗余。关于结构化取值的讨论放在修订的DCSV、Box、Period、Point规范中。此外,新版抽象模型在描述集模型中删除了标记文本和结构化取值,删除了旧版模型中的“Rich Repre-sentations”。“Rich Representations”中的内容允许自我描述,不符合“一对一原则”。
  
  4.3 已有概念、结构的进一步明确
  这方面的修订包括:子属性、子类在词表模型中作为属性、类之间的关系进行表达,并在词汇表中进行定义,而不再作为单独的类定义;强调描述集是基本的抽象信息结构;使用“Described Resource”作为描述的主语,消除取值和资源的混乱;值字符串可以附带语言选项或者句法编码体系选项,也可以不带,而不是全带;更新句法编码体系的定义,明确地把它与RDF Schema中的类“DataType”相映射;重新定义词表编码体系为“资源枚举集合”,从而使属性的取值作为其成员可以当作类的实例被进一步描述。
  
  4.4 新概念、新结构的扩展
  新版抽象模型对词表模型进行了单独定义,以明确DC元数据描述中使用的术语词汇类别;增加了抽象模型语义与RDF/RDFS的对应关系,使其更加易于理解。
  新版抽象模型为属性附加定义域(Domain)和值域(Range)声明,使隐含在人类可读的元数据描述中的语义显性化。定义域和值域作为词表模型中属性和类的关系进行定义。定义域表明属性所描述的资源所从属的类,而值域表明作为属性取值的资源所从属的类。定义域和值域以有益于推理的形式说明了与一个给定属性相关的被描述资源和取值资源的种类。形式化的定义域和值域使得机器能够处理隐含在自然语言定义中的涵义。
  新版抽象模型将属性的取值进一步区分为文字值和非文字值,以支持任何基于抽象模型的编码格式可以非常明确、容易地转换为RDF格式。
  
  5 新版DC元数据抽象模型对DC元数据其他组成部分的影响
  
  经过十几年的发展,DC元数据已经发展为由多个部分组成的较为严密的体系,包括抽象模型、编码规范、受控规范词表、应用纲要等。在各个部分中,抽象模型越来越起到基础性的指导和规范作用。
  
  5.1 抽象模型与编码规范
  DC元数据抽象模型提供了多种编码方式互操作的概念模型,独立于任何一种具体的编码方式,各种具体的编码规范必须符合抽象模型。新版DC元数据抽象模型推出后,所有的编码规范都将重新修订。2008年1月新的RDF编码规范(DC-RDF)已经作为推荐规范正式推出,替代原有的RDF/XML规范(DCQ-RDF-XML、DCMES-XML)。这个规范描述了如何使用RDF模型来表达DC抽象模型的特征,没有限定任何具体的RDF编码方式如RDF/XML,所有的RDF编码方案都可以使用,可以是RDF/XML、N-Triple、RDFa,也可以是RDF数据库。新的符合抽象模型的XML规范以及(X)HTML规范正在制定之中。新的XML规范将将分为两个版本:DC-XML-Full和DC-XML-Min。DC-XML-Full体现抽象模型的全部特征,比较复杂,满足复杂的元数据需求。DC-XML-Min体现抽象模型的部分特征,是一个子集,直观简单,满足简单的元数据需求。
  
  5.2 抽象模型与术语词表
  DC元数据术语词表作为DC元数据描述所使用的术语词表之一,必须符合抽象模型。2008年1月新发布的术语词表规范根据新版抽象模型作了较大的修订。由于所有符合抽象模型的元数据描述所使用的术语词汇必须赋予唯一的标识符,因此DCMI首先于2007年7月根据新版抽象模型修订了命名域政策规范(Namespace Policy),使命名域政策规范的用语与抽象模型一致,同时增加了一个新的命名域dcam:,以容纳新增的术语词汇。新版术语词表主要作了如下改动:
  对一些定义、描述性标签和用法注释作了修订。
  更加明确地区分两种编码体系:句法编码体系和词表编码体系。修订了两类编码体系的定义,以便明确如何从模型的角度看待和解释这两类编码体系。
  增加与抽象模型相关的两个新的术语:memberOf和VocabularyEncodingScheme。
  明确词表编码体系是一个资源的枚举集合,DCMI类型词表是一个类的枚举集合。
  对属性形式化的定义域和值域及子属性关系(针对部分属性)作了明确的规定。
  为了不影响已有简单DC RDF实现的一致性,DCMI没有给DCMES即dc:命名域中的15个属性规定定义域和值域,而是在dcterms:命名域中新创建了15个具有相同名称的属性,这些新属性被规定为原有属性的子属性,同时分配了定义域和值域。抽象模型不再把属性区分为元素和修饰词两种类型,新的修订包含了子属性关系的表达,如dcterms:creator是dcterms:contributor的子属性。同时,这种关系的表达只限于新创建的15个属性。可以根据应用需求,自由地选择这两种15个属性,但是应该尽可能地选择dcterms:命名域中的属性,它们更适合于机器处理。
  
  5.3 抽象模型与应用纲要
  近年来DCMI大力推广和完善应用纲要,但是应用纲要本身也需要进行一定规范,否则也无法达到最低程度的一致性。完善后的新版抽象模型提供了实现机器可处理的应用纲要所需要的元数据模型。2007年8月的DC年会上提出了一整套以DC元数据抽象模型为基础的元数据应用纲要形式化方案,称为“新加坡框架(Singapore Framework)”。2008年1月DCMI发布了“新加坡框架”的相应文档,阐述了DC元数据应用纲要的概念及组成。其中,最重要的组成部分是描述集纲要(Description Set Profile,DSP)。它基于DCMI抽象模型,为应用纲要提供了一个描述集结构约束语言,对应用纲要的形式化内容作了明确的规定。
  
  6 结语
  
  DC元数据抽象模型定义了元数据概念模型,可以保证DC元数据的理性发展与内在一致性。它基于RDF,使DC元数据可以更好地嵌入未来的语义网应用;独立于任何句法规范,为各种元数据应用提供了互操作基础;支持术语词汇的引用与自定义,定义了元数据描述的信息结构,为实现DC元数据应用纲要的规范化和机器可处理奠定了基础。DC元数据抽象模型的修订使其更加完善,必将为DC元数据更好更快地发展以及大规模应用提供坚实基础。
  
  责任编辑:杜杏叶

相关热词搜索:抽象 新版 模型 新版DC元数据抽象模型研究 都柏林核心元数据抽象模型 抽象模型

版权所有 蒲公英文摘 www.zhaoqt.net