中文信息处理 [基于中文信息处理的古籍整理研究评述]

发布时间:2020-03-07 来源: 美文摘抄 点击:

  [摘要]随着计算机技术的飞速发展,基于中文信息处理的古籍整理已成为近年来的研究热点,并且取得一些可喜的成绩。在搜集整理当前研究与应用成果的基础上,从古籍的自动录入、自动断句、自动编纂以及自动翻译等方面对基于中文信息处理技术的古籍整理的研究现状进行概述,同时分别探讨这几个方面仍然存在的问题,并展望其今后的研究工作。
  [关键词]古籍整理 中文信息处理 古籍研究
  [分类号]G252.7
  
  1 引言
  
  在人类几千年的历史发展中,我们的先祖利用文言撰写了大量的作品,例如:史书、笔记、方志、字书、诗词、杂考等等。这些浩如烟海的古籍记载了华夏民族的历史和辉煌,是极其珍贵的文化遗产。因此如何对它们进行有效地整理和深入地研究是我们当代科研工作者责无旁贷的任务。传统古籍整理的方式一般都是人为的手工方式,这是一项极艰难极复杂的工作,需要大量的时间和耐心。但当计算机出现以后,人们就期盼能用计算机来进行古籍整理研究,而中文信息处理技术就是实现这一美好愿望的有效手段。
  现在对中文信息处理通常的理解是:用计算机来加工处理中文的信息,属于涉及计算机科学、认知科学、语言学、信息学、数学、声学等多种学科的一门综合性交叉学科。中文信息处理包含汉字输入、文字识别、语音识别、汉语分词、语义分析、语言翻译、信息检索等多个分支。汉字输入就是指将汉字信息输入到计算机,常见的输入方法有键盘输入和联机手写输入;文字识别是指用计算机自动地识别出写在介质上的汉字,文字识别一般可分为印刷体识别和手写体识别两种;语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的信息处理技术,具有代表性的方法主要有隐马尔可夫法和神经网络法;汉语分词就是指利用计算机自动地将一个句子中的每个词分开,即类似于英语中用空格将每个单词隔开,目前的分词方法归纳起来有三种类型:机械分词法、语义分词法和人工智能法;语义分析指的是在分析句子的句法结构和辨析句中每个词词义的基础上,推导句义的形式化表示;语言翻译就是用计算机来实现不同语言之间的翻译,被翻译的语言通常称作源语言,翻译成的结果语言称作目标语言;信息检索是指计算机通过特定的算法或模型从各种信息文档中搜索有价值的信息或知识的一种高技术。当前越来越多的研究者将这些中文信息处理技术应用于古籍整理研究中,尤其是在古籍的录入、标点、编纂等方面获得了显著的成果。
  
  2 古籍自动录入
  
  传统的古籍录入方式多采用手工的形式,通过人为的键盘输入或是联机手写输入的方式将古籍中的文字输入计算机,这种方法要花费大量的人力和时间,而且容易出错。因此要实现古籍中的文字信息高速、自动输入到计算机,目前多采用光学字符识别(OCR)技术来进行古籍的录入。OCR技术可以高速地辨别纸张上的文字,并将其转化为可编辑的文字。古籍自动录入大致要经过图像扫描、预处理、版面分析、文字区域提取、文字识别、后处理等几个步骤,具体过程如图1所示:
  
  古籍自动录入技术运用比较成功的例子是“数码翰林”软件,该软件已经制作了保持原书排版风格的《四库全书》及《四部丛刊》等电子图书。古籍自动录入技术最主要体现在古籍的数字化工作中,而到目前为止古籍数字化已经取得了丰硕的成果,大量的古籍数据库检索系统不断涌现,例如北京大学的《全唐诗》和《全宋诗》电子检索系统、陕西师范大学的《二十五史》全文检索系统以及台湾大学的中华电子佛典线上藏经阁大正藏全文检索系统等等。
  尽管已经有了成功应用的实例,但是当前古籍的自动录入依然面临着如下问题:
  ?古籍自动录入的优劣依赖于文字识别的质量,然而文字识别本身就存在着诸如汉字类别较大、汉字结构复杂且相似字较多等困难。
  ?现在的计算机汉字字库中缺少古籍中经常出现的冷僻字和异体字,例如汉字的赋中,作家为了炫耀自己的才能,往往罗列很多生僻字,有“字林”之讥,如《上林赋》、《子虚赋》,等等。
  ?经常会由于仪器硬件设备的问题或古籍中的字迹不清晰,造成图像扫描质量差且存在大量噪声,从而使得文字识别率低。
  针对上述问题,今后研究工作的重心应该放在提高文字识别的效率和完善汉字字库上来,尤其是前者,鲁棒性更强的文字识别技术对于古籍的自动识别是至关重要的。
  
  3 古籍自动断句
  
  与现代人不同,古人写文章是不用标点符号的,因此要正确理解古籍中文章的词义或句义,就需要断句。断句就是指把没有标点符号的文字,整理成为清晰可读的句子。传统的方式多为人工断句,这种方式费时费力,因此最近很多研究者开始尝试利用计算机来实现古籍的自动断句。古籍自动断句的,大致要经过文本预处理、文本断句、结果反馈等几个步骤,如图2所示:
  
  近年来,古籍的自动断句开始成为研究的热点。文献中不仅给出了农业古籍断句的系统结构图,而且还给出了一种基于模式匹配的断句方法;该方法首先采用句法特征词法、同义语标志词法来进行初步断句,然后利用反义复合词、引书标志、时序、数量词、重叠词、动名结构及比较句法进一步进行断句,最后使用农业用语和禁用模式来提高农业古籍断句的准确性。文献提出了一种基于前后N-gram模型的古汉语断句算法;N-gram模型又称作N元语法模型,它是一种基于统计的文本模型,其基本思想是将文本内容按字节流进行大小为N的滑动窗口操作,形成长度为N的字节片段序列,每个字节片段称为gram,对全部gram的出现频率进行统计,并根据统计结果和预先设定的阈值对文本建立模型。文献提出了一种以两个统计量互信息和测试差为特征的条件随机场模型,并将该模型应用于古文的自动断句;条件随机场模型是一种对数线性判别模型,它最早由Lafferty等人提出,目的是为了解决当时各种序列标注模型存在的标注偏置等问题,该模型在中文信息处理领域有着非常广泛的应用。
  尽管目前古籍自动断句的研究取得了一定的成绩,但是仍然存在着如下的问题:
  ?当前的一些方法获得的古籍断句的准确率很低,例如:文献中的准确率大概为48%,而文献中的准确率则为52%。
  ?自动断句方法仅仅在少量的古籍中进行验证,因此方法缺乏较好的泛化性,例如:文献和文献中的实验只在《论语》和《史记》进行。
  正是由于上述问题的存在,古籍自动断句的研究才急切地呼唤着更多性能卓越的新方法的出现,汉语分词技术则可能是在今后会成为实现古籍自动断句的重要手段,而最近的文献中就已经给出了相关的古汉语分词方法。
  
  4 古籍自动编纂
  
  古籍的编纂就是指按照相关的主题来编辑古籍文献。与录入和断句一样,传统的手工编纂,劳动量巨大,且繁琐乏味的机械工作带来更多的是低效率和高成本,因此利用计算机自动编纂古籍已成为大势所趋。 古籍自动编纂需要确定编纂主题、文档分析、文档编纂等步骤,一般流程如图3所示:
  
  到目前为止与古籍自动编纂相关的文献也有不少,文献中介绍了一种农业古籍自动编纂方法,该方法的主要原理是:如果两个句子包含相同的单词越多,那么它们的关系越密切,然后根据句子间的密切关系划分出句群,如果发现某一句群包含编纂的主题,则将其摘录出来,在实际应用中,文献通过提取子句关键词、计算紧凑度和深度值等方式来最终实现农业古籍的自动编纂。此外,文献中以《道德经》语词索引自动编纂为例探讨了古籍索引机编的相关问题。文献中给出了一种基于N-gram模型、词频统计等算法的古籍文本抽词方法,该方法的功能是从古籍文本中提取出大量明确表达文献主题内容的单义词,主要的应用场合包括各种词表的编制以及索引的编制等等。
  古籍的自动编纂是古籍整理的基础,高质量的编纂对于古籍的研究具有非常重要的意义。然而目前古籍自动编纂的研究尚处于起步阶段,因此这项工作还有更多需要解读的技术难题,例如:文档的分割、子句的划分等等。尽管文献中认为古籍自动编纂与中文信息处理中的自动文摘技术既有联系又有区别,两者并不通用。但是笔者认为随着中文信息处理技术的发展以及古籍自动整理研究工作的深入,在今后自动文摘算法的思想是可以为古籍自动编纂所吸收和借鉴的,例如:基于统计的自动文摘技术就可以通过改进用于古籍的自动编纂,而且有理由相信随着未来用户需求的变化,基于理解的自动文摘技术和基于信息抽取的自动文摘技术也将会对古籍自动编纂研究的发展起到巨大的推动作用。
  
  5 古籍自动翻译
  
  由于语言习惯的逐渐发展,现代人如果不经过专业训练,如果没有古汉语知识的积累,那么在面对古代文献时,总会感觉生涩难懂,而这些珍贵的古代文献中不仅记载着中华民族的悠久历史和灿烂的文化,而且凝聚着古代千千万万劳动人民的智慧与经验,因此要让更多的中国人认识和理解古籍文献、学习和传播古籍知识,古籍的翻译是至关重要的前提。对于汗牛充栋的古籍。人工翻译显然是不现实的做法,而与计算机相结合的古籍自动翻译则更为切实可行。简单流程如图4所示:
  
  目前有关古籍自动翻译的文献非常少,仅文献和文献有涉及这方面的内容。文献中采用相对比较成熟的规则翻译方法和实例库相结合,利用中文信息处理技术的一些研究成果,初步构造了一个古文自动翻译系统。文献中设计与实现了古今汉语自动句对齐及相似古文句子检索算法,并且提出从大量的古今互译实例中检索与输入句子最相似的源句子是基于实例的古今汉语机器翻译必须解决的首要问题。
  尽管当前鲜有人进行古籍自动翻译的研究,但是并不表示这项工作没有可研究之处,在今后,古籍自动翻译的研究可以在如下方面做出初步的尝试:
  ?将最新的实用机器翻译技术用于古籍的翻译。机器翻译简单地说就是用计算机将一种自然语言在没有人参与的情况下翻译为另一种自然语言,目前机器翻译方法主要包括:基于规则的机器翻译方法、基于中间语言的机器翻译方法、基于实例的机器翻译方法和统计机器翻译方法。使用机器翻译技术可以对古籍自动翻译的研究产生重要的推动作用。
  ?设计古籍自动翻译的评价方法。当计算机翻译了一段古文或一本古籍以后,翻译的质量如何是需要有一个衡量尺度的,因此研究古籍自动翻译的评价方法有着非常重要的意义,当前其评价方法可以采纳或借鉴英汉机器翻译的评价方法,例如:基于句法结构的评价方法和基于测试集的评价方法等等。
  ?古文的英译,即将文言文翻译成英语。随着社会的不断发展,古文英译可以更好地向西方展现辉煌的中华文明,促进中西方文化的交流。
  
  6 其他方面
  
  基于中文信息处理的古籍整理除了古籍录入、断句、编纂和翻译之外,还有如下方面值得今后进一步的研究:
  ?古籍自动校勘。一个古籍可能又有多个版本,各版本之间由于传抄、印刻中出现的差错,而造成内容差别很大,因此需要对古籍进行校勘。古籍自动校勘是指利用计算机自动发现并标记出古籍不同版本之间的文字差异,并提供各种辅助工具帮助专家勘误。尽管文献中开发了古籍自动校勘系统,但是其属于实验系统,缺乏实用性,并且自动校勘算法也有待改进。
  ?古籍自动笺注。笺注工作的目的是通过注释古籍中的一些冷僻字词、典故出处等等来增强古籍的可读性。文献和中提出用计算机来完成古籍的笺注是行之有效的方法。
  ?辅助古典文学的研究。文献中运用了大量的篇幅来说明将中文信息处理中的信息检索和语义分析等技术用于古典文学研究的重要性与可行性,而文献则更是设计了一个对联应对程序。
  
  7 结语
  
  基于中文信息处理的古籍整理研究还处于初级阶段,当前仅仅在使用古籍自动录入技术的古籍数字化工作上取得了丰富的实际成果,其他方面均缺少实用性和通用性强的成果,更多的只是在论文上见到的实验性结果,因此许多相关工作亟待科研工作者深入的研究和实践。此外,现阶段既精通信息处理技术,又熟悉文言知识的人才非常缺乏,因此急需大力培养相关人才。尽管尚待解决的问题还很多,但是相信经过众多研究者的通力合作与不懈努力,新的基于中文信息处理古籍自动整理的方法将不断涌现,计算机代替手工来进行古籍整理的美好愿望必将实现。

相关热词搜索:评述 古籍 中文 基于中文信息处理的古籍整理研究评述 古籍整理研究学刊目录 古籍整理研究学刊2014

版权所有 蒲公英文摘 www.zhaoqt.net