信息可视化设计教程【专题新闻文本集信息可视化研究】

发布时间:2020-03-07 来源: 美文摘抄 点击:

  [摘要]根据新闻要素说,提取专题新闻文本中的关键词并进行预处理;采用向量空间模型表示文本,运用K―means算法实现文本聚类并构建关键词关联网络模型以实现文本的可视化。实例表明:该方法能直观地显示专题新闻文本集的主要信息,便于快速掌握新闻中的主体与事件的关系以及新闻关注点随时间的变化,从而加深对信息的理解,有利于信息的充分利用。
  [关键词]信息可视化 文本信息 关联网络模型
  [分类号]G203
  
  1 引言
  
  面对大量的新闻信息,人们迫切需要了解信息之间的相互关系及发展趋势,发现隐藏在其中的本质特征和规律。可视化技术可以直观地展示新闻文本中的大量信息及其之间的关系,便于人们理解、掌握信息。
  信息可视化是指非空间数据的可视化。Card等将信息可视化定义为:“使用计算机支持、交互性的视觉表示法,对抽象数据进行表示,以增强认知”。也就是说,信息可视化是使用直观的方式展现原始数据间的复杂关系、潜在信息以及发展趋势,其目的是为了更好地利用信息资源。关于信息可视化的研究主要集中在三个方面:理论介绍、算法与模型的介绍以及实际应用。20世纪90年代是信息可视化研究的初期,主要是理论的介绍,包括信息可视化的概念、内涵、研究内容等。其中,文本信息可视化是信息可视化的一种,可以分为两类:一类是对单文档的可视化;另一类是对多文本(文本集)的可视化。而基于时间信息的可视化模型是信息可视化研究领域的热点问题之一,如时间墙模型和主题河流模型。这两种模型都以时间为水平轴线展示文本信息,以发现文本主题的发展趋势和隐含信息。此外,信息可视化模型还包括关联分析模型和RDV模型。文本信息可视的方法主要有图符标识法、高维空间描述法、自组织地图算法及群集映射法。文本信息可视化的应用研究主要集中在文献领域。如:Young Gil Kim等实现了专利文献的可视化;Josiane Mothe则通过将文本在地图上的可视化显示,进行信息挖掘。在国内,郑珩等针对国内管理科学文献进行可视化研究,任智军等研究了科技文献中的可视化分析技术。
  现已提出的文本信息可视化模型大都按时间关系建立,能直观显示时间上文本间的关联,而对文本间深层次信息实体间的关联则难以体现,导致现阶段文本信息可视化未能挖掘出文本中深层次的信息,仅停留在统计分析的基础之上。因此,本文根据专题新闻文本集的特点,借助网络,针对新闻文本内容,构建专题新闻文本集信息可视化模型,并以新浪网上四川汶川地震专题中关于灾后重建的新闻文本集为例进行实证研究。
  
  2 专题新闻文本集信息可视化流程
  
  专题新闻文本集是多个关于某个专题新闻文本的集合,其可视化流程基本分为以下5个步骤。
  
  2.1 提取关键词
  新闻具有五要素即who、when、where、what和why,因此每篇新闻文本都可以从这五个方面提取关键词,代表每篇新闻文本的主要信息。为了简化研究,突出事件的发展变化,本文只针对who,when和what进行研究。新闻文本一般直接写明描述性特征who和when,但现在的一些新闻中常常省去when。由于新闻具有很强的时效性,当新闻中省略when时,可以用新闻电头标注的时间代替。而对于语义特征要素what,关键词的提取则需要根据研究目的,咨询相关领域的专家并结合领域内热门搜索关键词确定一系列初始关键词,然后参考这些初始关键词,根据新闻文本内容提取。这样,每篇新闻文本的信息就用描述性关键词结合语义关键词表示。
  
  2.2 关键词的预处理
  一篇文本可以用多个关键词表示,当多个文本聚合在一起时,关键词数量巨大且分散而无规律可循,需要减少关键词。根据描述性关键词和语义关键词的不同特点,采用不同的方法分别对两者进行预处理。经过预处理的关键词构成关键词库。
  在新闻文本中,who和when是具体化的,因此提取的关键词也是具体的。对于when,根据研究的专题新闻文本集的时间范围,将时间粒度确定为日、月或年。对于who则可以进行语义泛化处理。例如,国家元首是国家政府的代表,可以将其泛化为某国政府。
  泛化处理后的语义关键词what数量可能仍然太大,可以根据不同的主体分别对语义关键词进行主成分分析,得出不同主体的主要行为及其原因,以进一步减少关键词。
  
  2.3 文本聚类
  文本聚类前常用向量空间模型对文本信息进行处理,称为文本表示,其目标就是将文本表示成为带权重的向量。一般使用“词一文档”矩阵表示一系列文档。矩阵的每一列(1,…,j,…,n)代表预处理后的一个关键词,矩阵的每一行(1,…,i,…,m)代表文本集中的一个文本。参照预处理后的关键词库,当第i个文本中含有关键词j,那么矩阵中元素(i,j)的值为1,否则为0。所有的文本都可以用元素为0或1的向量表示。
  文本集转化为特征矩阵后,采用K-means算法进行文本聚类,需要先确定划分的类别数目,即K的值(K≥2)。关于K值的确定可以参考专题新闻文本集中主体who的数量,也可以尝试不同的值以得到最满意的聚类结果。
  
  2.4 构建关键词关联网络模型
  由于每篇文本的信息都由关键词表示,关键词关联网络模型实际上是文本的关联网络模型。建立关键词关联网络模型的基本步骤如下:
  ?确定每类文本的关键词集合。基于文本的聚类结果,每类文本的关键词都可以组成一个关键词集D:(dt,…,dp,…,dq)。文本集划分为K类,则有K个关键词集。在每个关键词集中,其元素d。具有唯一性。例如,文本A具有关键词a,b,c,文本B具有关键词c和d,那么这个文本类的关键词集D=(a,b,c,d)。
  ?建立关键同的连接。当任意两篇文本中含有相同的关键词时,两篇文本就可以以相同的关键词为节点,建立连接关系。如关键词c是文本A和文本B的公共关键词,以c为节点,A和B之间就可以建立联系。
  ?构建关键词关联网络模型。针对每个关键词,计算其在同一个文本类中出现的次数,以关键词出现的次数作为其节点权值,同时查找包含这个关键词的所有文本的时间要素,以这些文本中最早的时间作为关键词的时间。如关键词c在文本A中出现的时间是2008-5-24,在文本B中出现的时间是2008―6一l,那么关键词c的时间是2008-5-24,其权值为2。
  文本聚类将文本集分为K个文本类,每一个文本类都可以建立一个关键词关联网络模型。根据以上步骤,将每一个文本类的关键词关联网络模型连接起来构成文本集的关键词关联网络模型。由于任一文本都是用一系列关键词代替,关键词关联网络模型实质上 是文本集的关联网络模型。
  
  2.5 可视化显示
  可视化显示就是将关键词关联网络模型用直观的、易于理解的图形显示出来。新闻文本具有很强的时效性,专题新闻文本集可以看作是一个时间序列集。在可视化显示过程中,以时间为序,关键词按照其出现的时间先后在图形中显示。用一个实点代表一个关键词节点,点的大小代表这个节点的权值大小,即关键词出现的频率。同时将关键词的时间标注在其实点下方。用弧表示关键词之间的关系,弧的长度表示关键词之间的时间间隔,弧越长表示时间间隔越长,反之时间间隔短。弧的粗细代表关键词之间联系的紧密程度,弧越粗表示联系越紧密,反之联系不紧密。
  
  3 实证分析
  
  3.1 数据获取
  以2008年5月24日至6月12日新浪网上四川汶川大地震专题新闻中关于灾后重建的新闻文本为原始数据进行实例研究,其目的是直观地显示在灾后重建过程中人们的关注点及其变化,共收集到75篇新闻文本。从who,when和what三方面提取关键词。本次研究关注的是事件发生的时刻,而不是事件持续的时长,所以when提取的是事件发生的时刻。对what根据语法结构进行分解即do what,以行为和行为实施的对象两方面表示。参考网络热门搜索关键词以确定灾后重建过程中人们关注的行为及其对象,并据此提取新闻文本关键词,从而构成研究的原始数据。
  
  3.2 数据处理
  数据处理就是对收集的原始数据,按照文本信息可视化流程进行处理:
  ?关键词的处理。由于实例中新闻文本的时间跨度小,所以以天为时间单位。Who经过抽象产生了8类主体。根据这8类主体分别对其行为及行为对象的关键词进行语义泛化处理,目的是得到各类主体的关键行为及行为对象。
  ?文本聚类。由于有8类主体,采用K-means聚类将文本集分为8类。
  ?根据建立关键词关联网络模型的基本步骤构建关键词关联网络模型。
  
  3.3 可视化显示及分析
  构建的关键词关联网络模型如图1所示,对其进行分析,可以得出以下几点:
  
  ?实点表示的主体可实施各种行为,分别是政府、医院、交通部门、个人、其他组织。灰点表示的既是主体又是对象,即可实施一定的行为也可接受其他主体对其实施的行为,分别是企业、学校、灾民。在收集的新闻文本集中,关于政府和企业的报道最多,分别有32篇和15篇,所以这两个点最大,说明政府和企业是灾后重建过程中最受关注的两个主体。
  ?空心点表示的是行为实施的对象,接受主体实施的行为。图1中,用空心点表示的分别是过渡房、就业、家乡、孤儿、政策、救灾物资、伤员和学生。图中过渡房、伤员、救灾物资三点较大,说明过渡房、伤员、救灾物资是灾后重建过程中最受关注的对象。
  ?弧代表主体对对象实施的行为。弧的方向由主体指向对象。政府实施的行为包括调控企业、转移灾民、颁布政策、救助灾民、发放救灾物资、重建学校;医院主要是接收救治伤员;交通部门主要发挥运输作用,运输伤员、学生及救灾物资;个人则捐献救灾物资及收养孤儿;其他组织主要是捐献救灾物资;企业的行为包括生产过渡房及提供就业;学校接收学生;灾民有入住过渡房、返回家乡、外出就业等不同的行为。
  ?弧的粗细代表行为出现的频率,表示主体与对象联系的紧密程度。图l中说明企业的生产调控,过渡房生产、灾民转移、救灾物资发放使用、伤员救治及学生接收是灾后重建中比较受关注的问题。
  ?弧的长短代表文本集中第一次m现该行为的时间与灾后重建开始时间的间隔。从各行为第一次实施的时间来看,在灾后重建前期,主要关注的是灾民的转移、救助、过渡房的生产、伤员的运输以及救灾物资的捐献。随着时间的推移,重建工作进一步深入,人们开始关注其他的一些问题,包括:灾民返乡;企业为灾民提供就业机会;政府对基础设施的重建;学校接收学生复课的情况。
  
  4 结论
  
  本文借助网络思想,基于新闻文本内容构建了灾后重建专题新闻文本集的关键词关联网络模型,直观地展示了灾后重建的动态发展变化过程、各主体的主要行为及其之间的关系以及人们关注点的变化,有利于人们快速了解灾后重建的动态。但由于收集的新闻文本仅限于网络媒体文本,原始信息缺乏一定的严谨性和权威性。且本文只对2008年5月24日至6月12日的新浪网上的文本信息进行分析,虽然具有一定的代表性,但是文本涉及的时间较短、数据不够全面且数量有限,未能完全展示灾后重建过程中的所有主体、事件及其之间的复杂联系。此外,只针对新闻五要素中的when、who和what进行分析、研究,尚未融入where和why要素。下一步将进一步研究如何将这两个要素融入可视化模型,从而更全面、深入地展示文本信息。

相关热词搜索:可视化 文本 专题 专题新闻文本集信息可视化研究 信息公开与新闻可视化 热点新闻事件及评论

版权所有 蒲公英文摘 www.zhaoqt.net