MNPOS:军事网络舆情分析系统研究|舆情分析系统

发布时间:2020-03-10 来源: 感恩亲情 点击:

  [摘要]军事网络舆情作为一种特殊的公开情报吸引了众多军事网民。比较国内一些典型的网络舆情系统,论述军事网络舆情分析系统(MNPOS)的特点、功能及体系架构;研究一个基于,NET Framework平台和XML交换格式的MNPOS,对军事网络舆情的信息采集与抽取、舆情分类与敏点标注、倾向性分析等技术作研究改进,推进MN―POS理论和方法研究的深化。
  [关键词]互联网 军事舆情 信息技术 舆情分析
  [分类号]G250
  
  1
  引言
  
  在军事情报搜集和处理中,公开情报资料搜集是一个很重要的方面。美国中央情报局80%的情报来源于公开材料,德国新闻情报局每天将搜集和处理后的公开情报资料汇总成《每日新闻简报》呈送,以色列情报机关公开承认其所获情报65%来自报刊、广播、电视和学术研究论文等公开渠道,其他许多国家也设立了专门的公开情报搜集机构。网络舆情作为一种新形式的公开情报资料,由于其开放性、及时性以及便捷性等特点,越来越受到情报工作者的重视,甚至很多情报工作者纷纷将网络舆情作为其公开情报资料搜集的第一来源。
  军事网络舆情主要是指国内外互联网络媒体中关于军事事件的评论和观点。军事网络舆情作为一种特殊的网络舆情,除了网络舆情所拥有的特点外,还有其自身特殊性。评论和观点往往都集中在一些敏感和焦点问题上,例如中国军费问题、中国军事威胁等。在进行舆情分析与监控时,军事网络舆情将会是最为重要的部分。同时,由于国外一些媒体往往对其民众进行错误引导,军事网络舆情中的许多看法可能偏向负面,在进行分析和监控时就必须注重对这一部分舆情的判别,这对于做好军事情报分析工作至关重要。本文以开发军事网络舆情分析系统MNPOS(NetworkPublic Opinion System in Militaty)为背景,在分析国内主要舆情系统基础上,研究舆情采集、舆情处理和舆情服务的系统架构及其关键技术的实现方法。
  
  2 网络舆情系统比较及军事网络舆情系统特点
  
  2.1
  国内舆情系统的主要功能与应用
  网络舆情系统中的关键技术,一方面与信息分析的具体功能和解决方案密切相关;另一方面又随网络舆情内容、范围和传播应用不断推陈出新。这些技术包括各种信息采集、特征抽取、数据挖掘、文本分析、自动分类、自动聚类、自动摘要、智能检索等技术。当前的新形态信息交互模式有网络新闻、论坛、博客、维基等,其信息采集技术从早期的静态页面信息获取发展到动态数据库数据获取,从传统的网络蜘蛛发展到可自主调整的高效搜索,从字符串匹配的检索实现发展到知识环境下的智能检索;相应的信息运用多元统计等方法进行分析,其基础聚类分析方法有概念语义空间与相似度、基于支持向量机与无监督聚类相结合的网页分类等;技术上采用决策树、神经网络、朴素贝叶斯、组合分类器、遗传算法、粗糙集、最近邻技术等多种分类方法。
  国内一些较典型的网络舆情系统概述分析如下:
  ?谷尼国际Eoonie互联网舆情监控系统。该系统通过对互联网海量信息自动获取、自动聚类、主题检测和专题聚焦,实现用户的网络舆情监测和新闻专题追踪,形成简报、分析报告等结果。运用内容抽取识别、相似性去重等技术获取网络中的热点和敏感话题,根据统计等策略分析不同时间内的主题关注程度和预测发展趋势。该系统在国内的用户有待进一步增加。
  ?中科点击军犬网络舆情监控系统。它使用强大的采集软件对数千网站进行监控,自动获取舆情信息的热度,并生成报表;同时可获取热点主题的浏览量、回复数,并跟踪发帖人,对舆情信息进行管理、标注和分类,并根据重要性对舆情信息进一步筛选和过滤。其采集性能比较好,但分析处理功能有待进一步提高。
  ?北京拓尔思TRS网络舆情监控系统。该系统采用多种技术,实现对舆情信息的精准和全面采集,同时综合运用大规模文本智能挖掘技术,实现对海量舆情信息的准确、高效分析和管理。其舆情功能从用户角度来看较为全面。
  ?北大方正智思网络舆情监控分析系统。该系统褴合互联网搜索及信息智能处理等技术,通过对网络信息自动抓取、自动分类聚类、主题检测、专题聚焦等方法,实现网络舆情监控和新闻专题追踪等功能。其开发比较早,应用也较多,但相关的更新功能相对较少。
  
  2.2
  军事网络舆情系统的特点和相关研究
  相比较当前市场上通用的网络舆情分析系统,军事网络舆情系统MNPOS对军事类突发事件的网络舆情相关研究更为关注,快速的专题聚焦、敏点发现追踪和倾向分析规则都具有新的特点。而目前的网络舆情分析还没有一个完整的解决模型,研究主要是获取网络舆情话题的一般信息和主题信息,注重获取舆情话题的主题内容,例如作者、发表时间、话题类型等,缺乏对话题评论焦点、情感倾向、事件关系等深层舆情信息的发现,忽视从事军事的群体对话题的情感、事件关系及变化趋势的分析。
  传统研究方法没有对大规模军事网络数据进行分析,使得网络舆情系统无法适应网络环境下海量军事数据的特点;只利用简单的统计方法给出话题变化趋势直接作为预警信息,缺少基于知识的推理。存军事领域,网络舆情系统不提供完整的军事类突发事件网络舆情传播理论,大都以管理者需求为牵引而采用具体针对性的技术进行解决,造成技术整体上不具有连续性和系统性,很难形成一套完整的军事网络舆情解决方案,势必影响到军事网络舆情应对策略和方法的实用性、先进性和可靠性。因此,无论是社会科学领域还是工程技术领域,对军事网络舆情的基础理论研究都处于起步阶段,大多数研究成果属于方法上的研究范畴,军事网络舆情的监测与预警工作不够全面和系统化,军事网络舆情的应对策略还不够科学和规范。
  
  3
  军事网络舆情系统MNPoS功能及其体系架构
  
  在MNPOS军事网络舆情分析系统中,运用军事知识语料对网络信息采集与提取,提高网络舆情监测分析的智能化程度,解决网页的灵活性和复杂性、内容的动态性和多态性、信息的庞杂性和不完整性所给系统提取军事网络舆情信息带来的困难;运用军事类话题发现与跟踪技术识别出给定时间段内上网媒体的热门话题,分析热门军事话题在不同时段内媒体所关注的程度,对突发事件进行跨时间、跨空间综合分析,获知事件发生的全貌并预测事件发展的趋势,对涉及内容安全的敏感话题及时发现并报告,为网络舆论引导提供支持;运用军事知识倾向性分析技术挖掘出网络文本内容蕴含的深层军事观点、态度等信息,对媒体言论倾向进行符合军情的分析;运用多文档自动文摘技术对军事网络论坛等信息进行提炼概要。
  本系统采用模块化的软件设计方法,共分为网络舆情采集、网络舆情处理和网络舆情服务三个功能层面,系统体系架构见图1。
  
  
  3.1
  网络舆情采集
  网络舆情采集主要是利用网络蜘蛛的原理进行网 页采集,按照预先设定好的军事主题和网址埘网络上的军事数据进行定点、定主题的抓取,例如新闻、论坛、博客等主题网站。最后将抓取的结果以XML文件格式保存在本地。网络舆情采集是舆情分析处理和提供舆情服务的基础,只有高质量和高效率的网络舆情采集才能保证数据的可靠性和及时性。
  
  3.2 网络舆情处理
  网络舆情处理是整个系统的核心,它对所有采集到的数据进行相关处理,主要由网页智能抽取、关键词自动提取、主题自动分类、舆情倾向性分析和敏点舆情标注等组成。首先,基于军事主题和分类知识将采集模块抓取到的XML文件中的主题、内容、作者、发布时间、来源等存入网络舆情信息库,通过关键词自动提取和主题自动分类将每条记录的关键词和主题分析出来,进行倾向性分析和敏点舆情标注,最后生成自动文摘。另外,在主题分类过程中,若文档不属于任何预设军事主题则进行主题自动聚类处理,自动分析出新的军事主题。
  
  3.3 网络舆情服务
  分析结果进入网络舆情服务,并最终展示,包括舆情报告的生成、热点和敏点军事主题的列表显示、统计图表等,供舆情部门的工作人员和决策部门的领导随时进行军事舆情的监控。
  MNPOS系统在设计和实现过程中遵循软件工程原则,使用,NET Framework作为基础类库,在此基础上综合运用VB和c#以及ASP技术进行开发,保证技术上的先进。另外,为保证系统的可靠性和可扩展性,采取数据层、事务层和表现层分离的模块化设计原则,分为舆情采集、舆情处理和舆情服务子系统分别进行实现。
  
  4 MNPOS系统中军事舆情分析关键技术研究
  
  MNPOS军事网络舆情分析是系统核心模块,其质量和效率直接影响到整个系统。
  
  4.1
  MNPOS军事主题信息采集
  MNPOS主题信息采集由下载器从互联网上读取军事网页并保存到本地,分析器运用军事语料和相关正则表达式提取其中所有超链压人一个URL队列,之后从该队列中顺序读取URL并下载,该过程循环进行直至将指定网站的网页抓取完毕。程序关键在于多线程管理和链接地址的分析,目前C#提供了良好的多线程管理机制和对正则表达式的支持,为开发多线程程序提供了极大的方便。
  MNPOS军事网页信息抽取,首先选择相应的抽取规则进行智能抽取,将相应的内容抽取出后进行数据清洗,去除重复记录和信息,合并相同标题不同内容的信息,最后将清洗后的数据存人军事舆情数据库。该处理过程包含在包装器中,对于用户来说是透明的。另外,在规则生成部分采用军事专家模式,即对网页的结构进行分析,然后手工进行规则的提取,因此,所生成的规则比较精确,对于相应军事网页的抽取质量和精确度较高。
  
  4.2 MNPOS军事舆情分类和倾向分析
  将处理后的信息分入预先设置好的军事分类,对于网络舆情服务具有至关重要的作用。分类模块主要采用KNN和SVM分类法,其中的特征选择结合了信息增益、互信息和a2统计等方法和军事主题分类概念库,采用目前分类质量较高的一些开源程序进行改造,将其集成到系统中保证分类质量。
  MNPOS军事舆情文本分类分为两个过程:①训练过程,决定分类机的质量。首先由军事专家完成训练集的挑选,然后在预处理过程中进行参数选择、训练后进行参数调整等。②根据训练过程所生成的分类机进行分类,其中最重要的是预处理和分类进程,预处理是对待分类文本进行数据清洗和特征表示的过程,本系统的训练和分类进程采用SVMCLS 2.0开源程序。
  舆情倾向性分析是根据舆情内容判断该舆情是正面还是负面的一个过程。常用的方法有基于机器学习和基于语义理解等,目前MNPOS系统采用基于机器学习的方法。系统中设计有六个类别(美国对台军售、中国反导试验、中美军事关系、中印关系、中国航天发展、中国武器装备),以其中的“中美军事关系”举例,可以将该类的文本根据其内容分为正面和负面两类,然后再训练出两个分类器:“中美军事关系正面”和“中美军事关系负面”,六个类别即可生成12个分类器,然后对这些待分类文本进行分类,并且在数据库相应字段内用1和0来分别标注正面和负面信息。这种方法实现起来较为简单,而且准确率较高,不足是在构建训练集时需要大量军事专家进行手工编制,实现中充分利用军事信息管理学科的优势和成果来构建倾向性分类训练集。
  
  4.3 MNPOS军事敏点舆情标注
  军事敏点舆情标注主要是根据军用敏点词表对舆情信息进行敏点识别。MNPOS系统主要采用了舆情关键词和敏点词表进行匹配的方法来实现。首先选择敏点词表,然后将数据库中未进行敏点标注的舆情信息逐条读取出来,之后用舆情的关键词和敏点词表中的词汇进行逐条匹配判断,若匹配则将该信息标注为军事敏点信息,若没有一个关键词和敏点词汇匹配,则继续读取下一条舆情信息,直到所有未标注的舆情信息都标注完成。该模块中的关键就是军用敏点词表的构造,MNPOS系统中针对“中国军费”、“中国威胁论”以及“西藏维稳”等问题构造了专题敏点词表,这样就提高了军事敏点舆情标注的准确性;并且将该军用敏点词表和军事舆情动态分类库进行交叉关联,能够对军事敏点舆情进行细分。
  军事网络舆情是一种特殊的公开情报,人民网“强国论坛”、新华网“发展论坛”和中国军网“国防论坛”等以其独特的议程设置吸引了众多军事网民的眼球。针对军事网络舆情的特点,本文构建并实现了一个基于,NET Framework平台、以XML为数据交换格式的MNPOS军事网络舆情分析系统,对军事网络舆情的信息采集与抽取、舆情分类与敏点标注、倾向性分析等技术作了研究改进。下一步的工作包括:在话题检测与追踪中研究基于自然语言理解的增量文本聚类,在突发事件网络舆情状态分析中研究文本情感倾向性识别的军用评测语料库及舆情态势知识库,在军事舆情预警中研究舆情分析的多级指标体系及预警等级评估方法。军事网络舆情分析监控系统的开发,必须遵循软件工程的设计规范,实现过程中涉及的工作量大、技术复杂、适用性要求高,只有通过不断的研发实践,才能推进军事网络舆情分析系统理论和方法研究的深化。
  

相关热词搜索:舆情 分析 研究 MNPOS:军事网络舆情分析系统研究 网络舆情分析系统研究 军事网络舆情分析系统研究

版权所有 蒲公英文摘 www.zhaoqt.net