数据分析模型 [基于文本情感挖掘的企业技术竞争情报采集模型研究]

发布时间:2020-03-07 来源: 感恩亲情点击：

　　[摘要]在分析情感知识的技术竞争情报价值和文本信息资源的情感特性及情感化方式的基础上，围绕企业技术竞争情报获取目标与环境，结合文本情感挖掘流程构建由数据层、处理层、应用层组成的采集模型，可用于从以网络技术评论为典型代表的主观性文本信息资源中识别出情感知识作为对传统的主题式情报采集的有益补充，实现情感类技术竞争情报的智能获取。
　　[关键词]企业技术竞争情报情报采集情感挖掘
　　[分类号]G350
　　
　　技术竞争情报可以帮助企业加强对技术发展、技术市场、技术竞争对手以及企业自身技术能力与优势的正确认知，为企业技术创新提供有力支持。目前，企业技术竞争情报的采集主要依靠人工浏览或借助于相关软件，围绕特定技术主题展开情报采集工作。这种面向主题的信息采集策略针对情报需求，仅获取相关主题的信息，有利于提高技术竞争情报采集的主题相关度及其速度和效率。但同时，“基于主题的采集”也意味着重点关注客观信息主题，而忽略信息源中所拥有的其他类型知识，如情感知识――它们作为技术主体主观感受的外在体现，也是重要的情报来源，对其进行开发挖掘，是对传统的主题式情报采集的有益补充。本文在分析情感知识的技术竞争情报价值及文本信息资源情感特性的基础上，构建基于文本情感挖掘的技术竞争情报采集模型。
　　
　　1　情感知识的企业技术竞争情报价值
　　
　　1.1　企业技术竞争情报概述
　　企业技术竞争情报指为满足企业技术创新需求，提升技术商业价值，实现企业商业竞争目标所需的有关技术信息和知识，它能深化企业对内外部技术环境的认知，其获取需要对企业自身、竞争对手、外部机构、技术客户等信息源进行知识层次的深加工处理。企业技术竞争情报作为技术战略活动与竞争情报整合的产物，其工作的开展以竞争为导向，以信息为基石，以分析处理为手段，能为技术战略制定提供必要输入，从而有效促进技术战略的实施，提升企业技术竞争优势。
　　
　　
　　1.2　情感知识在技术竞争情报中的价值体现
　　企业技术竞争情报作为“对企业制定技术战略决策有用的与技术相关的信息”，具有对技术环境的描绘与认识功能，其需求存在于技术战略管理所包含的领域业务问题中，如在企业的R＆D项目选择中需要了解哪些技术比较热门；在进行关键技术跟踪与预测时，需要评估技术开发前景等。从广义上看，技术竞争情报工作贯穿于企业的技术战略管理与技术创新的整个过程，不仅应着眼于企业技术研发，还应服务于技术产品化、市场化。在由技术研发类、技术产品化类、技术市场类所构成的三维一体式技术竞争情报活动中(见图1)，为辅助实现识别技术活动行为、识别技术发展趋势等技术战略管理目标，存在广泛的信息保障需求。
　　其中，专家对技术开发前景的看法、市场对技术的接受程度等情感类知识对于企业正确认识技术竞争环境发挥着重要作用。如在利用Hype cycle模型识别技术生命周期状态时，需要采集社会情感类知识。Hypecycle模型将技术的发展过程划分为技术诱发期、期望过热期、期望谷底期、技术攀升期、技术成熟期五个阶段，并通过可视化曲线形式表征技术成熟度、市场接受度和商业应用程度。Hype cycle模型各阶段具有一些显著特性，如从技术探索阶段到期望释放顶峰期间，会提出一些具有轰动效应的概念或产生一些引发社会关注的事件，此时，期刊、网站等媒体涌现大量正面报道的信息；在到达期望顶峰后，由于一些失败案例的出现，技术进入了低谷，大众期望逐渐消退，此时，各种媒体很少出现相关的文章和技术讨论，且负面评价居多。这些外部情感状态成为利用Hype cycle模型划分技术发展阶段的重要社会特性类参考指标。
　　
　　
　　2　文本信息资源的情感特性及获取
　　
　　　2.1　文本信息资源的情感特性
　　文本作为人类认识事物存在方式和运动状态的语言载体，不仅客观表达出事物主题，同时还包含认识主体的自我情感，体现出一定的主观性。在现代语言学范畴下，“情感”一词的外延很宽泛，包括感情、情绪、观点、意向、态度、看法、评价等。文本语言情感特性是语言主观性的一种体现，即在话语中含有说话人“自我”的表现成分――说话人在说出一段话的同时表明自己对这段话的立场、态度和感情，从而在话语中留下自我的印记。情感特性作为文本语言的一种基本属性，广泛存在于新闻报刊、电子杂志等媒介中，尤其是随着社会性网络软件以及社区、论坛等开放性交流平台的普及，情感特性在个人博客、评论等文本形式的信息资源中日益突出。
　　
　　2. 2　文本情感知识的获取
　　文本情感特性的产生需要经历一个情感化的过程，即文本语言采用一定的结构或形式才能体现说话主体的情感。情感化是一项非常复杂的语言艺术行为，不同的语言在表现“情感性”时所采用的形式有所不同，同一门语言也可采用或明显或隐晦的多种方式加以展现，具体而言，包含情感用词、语法、布局等多种途径。一些典型的情感化方式如表1所示：
　　近年来，网络信息资源中所蕴含的丰富的文本情感知识引发政府、企业以及消费者等多主体的重视，成为体察社会舆情、探测用户需求心理的重要依据。面对海量的文本信息资源，如何克服人工理解方式所固有的低效性，准确、快速、自动获取其中的情感知识以满足多应用需求，针对这一问题的研究形成一个新颖而且十分重要的领域――基于文本的情感挖掘。文本情感挖掘融合语言学、信息检索、文本挖掘等多领域的理论与技术，针对不同的情感化方式，从情感词统计、语法推理等不同角度对词语、句子、篇章等不同粒度的文本对象进行情感分析，识别其中的心理态度、情感倾向及其演化趋势。
　　　3　基于文本情感挖掘的企业技术竞争情报采集模型
　　
　　围绕企业技术竞争情报获取目标与环境，结合文本情感挖掘流程，本文设计的一体化采集模型如图2所示：
　　该模型由数据层、处理层、应用层组成，可用于从以网络技术评论为典型代表的主观性文本信息资源中识别出情感知识作为对传统的主题式情报采集的有益补充，实现情感类技术竞争情报的智能获取。
　　
　　3.1　数据层
　　根据技术环境中技术影响因素和参与角色，企业技术竞争情报主要来源于企业自身、大学实验室、科学研究机构、竞争企业、供应商及消费者等主体的技术活动行为，其信息表征形式主要为科技论文、研发报告、技术专利、技术评论等。由于科技论文、技术标准与专利等信息源侧重于对事物、事件、现象的客观描述，较少包含作者自身的主观性、情感化的论述，因此这类信息源不宜作为文本情感挖掘的主要数据来源，以免干扰、降低情感挖掘处理层的效率与性能。随着网络技术的发展以及各种开放式内容生产平台和社交网络的出现，信息交流的理念与模式发生很大变化，相较于传统信息环境，用户能够并有意愿积极参与到信息的非正式生产与自由化沟通中。这使得网络环境中不仅包括大量灰色的、主观性较强的技术研发报告，还拥有参与者之间的交流沟通所表达出来的情感型知识。这些知识广泛蕴含于技术研究团队博客、技术专家博客、技术风险投资评论、技术用户评论等动态信息源中。
　　
　　3.2　处理层
　　目前的文本情感挖掘研究侧重于分析文本的情感倾向，并根据其倾向强度的不同分为不同的情感类别(如消极的／积极的、正面的／负面的)，实现情感分类。传统文本分类主要针对文本主题，基于词语间的相似度或文档中的词频数进行分析，通过对训练文本的训练，统计出相关类别中词语的出现频度或概率，然后根据目标文本中相关词语的频度信息判别出其类别。情感型文本不太满足词语间相互独立等基本假设条件，如果直接利用已有的一些文本分类方法进行情感分类，无法达到主题分类的效果。比较有效的解决途径是引入语言学理论与知识，针对情感用词、构句、语法等不同的情感化方式，借助语义分析处理手段实现基于情感分类的文本情感挖掘。基于语义理解的文本情感挖掘通常需要首先构建情感语料库或利用已有的词语知识库生成情感词典，在此基础上进行主观性句子识别、情感关系抽取、基于特征的情感分析等关键处理，从具体研究对象这一特定粒度层次出发，辨别、分析出文本信息资源中蕴含的情感知识，实现文本情感分类。
　　?主观性句子识别。情感性语句一般包含说话人对事物的观点，体现出一定的主观性，如例1所示：
　　例1：“中国大学生设计的节能车搭载了Honda低油耗摩托车的4冲程发动机。这款通过搭载摩托车发动机的节能赛车是世界上独一无二的创意杰作。”
　　在例1中，第一个句子描述客观事实，为客观句；第二个句子包含了说话人对客观事实的肯定态度，为情感倾向较强的主观句。在对大量文本进行情感分析之前，为降低客观句对文本情感分类性能的影响，需要尽量剔除干扰信息，只保留主观性语句。目前，主观性句子识别主要建立在情感语料库基础之上，以情感词识别为主，辅之以各种词汇及文法信息，然后根据标准分类器或标注的特征进行判断。
　　?情感关系抽取。情感关系抽取的主要任务是识别句子或篇章所存在的评价词及与目标对象之间的关联关系，如例1的主观句中，评价词“独一无二”、“创意”、“杰作”等对应的评价对象为“节能赛车”。为识别出这类关联关系，通常一方面需要建立领域特征库作为待评价对象的概念表征，如构建面向技术竞争情报的技术特征本体作为表达技术或子技术的状态、功能、应用、工艺、产品等相关因素的领域术语，用于识别显式主题；另一方面可通过人工构建的情感词汇本体、利用HowNet等已有概念知识库推理生成情感词汇本体，或选择合适的情感语料库并根据词语的语义关系计算判断出词语情感倾向等不同方式识别出句子或篇章的评价词及原始的情感倾向强度等。
　　?基于特征的情感分析。情感分析以情感词作为句子、文本的情感倾向识别的基础，而情感关系抽取中目标对象及其评价词关联关系的映射可以使情感分析深入到具体的对象特征这一特定粒度。基于特征的情感分析通过对抽取出的情感词进行上下文语境分析，检测程度副词、情感词汇组合等语法现象，并采用一定的公式计算出目标对象特征的上下文情感极性。具体而言，基于特征的情感分析在计算情感倾向性时可采用基于情感词组的分类技术实现(否定语句等需进行特殊处理)，主要包含三个步骤：①利用词性标注方法提取特征项句子中所包含的形容词或副词词组；②使用逐点互信息计算方法与公式估计所抽取词组的语义倾向性；③基于特征项计算所有提取词组的平均语义倾向性值。
　　
　　3.3　应用层
　　采集模型中的应用层主要包含两方面的功能：①实现用户与系统的交互，用户可以根据实际任务的需要自主调整、维护情感语料库、技术情报特征库，并通过一定的软件环境指导文本情感挖掘过程以及查看挖掘结果；②提供导入和导出接口，扩充、丰富挖掘功能，实现与基于主题的技术竞争情报采集结果、商业竞争情报采集结果的集成，并能有机融入到技术战略管理系统中，提供技术战略决策支持。从上文有关情感知识在技术竞争情报中的价值论述可知，对于技术生命周期分析这类典型技术竞争情报决策支持目标，情感知识在Hype cycle模型生成中发挥了关键作用。这里可以考虑将情感挖掘和时间序列挖掘有机融入到Hype Cycle模型的创建中：①用户可以通过应用层为特定技术领域选择或自行构建技术情报特征库作为情感挖掘分析的目标对象，并同时指定相关的情感语料库或情感词汇本体；②利用应用层接口导入时间序列挖掘功能，经过主观性句子识别、情感关系抽取、基于特征的情感分析等环节的处理操作，实现对技术报告、专家评论等序列数据的挖掘，洞察社会对相关技术的情感倾向性及其变化趋势。这种基于文本情感挖掘模型的技术竞争情报采集理念与方式可以为技术成熟度度量提供定量依据，提升以往完全依靠专家主观感受进行判断的决策效果与效率。
　　
　　4　结语
　　
　　企业技术竞争情报的挖掘有助于企业加强对技术环境的认知。网络技术评论、专家博客等文本信息资源所蕴含的情感知识是一类非传统意义上的技术竞争情报，对企业制定技术战略决策具有重要价值。本文对情感知识的技术竞争情报价值特征、文本信息资源的情感特性及情感化途径、基于语义分析的文本情感挖掘方法等进行了简要分析，并初步构建了基于文本情感挖掘的企业技术竞争情报采集模型。在今后的研究中，将进一步结合技术决策者的业务环节，将分析其情感类技术竞争情报需求作为挖掘目标，根据采集模型设计开发原型系统，并选择和结合实际企业技术工作环境，多方面应用企业技术管理人员和技术领域专家的个性化知识，评估挖掘效果。

数据分析模型 [基于文本情感挖掘的企业技术竞争情报采集模型研究]

热点文章阅读