DKTC:一种中文文本聚类方法_python中文文本聚类

发布时间:2020-03-07 来源: 美文摘抄 点击:

  [摘要]在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对“噪声”或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。
  [关键词]文本聚类 聚类算法 中文信息处理
  [分类号]TP391
  
  1 引言
  
  文本聚类是一种无指导的文本分类,由于该项技术能将大量信息组织成少数有意义的簇,从而达到协助人们更好地对大规模文本进行理解,同时也能作为一种有效的预处理步骤,为进一步的文本分析提供初步的语料结构,因此,文本聚类技术作为文本信息挖掘技术中的核心技术,越来越受到广大研究者的重视。

相关热词搜索:中文 文本 方法 DKTC:一种中文文本聚类方法 一种中文文本聚类方法 一种中文文本聚类新方法

版权所有 蒲公英文摘 www.zhaoqt.net