一种基于类别分布信息的中文文本分类模型|一个类别做文本分类

发布时间:2020-03-07 来源: 散文精选点击：

　　[摘要]特征降维是文本分类面临的主要问题之一。首先通过x2分布对特征项进行选择，然后使用一种改进的基于密度聚类方法对选择后的特征项进行聚类，借助类别分布信息，在尽量减少信息缺失的前提下先后两次对文本特征维数进行了压缩：在基于类别概率分布的模式下实现文本的矩阵表示，借助矩阵理论进行文本分类。试验结果表明，该方法的分类效率较高。
　　[关键词]文本分类　特征选择　特征聚类　Bayes分布　文本表示
　　[分类号]TP391
　　
　　1　引言
　　
　　伴随着信息技术的发展，互联网上海量信息资源对信息检索(Information Retrieval，IR)研究带来了巨大挑战，同时也为其提供了难得的发展机遇。作为信息检索和文本挖掘的重要内容之一，文本自动分类得到了越来越多的关注。文本分类(Text Categorization，TC)的主要任务就是在预先给定的类别标记集合下，根据待分文本内容对其类别归属进行判定。文本分类技术在自然语言处理、信息过滤、信息推荐等领域有着广泛的应用基础，同时其发展也受这些相关领域技术水平发展的制约。基于机器学习的中文文本分类方法相比较于早期的基于知识工程或专家系统的文本分类模式，在分类效果、方法灵活性、扩展性等方面均有所突破，同时在特征选择、文本表示、分类器性能评价、自反馈系统设计以及分类效果评估等方面均不同程度得到发展。
　　
　　2　文本特征降维的两种主要模式及其特点
　　
　　文本特征降维是文本分类面临的主要问题之一。文本特征降维主要有两种路径：一是基于特征相关特性的特征抽取；二是基于特征统计特性的特征选择。特征抽取一般是通过映射把测量空间的数据投影到特征空间，获得在特征空间相应的数值，进而对特征项的作用进行评估，其本质是完成测量空间到特征空间的变换。基于特征相关性的文本分类研究如潜在语义索引(Latent Semantic Indexing，LSI)、主成分分析(Principal Component Analysis，PCA)等模型得到一定进展，但是由于诸如语义排歧等相关的自然语言处理技术研究有待深入，完全基于概念的向量空间模型在信息检索应用中还没有充分体现出应有的优势。特征选择是从特征集合里借助评估函数选出对文本表示能力强的部分特征项，其结果是得到原特征项集的一个子集，本质上是对特征集合的约简。在特征选择方面，由于中文文本的语法、语义、语言习惯等在使用上呈现极端的复杂多样性，目前的文本特征选择方法如互信息、x2统计、期望交叉熵等尚有许多可以改进的地方。本文从特征项相对于文本类别分布的角度出发，对特征项选取方法和文本表示模式两个方面加以改进，提出了一种新的特征降维和文本表示方法度量文本和类别的相似度，试验结果表明，该方法在提高文本分类精度上取得了较好的效果。
　　
　　3　一种基于统计信息的特征聚类方法
　　
　　3.1　特征选取对文本分类算法的影响
　　在向量空间模型(vectorSpaceModel，VSM)相关理论下，KNN文本分类算法被认为是最好的分类算法之一。其思想是将测试文本根据特征项表示成向量形式，然后计算其与训练样本集里每个样本的相似度，依相似度值大小取前k个最相似的训练样本，将该测试文本归入相似样本最多的那一类中。但是KNN算法存在一些不足之处。首先，文本类属判定与文本特征选取的数量和质量相关，若特征选取的数量过大，文本向量的维数太高，使得计算开销过大，并且许多特征项对类别归属所能提供的信息很少；另一方面，大量减少特征词数量又会丢失许多重要的分类信息。再者将文本表示成向量后，利用夹角余弦等手段计算文本相似度却不能体现特征项之间的内在联系，各特征项“各自用力”，因而不能确切体现文本间相似程度。因此，合理的特征选取及表示是提高文本分类效果的关键因素之一。
　　
　　3.2　基于特征项相关性统计信息的特征选择
　　在常用的几种特征选择方法，比如互信息，信息增益、文本证据权、词频方法以及CHI(x2统计)统计里面，CHI方法通常优于其余方法，该方法体现了词与词之间的相关信息、词与文本类别之间的相互关联程度，反映了特征项对类别判定信息含量的大小。一般说来，特别是在大样本情况下，语义上相同或相近的特征项在相同的文本类别分布上应该呈现相同或相近的性态。也就是说，在概率意义下，它们在x2分布列上应该体现出相似的概率值。为此，可以认为具有相似CHI分布的特征项对文本分类应该具有相似的贡献。因而我们首先对CHI分布相似的特征项进行初步选择，在最大程度减少文本信息缺失的前提下，可以大幅度降低文本向量维数。
　　设训练文本集的类别数为S类，记为c1，c2，cs；对每个特征项t，利用x2统计得到相应的CHI统计值：
　　
　　这里A是特征项t1和第，类文本共现次数，B是特征项t1出现而第j类文本不出现次数，c是第j类文本出现但是特征项t1不出现的次数，D特征项t1和第j类文本均不出现的次数，N为文本数；L为文本集里特征项个数。
　　wy表示t1在第j类文本里的权重，p(c1)表示训练集里第j类文本出现的概率，常以其在训练集里所占频率p(c)=n1/n计算，其中n1为训练集第i类文本数，n为训练集里文本总数。
　　x2统计量体现了特征项t1与类别c1之间的相关程度。该模式认为t1与c1之间符合自由度为1的一分布，(1)。x2统计量综合考虑了特征项t1和属于类别c1的文本同现情况与不同现情况下t1在类别c1的文本中的重要程度。也就是说x2值越大，说明t1对属于c1中的文本进行定类的作用越大。其显著优点是词汇的计算量较低、分类效果良好。
　　按照从大到小取前R个v1值相应的特征项作为文本集的特征项，不失一般性，设这R个特征项相应向量为
　　
　　为了消除不同类别相应文本数的差异对特征项权重的影响，v1取为归一后的单位向量。
　　这样借助CHI统计方法对文本分类的作用，对文本集的特征项进行了初步筛选，将个数在“类别贡献”意义下从L个压缩为R1，i=1，2，…R。对分类作用相同或相似的特征项，特别在大样本条件下语义相同或相近的特征项在Rs。上的分布应该呈现出相应的几何特性。为此再对这R个单位特征向量进行聚类，并以各个类中心向量作为该类内所有特征项的唯一代表。
　　k-meain方法是常用的聚类方法，该算法的主要思想是不断计算每个聚类s1的中心，即聚类s1中对象的算术平均值作为下一步聚类的新的种子，直到每个元素的类属情况不再变化为止。该方法具有较好的可伸缩性和很快的收敛速度，适合处理大文本集。当结果簇密集并且各簇之间的区别明显时，特别是当数据呈现球形分布时，采用k-means算法的效果较好，但是该方法对孤立点过于敏感。
　　为此我们对该方法进行改进。思想是在计算聚类的中心时避开这些孤立点的影响，即：在进行第k轮聚类种子的计算时，将簇中那些与第k-1轮聚类种子相似度明显小的数据剔除，使用剩余向量集合里的元素的均值点作为第k轮聚类的新种子。即对于第i-1轮聚类获得的类簇si-j，计算给定阂值
　　
　　
　　
　　4　结语
　　
　　本文在，统计和特征聚合模式下，两次对特征项个数进行了压缩，在尽量减少信息缺失的前提下实现了特征降维，很大程度上节约了计算开销；在基于类别概率分布的模式下实现了文本的矩阵表示，通过矩阵范数计算实现了文本分类。试验结果表明该方法的分类效果令人满意。文本的矩阵表示为矩阵性质在文本分类中的应用提供了研究基础，今后的工作重点将放在使用矩阵良好的分析性质在文本分类中的合理应用的可能性上的研究。

一种基于类别分布信息的中文文本分类模型|一个类别做文本分类

热点文章阅读