烟叶香气风格分类中的特征选择算法研究

发布时间:2019-08-24 来源: 感悟爱情点击：

　　摘要：烟叶香气风格分类是利用烟叶外观质量、理化成分判定其香型、香气质量的类别。为了提高分类能力，通过特征选择发现最佳属性集是一种有效的方法。本文对比研究了信息增益率(GainRatio)、ReliefF、CFS、Wrapper四种特征选择方法改善烟叶香气分类器性能的差异。实验结果表明：基于遗传算法的Wrapper方法优于其他三种方法，所得最佳属性集的特征维数低，而且使分类精确率大大提高。
　　关键词：特征选择；分类；信息增益率；ReliefF；CFS
　　中图分类号：TP301.6 文献标识码：A文章编号：1007-9599 (2010) 14-0000-01
　　The Feature Selection Algorithm Research on the Tobacco Leaf Aroma Style Classification
　　Liu Guoqiang1,He Ying2,Wang Wei1
　　（1.China Ocean University,Qingdao266071,China;2.Qingdao University,Qingdao266071,China）
　　Abstract:The classification of the tobacco aroma flavor is evaluated according to the tobacco physical and chemical compositions.In order to improve the classification performance,it is an effective method that find the best feature set based on feature selection.The diff-erence of the classification performance of tobacco aroma model is found by comparing four feature selection methods,such as Gain-Ratio,ReliefF,CFS and Wrapper methods.The experiment results have shown that the Wrapper method based on the genetic algori- thm is superior to other three methods,and the character dimension is the lowest,so it can greatly improved the classification accuracy.
　　Keywords:Feature selection;Classification;Information Gain Ratio;
　　ReliefF;CFS
　　一、引言
　　烟叶的香气风格是人对烟叶的一种感官评价，是受烟叶特定的生态条件、栽培技术、遗传因素等因素的影响。近年来，不少学者利用统计分析、机器学习技术建立烟叶感官质量评价模型[1,2]。试图利用计算机建立一种快速评价烟叶香气风格的手段，有助于实现卷烟配方数字化设计。由于建立分类器的输入属性维数较多，其中存在一部分无关特征或冗余特征，导致分类器的精度和时间效率难以提高。一些学者试图通过改进一些分类算法来改善分类器性能，但效果并不明显。
　　特征选择是机器学习领域的热点研究问题之一。特征选择是从原始特征集中按照评估标准选择满足最优的特征子集[3]。目前特征选择已在文本分类、数据挖掘、基因工程、计算机视觉、信息检索等领域中得到了广泛应用研究。本文研究了四种典型的特征选择算法：ReliefF、信息增益率(GainRatio)、相关度量(CFS)、Wrapper的基本原理，以及对分类器性能的改善能力，并应用于烟叶香气风格分类问题。
　　二、特征选择
　　特征选择主要有四个步骤，首先按照一定的搜索策略产生候选特征子集，再通过某个评价函数评估特征子集的优劣，然后根据预先指定的特征数目等条件决定特征选择算法什么时候停止，最后验证最终所选的特征子集的有效性。Dash和Liu将特征选择算法主要分为三类：Filter算法族、Wrapper算法族以及混合算法[4]。下面针对典型的特征选择算法简单介绍。
　　（一）RiliefF算法
　　Relief算法是由Kira提出的一种特征权重算法[5]。Kononenko提出了一种改进的ReliefF算法，它能处理多类问题，对属性的数据类型没有要求，是一种比较有效的特征选择算法[6]。算法的主要步骤如下：
　　1.从训练集D中随机选择一个样本R；
　　2.从和R同类的样本集中找出R的k个近邻样本，从每个R的不同类的样本集中找出k个近邻样本；
　　3.根据规则更新每个特征的权重：如果R和最近邻样本H在某个特征上的距离小于R和最近邻样本M上的距离，则说明该特征对区分同类和不同类的最近邻是有益的，则增加该特征的权重；反之，则降低该特征的权重；
　　4.输出：特征权重大于阈值δ的特征组成的特征子集T。
　　（二）信息增益率(GainRatio)算法
　　信息增益率算法是根据评价每个特征对整体样本分类所贡献的信息增量多少作为衡量特征重要性的标准，信息越多，特征越重要。假设所研究的分类问题数据集S= ，包含m个特征，类别C共有n个类别，每一个类别出现的概率为，则分类系统的信息熵为： (1)
　　某一属性对类属性C的信息增益如下：
　　IG(C， )=H(C)-H(C| )= H(C)-(2)
　　本文采用信息增益率：GainRatio( )= IG(C， ) / H( ) (3)
　　其中，H(C)是类属性C的信息熵，特征共有p个取值，公式(2)的第2项是特征对数据集S进行分类后的熵的期望值。
　　（三）相关度量CFS算法
　　相关度量CFS特征选择算法是基于相关性的启发式评价函数，度量每个属性与类属性是高度相关还是不相关，将不关联的冗余属性去除，最终对特征属性进行降序排序获得特征子集。评价函数(式4)中Ms是属性子集中k个属性的启发式价值。为属性与类之间相关性的均值，是属性间交互相关性的均值[7]。
　　(4)
　　在对离散数据进行相关度量时，利用对称不确定方法(式5)计算属性与类属性之间的相关性大小和属性X与属性Y之间的相关性大小。
　　(5)
　　（三）Wrapper方法
　　Wrapper方法是一种使用归纳算法结合重复抽样技术来评价特征准确性的特征选择算法[8]。本文采用基于遗传算法的Wrapper方法。算法主要步骤如下：
　　1.编码：采用二进制编码，1表示该位代表的特征被选中，0表示特征未被选中。
　　2.种群初始化：随机生成m个染色体，每个染色体含有n个基因，代表n维特征属性。
　　3.对种群中每个染色体包含的特征属性，作为训练数据，训练分类器，以分类器最大准确率为评价函数计算评估值，取出最优个体；

相关热词搜索：烟叶香气算法类中特征

烟叶香气风格分类中的特征选择算法研究

热点文章阅读