基于类别相关性和交叉熵的特征选择方法Feature Selection Method Based on Category Correlation and Cross Entropy
朱颢东,钟勇
摘要(Abstract):
文本分类首先要解决的一个问题就是特征选择.简单分析了几种经典的特征选择方法,总结了它们的不足,提出了一个类别相关性方法,把交叉熵引入粗糙集并提出了一个基于交叉熵的属性约简算法,把该属性约简算法同类别相关性方法结合起来,提出了一个综合的特征选择方法.该方法首先利用类别相关性方法进行特征初选以过滤掉一些词条来降低特征空间的稀疏性,然后利用属性约简算法消除冗余,从而获得较具代表性的特征子集.实验结果表明,此特征选择方法效果良好.
关键词(KeyWords): 文本分类;特征选择;类别相关性;交叉熵;属性约简
基金项目(Foundation): 四川省科技计划项目,编号2008GZ0003;四川省科技厅科技攻关项目,编号07GG006-014
作者(Author): 朱颢东,钟勇
参考文献(References):
- [1]Delgado M,Martin-Bautista M J,Sanchez D,et al.Mining text data:special features and patterns[C]//Proceedings ofESF Exploratory Workshop.London:U K,2002:32-38.
- [2]朱颢东,钟勇.一种新的基于多启发式的特征选择算法[J].计算机应用,2009,29(3):849-851.
- [3]Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proceedings of the 14th In-ternational Conference on Machine Learning(ICML’97).Nashville:Morgan Kaufmann Publishers,1997:412-420.
- [4]张海龙,王莲芝.自动文本分类特征选择方法研究[J].计算机工程与设计,2006,27(20):3838-3841.
- [5]周茜,赵明生,扈曼.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23.
- [6]张建兵,戴新宇,陈家骏.文档分类之特征选择方法的实验比较[J].广西师范大学学报:自然科学版,2008,26(3):181-185.
- [7]伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报:理学版,2007,39(2):110-113.
- [8]叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报:自然科学版,2005,45(31):1818-1822.
- [9]胡寿松,何亚群.粗糙决策理论与应用[M].北京:北京航空航天大学出版社,2006.
- [10]Liang Jiye,Dang Chuangyin,Richard G M Y.A new method for measuring uncertainty and fuzziness in rough set theory[J].International Journal of General Systems,2002,31(4):331-342.
- [11]朱六兵,唐德波,杨斌.基于粗糙集信息观的决策表属性约简方法[J].信息技术,2006(1):46-49.
- [12]曾黄麟.智能计算[M].重庆:重庆大学出版社,2004.
- [13]周荫清.信息理论基础[M].3版.北京:北京航空航天大学出版社,2006.
- [14]周如旗,陈文伟.基于对称交叉熵的属性约简算法[J].计算机辅助工程,2006,15(3):51-54.