﻿ 基于改进随机森林算法的文本分类研究与应用
 计算机系统应用  2019, Vol. 28 Issue (5): 220-225 PDF

Research and Application of Text Classification Based on Improved Random Forest Algorithm
LIU Yong, XING Yan-Yun
Information Science and Technology Academy, Qingdao University of Science and Technology, Qingdao 266061, China
Abstract: Traditional random forest classification algorithm cannot distinguish the strong and weak classifiers by using the majority voting rule, and the value of its hyperparameter needs to be adjusted and optimized. This work studies the application technology of random forest algorithm in text classification and its advantages and disadvantages, and optimizes it. On one hand, optimize the voting method, perform weighted voting by combining classification effect and prediction probability of decision tree. On the other hand, an algorithm combining random search and grid search is proposed to optimize the hyperparameters in random forest. The experimental results in python environment show that the proposed method has sound performance in text classification.
Key words: random forest     text classification     weighted voting     hyperparametric optimization     random search     grid searchs

1 引言

2 随机森林算法 2.1 算法介绍

 图 1 随机森林的算法流程

(1)记给定原始训练集中的样本数量为N, 特征属性数量为M. 采用bootstrap抽样技术从原始训练集中抽取N个样本形成训练子集.

(2)从M个特征属性中随机选择m个特征作为候

(3)重复上述两个步骤k次, 构建k棵决策树, 生成随机森林.

(4)使用随机森林进行决策, 设x代表测试样本, hi代表单棵决策树, Y代表输出变量即分类标签, I为指示性函数, H为随机森林模型, 决策公式为:

 $H({x}) = \arg {\max _Y}\sum\nolimits_{i = 1}^k {I({h_i}(x) = Y)}$ (1)

2.2 算法分析

3 随机森林算法的改进

3.1 加权投票方法

 ${weight}\left( {i} \right) = \frac{{{X^{\rm{correct}}}(i)}}{X}$ (2)

 $Z(Y) = \sum\limits_{{i} = 1}^k {weight(i) ^* {p_Y}(i)}$ (3)

 图 2 改进后的随机森林算法流程

3.2 随机森林算法超参数优化

(1)确定决策树棵数k和候选特征数量m的范围.

(2)进行随机搜索, 以模型预测准确率作为算法性能的评价指标, 得到搜索结果.

(3)对搜索结果进行分析, 考虑性能最好的五组超参数取值. 如果五组结果的超参数取值相近或者性能差距较大, 以最优值附近为范围进行一次网格搜索. 如果五组结果的超参数取值差距较大且性能差距较小, 则在多个小范围内进行网格搜索.

(4)得到最终的超参数取值.

4 实验结果与分析 4.1 实验数据

 图 3 超参数优化算法流程

20 Newsgroups数据集是用于文本分类、文本挖据和信息检索研究的国际标准数据集之一. 该数据集有约20 000个新闻文档, 包括20个类, 每个类分为训练集和测试集两部分, 数据集的文档分布情况如图4所示.

 图 4 20 Newsgroups数据集文档分布情况

4.2 文本分类实验及结果分析

4.2.1 改进随机森林算法效果分析实验

4.2.2 随机森林的超参数优化实验

 图 5 随机搜索结果

 图 6 网格搜索结果

5 结论与展望

 [1] Guo SQ, Gao C, Yao J, et al. An intrusion detection model based on improved random forests algorithm. Journal of Software, 2005, 16(8): 1490-1498. DOI:10.1360/jos161490 [2] 卢晓勇, 陈木生. 基于随机森林和欠采样集成的垃圾网页检测. 计算机应用, 2016, 36(3): 731-734. [3] 郑志伟, 邱佳玲, 阳庆玲, 等. 随机森林对文本情感分析的应用与R软件实现. 现代预防医学, 2018, 45(8): 1345-1348, 1353. [4] 张世辉, 刘建新, 孔令富. 基于深度图像利用随机森林实现遮挡检测. 光学学报, 2014, 34(9): 0915003. [5] 詹国旗, 杨国东, 王凤艳, 等. 基于特征空间优化的随机森林算法在GF-2影像湿地分类中的研究. 地球信息科学学报, 2018, 20(10): 1520-1528. DOI:10.12082/dqxxkx.2018.180119 [6] 杨宏宇, 徐晋. 基于改进随机森林算法的Android恶意软件检测. 通信学报, 2017, 38(4): 8-16. DOI:10.11959/j.issn.1000-436x.2017073 [7] Abellán J, Mantas CJ, Castellano JG. A random forest approach using imprecise probabilities. Knowledge-Based Systems, 2017, 134: 72-84. DOI:10.1016/j.knosys.2017.07.019 [8] Paul A, Mukherjee DP, Das P, et al. Improved random forest for classification. IEEE Transactions on Image Processing, 2018, 27(8): 4012-4024. DOI:10.1109/TIP.2018.2834830 [9] 何珑. 基于随机森林的产品垃圾评论识别. 中文信息学报, 2015, 29(3): 150-154, 161. DOI:10.3969/j.issn.1003-0077.2015.03.020 [10] 贺捷. 随机森林在文本分类中的应用[硕士学位论文]. 广州: 华南理工大学, 2015. [11] 田宝明, 戴新宇, 陈家骏. 一种基于随机森林的多视角文本分类方法. 中文信息学报, 2009, 23(4): 48-54. DOI:10.3969/j.issn.1003-0077.2009.04.008 [12] Breiman L. Random forests. Machine Learning, 2001, 45(1): 5-32. DOI:10.1023/A:1010933404324 [13] Cutler DR, Edwards Jr TC, Beard KH, et al. Random forests for classification in ecology. Ecology, 2007, 88(11): 2783-2792. DOI:10.1890/07-0539.1 [14] 李毓, 张春霞. 基于out-of-bag样本的随机森林算法的超参数估计. 系统工程学报, 2011, 26(4): 566-572. [15] 苏金树, 张博锋, 徐昕. 基于机器学习的文本分类技术研究进展. 软件学报, 2006, 17(9): 1848-1859. [16] Bergstra J, Bengio Y. Random search for hyper-parameter optimization. Journal of Machine Learning Research, 2012, 13(1): 281-305. [17] Bowles M. Machine Learning in Python®: Essential Techniques for Predictive Analysis. Indianapolis: John Wiley & Sons, 2015. [18] Rogati M, Yang YM. High-performing feature selection for text classification. Proceedings of the 11th International Conference on Information and Knowledge Management. McLean, VA, USA. 2002. 659–661.