﻿ 基于REAHCOR特征选择和GBDT的贫困等级评价模型
 计算机系统应用  2020, Vol. 29 Issue (5): 209-213 PDF

1. 中国科学院大学, 北京 100049;
2. 中国科学院 沈阳计算技术研究所, 沈阳 110168;
3. 沈阳高精数控智能技术股份有限公司, 沈阳 110168

Poverty Rating Model Based on REAHCOR Feature Selection and GBDT
XIA Yan-Jiao1,2, SUN Yong2, JIAO Yan-Fei3, GAO Cen2, TIAN Yue2
1. University of Chinese Academy of Sciences, Beijing 100049, China;
2. Shenyang Institute of Computing Technology, Chinese Academy of Sciences, Shenyang 110168, China;
3. Shenyang Golding NC Technology Co. Ltd., Shenyang 110168, China
Abstract: In November 2013, General Secretary Xi Jinping first proposed the important idea of “precise poverty alleviation” when he visited West Hunan. In order to achieve the “precision” requirements, it is necessary to accurately identify poor households. For the convenience of the government to the precise poverty alleviation work effectively, this study analyzes the collected family information data and comprehensively considers that the information data based on multidimensional poverty contains discrete and continuous numerical values. And the characteristic data of the series has hierarchical characteristics. A model based on the new feature selection algorithm of REAHCOR and GBDT classification algorithm is constructed. The model is applied to the poverty rating evaluation system and has achieved sound results.
Key words: multidimensional poverty     feature selection     correlation     classification algorithm     poverty rating

1 贫困等级评价模型构建过程算法介绍 1.1 特征选择算法REAHCOR

(1) ReliefF算法会赋予每个特征不同的权重, 依据是每个特征与类别标签的相关性有大有小, 当计算出的特征权重值大于某个阙值时, 说明它对类别标签的影响程度强, 我们保留. 反之, 说明其影响程度弱, 该特征会被删除. 权重的大小反映了该特征值区分同类近邻样本和不同类近邻样本的能力. ReliefF算法的运算过程为从训练集中随机的选取一个样本a, 然后比较样本a同类的b个近邻样本与不同类的另外b个近邻样本在某个特征的距离. 通过规定次数的迭代, 计算出所有特征的权重平均值. 其权重更新公式如下:

 \begin{aligned} W_P^{i + 1} =& W_P^i - \displaystyle\sum\limits_{j = 1}^k {\dfrac{{diff\left( {p,x,{H_j}\left( x \right)} \right)}}{{m \cdot k}}} \\ &+ \displaystyle\sum\limits_{C \ne class\left( x \right)} {\dfrac{{\dfrac{{P\left( C \right)}}{{1 - P\left( {class\left( x \right)} \right)}}\displaystyle\sum\limits_{j = 1}^k {diff\left( {p,x,{M_j}\left( x \right)} \right)} }}{{m \cdot k}}} \\ \\ \end{aligned} (1)

(2) 在上一步得出相关特征之后, 考虑到贫困信息的复杂性和多层次性, 继而引入认可度较高的层次分析赋权法继续为特征定量权重. 其中在进行一致性指标计算时公式如下:

 $CI = \dfrac{{{\lambda _{\max }} - n}}{{n - 1}}$ (2)

 $CR = \dfrac{{CI}}{{RI}}$ (3)

 $CR = \dfrac{{{a_1}C{I_1} + {a_2}C{I_2} + \cdots+ {a_m}C{I_m}}}{{{a_1}R{I_1} + {a_2}R{I_2} + \cdots+ {a_m}R{I_m}}}$ (4)

(3) 采用特征间冗余度度量的相关性分析法进行特征选择. 该方法的主要思想是通过度量属性之间的相关度来衡量它们之间的冗余性. 相关度越大, 冗余度也就越大. 任江涛等介绍了基于相关性分析的选择算法可以作为一种借鉴[10]. 在本研究中, 连续型数值需进行离散化处理, 然后采用信息论中的熵概念进行度量. 信息熵的定义公式如下:

 $H\left( X \right) = - \sum\limits_i {P\left( {{x_i}} \right)} {\log _2}\left( {P\left( {{x_i}} \right)} \right)$ (5)

 $H\left( {X\left| Y \right.} \right) = - \sum\limits_j {P\left( {{y_j}} \right)} \sum\limits_i {P\left( {\left. {{x_i}} \right|{y_j}} \right)} {\log _2}\left( {P\left( {{x_i}\left| {{y_j}} \right.} \right)} \right)$ (6)

 $IG\left( {X\left| Y \right.} \right) = H\left( X \right) - H\left( {X\left| Y \right.} \right)$ (7)

 $SU\left( {X,Y} \right) = 2\frac{{IG\left( {X\left| Y \right.} \right)}}{{\left[ {H\left( X \right) + H\left( Y \right)} \right]}}$ (8)

1.2 GBDT算法

Fk0(x) = 0, k = 1, K

For m = 1 to M do:

$\scriptstyle p_k(x)=\exp(F_k(x))/{\sum^k_{l=1} }\exp(F_l(x)),\;\;k=1,K$

For k = 1 to K do:

$\scriptstyle {\overline {y}}_{ik}=y_{ik}-p_k(x_i),\;\;i=1,N$

$\scriptstyle \{R_{klm}\}^L_{l=1}=L-terminal\;node\; tree(\{{\overline{y}}_{ik},x_i\}^N_l )$

$\scriptstyle r_{klm}= \frac{k-1}{k}\frac{\sum_{x_i \in R{_{klm}}}{\overline y}_{ik}}{\sum_{x_i \in R{_{klm}}}|{\overline y}_{ik}|(1-|{\overline y}_{ik}|)},\;\;l=1,L$

$\scriptstyle F_{km}(x)= F_{k,m-1}(x)+r_{klm}(x \in R_{klm})$

endFor

endFor

2 实验分析

 图 1 贫困等级评价模型构建

2.1 数据采集

2.2 数据预处理

2.3 特征选择

2.4 模型预测

(1) 验证REAHCOR算法的有效性

(2) 验证整体模型的有效性

2.5 评价标准

 $precision = \frac{{TP}}{{TP + FP}}$ (9)
 $recall = \frac{{TP}}{{TP + FN}}$ (10)
 $F1 = \frac{{2 * precision * recall}}{{precision + recall}}$ (11)

2.6 实验分析

(1) 在特征选择对比实验中, ReliefF算法通过迭代规定次数内样本与同类近邻样本和不同类近邻样本的距离, 筛选权值高的特征作为特征子集, FCBF算法采用后向顺序搜索策略进行快速的选取最优特征子集. 表1中展示了贫困数据集按照以上3种方法进行特征选择, 然后将得到的结果使用GBDT算法进行分类, 对结果采用交叉验证的方法进行比较, 筛选出的特征个数用Num表示.

 图 2 不同特征选择算法效果对比

(2) 使用随机森林和GBDT算法对测试集进行分类结果的性能比较如表2所示.

3 总结

 [1] Sarwosri, Sunaryono D, Akbar RJ, et al. Poverty classification using analytic hierarchy process and k-means clustering. Proceedings of 2016 International Conference on Information & Communication Technology and Systems. Surabaya, Indonesia. 2016. 266–269. [2] Yu BL, Shi KF, Hu YJ, et al. Poverty evaluation using NPP-VIIRS nighttime light composite data at the county level in China. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2015, 8(3): 1217-1229. DOI:10.1109/jstars.2015.2399416 [3] Jean N, Burke M, Xie M, et al. Combining satellite imagery and machine learning to predict poverty. Science, 2016, 353(6301): 790-794. DOI:10.1126/science.aaf7894 [4] 李雪, 刘洋, 叶伟铭. 基于多层次模糊系统的贫困等级认定模型. 中国新技术新产品, 2008(9): 99-101. DOI:10.13612/j.cnki.cntp.2008.11.013 [5] 徐姝婧, 陆一啸, 徐嘉瑞. 基于机器学习的贫困户识别指标体系模型研究. 上海立信会计金融学院学报, 2019(4): 108-120. DOI:10.13230/j.cnki.jrsh.2019.04.011 [6] 丁雪梅, 王汉军, 王炤光, 等. 基于改进ReliefF的无监督特征选择方法. 计算机系统应用, 2018, 27(3): 149-155. DOI:10.15888/j.cnki.csa.006243 [7] 李叶紫, 周怡璐, 王振友. 基于互信息的组合特征选择算法. 计算机系统应用, 2017, 26(8): 173-179. DOI:10.15888/j.cnki.csa.005891 [8] 张尧. 基于互信息的特征选择方法研究[硕士学位论文]. 西安: 西安理工大学, 2019. [9] 李娜娜. 中国农村多维贫困研究[硕士学位论文]. 太原: 山西财经大学, 2012. [10] 任江涛, 黄焕宇, 孙婧昊, 等. 基于相关性分析及遗传算法的高维数据特征选择. 计算机应用, 2006, 26(6): 1403-1405. [11] 魏仕轩, 王未央. SVM和集成学习算法的改进和实现. 计算机系统应用, 2015, 24(7): 117-121.