摘要:随着互联网金融和电子支付业务的高速增长, 由此引发的个人信用问题也呈现与日俱增的态势. 个人信用预测本质上是不平衡的序列二分类问题, 这类问题的数据样本规模大、维度高、数据分布极不平衡. 为了高效区分申请者的信用情况, 本文提出一种基于特征优化和集成学习的个人信用预测方法(PL-SmoteBoost). 该方法在Boosting集成框架下构建个人信用预测模型, 首先利用Pearson相关系数对数据进行初始化分析, 剔除冗余数据; 通过Lasso选取部分特征来减少数据维度, 降低高维风险; 通过SMOTE过采样方法对降维数据的少数类进行线性插值, 以解决类不平衡问题; 最后为了验证算法有效性, 以常用的处理二分类问题的算法作为对比方法, 采用从Kaggle和微软开放数据库下载的高纬度不平衡数据集对算法进行测试, 以AUC作为算法的评价指标, 利用统计检验手段对实验结果进行分析. 结果表明, 相对于其他算法, 本文提出的PL-SmoteBoost算法具有显著优势.