基于时序特征和集成算法的用户购买预测
作者:
作者单位:

作者简介:

通讯作者:

中图分类号:

基金项目:


User Purchase Prediction Based on Timing Features and Ensemble Algorithms
Author:
Affiliation:

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 增强出版
  • |
  • 文章评论
    摘要:

    大数据时代, 电商平台积累了大量用户在平台上的行为数据, 比如浏览、点击、下单和加入购物车等等. 如何使用机器学习算法去探索大数据背后的用户消费喜好和习惯成为了一个新的研究热点. 本文主要在特征工程和模型搭建两个方面对用户购买预测的效果做出提高. 通过深入理解电商业务知识, 利用统计学知识, 分别从用户、商品和评论数据等多个方面的数据构建了115个特征; 在模型搭建方面, 主要设计了一个两层融合模型, 第一层采用了XGBoost、CatBoost和逻辑回归作为基分类器, 从不同的角度考虑用户购买预测, 第二层采用加权平均的方法对基类模型的预测结果进行融合, 其权重由线性分类器学习生成. 实验结果表明该融合模型的F1评分要高于个体分类器, 并且多次实验证明, 融合模型的稳定性也要比个体分类器好.

    Abstract:

    In the era of big data, e-commerce platforms have accumulated a large number of user behavior data, such as browsing, clicking, placing orders and adding commodities to shopping carts. How to use machine learning algorithms to explore the consumer preferences and habits behind big data has become a new research hotspot. This study mainly improves the user purchase prediction from two aspects: feature engineering and model building. After the deep understanding of e-commerce knowledge, we have constructed 115 features with statistical knowledge and data from many aspects such as users, commodities and comments. Moreover, a two-layer fusion model is designed. The first layer uses XGBoost, CatBoost, and logistic regression as the base classifiers which predict user purchase behaviors from different perspectives. The second layer employs a weighted average method to fuse the prediction results of the base class model, and its weight is generated by linear classifier learning. The experimental results show that the F1 score of the fusion model is higher than that of the individual classifier, and many times of experiments prove that the fusion model has high stability compared with the individual classifier.

    参考文献
    相似文献
    引证文献
引用本文

盛钟松,朱海景,余谅.基于时序特征和集成算法的用户购买预测.计算机系统应用,2021,30(10):264-270

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2020-12-03
  • 最后修改日期:2021-01-04
  • 录用日期:
  • 在线发布日期: 2021-10-08
  • 出版日期:
您是第位访问者
版权所有:中国科学院软件研究所 京ICP备05046678号-3
地址:北京海淀区中关村南四街4号 中科院软件园区 7号楼305房间,邮政编码:100190
电话:010-62661041 传真: Email:csa (a) iscas.ac.cn
技术支持:北京勤云科技发展有限公司

京公网安备 11040202500063号