摘要:随着网络剧近年来的飞速发展, 对播放量的研究也逐渐受到关注. 网络剧播放量反映了网络剧的口碑和受欢迎程度, 这与制作方和投资方的收益密切相关. 但目前的研究尚未考虑观众评论的情感态度对播放量的影响, 并且预测模型也较为简单, 预测精度有待进一步提高. 本文在对用户评论进行情感分析的基础上, 构建Stacking集成学习模型对我国网络剧的播放量进行预测. 首先基于SO-PMI算法构建网络剧领域情感词典, 并结合基础情感词典以及点赞数权重计算出评论情感得分, 加入预测指标体系中; 接着以随机森林(random forest, RF), GBDT, XGBoost以及LightGBM为基学习器, MLR为元学习器, 构建Stacking网络剧播放量分阶段的预测模型, 使用当前数据对下一周的播放量进行预测; 最后进行模型比较分析, 并得出预测变量的重要性分值. 实验结果显示, 本文所构建的模型判定系数R方值达到了0.89, 高于基学习器单独的模型预测R方值 (最高0.84)以及未加入情感得分变量的Stacking模型预测R方值 (0.81). 可以得出加入情感得分变量后, 本文构建的Stacking集成学习模型在一定程度上可以提高网络剧播放量的预测精度.