摘要:基于大量历史数据的预测在环境治理、城市交通等领域已经成为必不可少的一个环节, 预测的准确性对实际生产、调度等工作有着重要影响. 受自然因素或人为因素的影响, 一些数据表现出高波动性以及不确定性, 导致无法充分发挥预测模型的最大优势. 本研究以非结冰期含沙量预测为案例, 探究了针对高波动性数据预测的优化方法, 发现通过基于SHAP方法的特征选择优化、数据平稳化以及前期聚类可以有效降低对高波动数据的预测误差, MAE从初始模型的1.502降低到0.194, 其中数据平稳化的优化效果最显著, MAE降低了76.51%, 但随着平稳化的阶数增大, 预测结果反而变差, 这是由于随着平稳化的阶数越高, 后续指数化的阶数也对应提升, 从而导致误差的指数倍增长. 此外, 将聚类结果作为特征输入可以有效“引导”多层感知机的参数学习过程.