摘要:土壤分析研究中属性数据缺失的现象时常发生, 为了提高研究结果的可靠性, 有必要对土壤属性数据的缺失值插补方法进行研究. 从数据挖掘的角度利用多种缺失值处理方法来对缺失值进行插补, 以中国主要农田生态系统土壤养分数据库的pH属性为研究对象, 并且从真实值和插补值的拟合优度和插补误差两个方面评估各个方法在不同缺失率的数据集上的表现. 结果表明, 对比其他方法, 如多元回归、SVM、神经网络, 采用最优参数的KNN和随机森林插补方法对土壤属性数据pH进行插补是有效可行的. KNN和随机森林在不同缺失率的数据集上插补缺失数据pH的MAE、RMSE和R2的均值分别为0.132和0.131, 0.174和0.178, 0.775和0.765.