7 个月前

摘要

数据缺失填补可以在数据缺失隐藏有用信息的情况下，帮助提高预测模型的性能。本文比较了用于监督分类任务中缺失类别数据填补的方法。我们使用两个包含缺失类别数据的机器学习基准数据集进行实验，对比了在不同水平的数据缺失扰动下，基于未填补（即独热编码）和已填补数据训练的分类器的表现。研究结果表明，填补方法可以在存在数据缺失扰动的情况下提高预测准确性，通过正则化分类器实际上可以改善预测效果。我们在包含数据缺失扰动的Adult数据集上使用k近邻（k-NN）填补方法达到了当前最佳水平。

源 PDF