
摘要
数据缺失填补可以在数据缺失隐藏有用信息的情况下,帮助提高预测模型的性能。本文比较了用于监督分类任务中缺失类别数据填补的方法。我们使用两个包含缺失类别数据的机器学习基准数据集进行实验,对比了在不同水平的数据缺失扰动下,基于未填补(即独热编码)和已填补数据训练的分类器的表现。研究结果表明,填补方法可以在存在数据缺失扰动的情况下提高预测准确性,通过正则化分类器实际上可以改善预测效果。我们在包含数据缺失扰动的Adult数据集上使用k近邻(k-NN)填补方法达到了当前最佳水平。
数据缺失填补可以在数据缺失隐藏有用信息的情况下,帮助提高预测模型的性能。本文比较了用于监督分类任务中缺失类别数据填补的方法。我们使用两个包含缺失类别数据的机器学习基准数据集进行实验,对比了在不同水平的数据缺失扰动下,基于未填补(即独热编码)和已填补数据训练的分类器的表现。研究结果表明,填补方法可以在存在数据缺失扰动的情况下提高预测准确性,通过正则化分类器实际上可以改善预测效果。我们在包含数据缺失扰动的Adult数据集上使用k近邻(k-NN)填补方法达到了当前最佳水平。