1 个月前

监督学习中的缺失数据插补

Jason Poulos; Rafael Valle
监督学习中的缺失数据插补
摘要

数据缺失填补可以在数据缺失隐藏有用信息的情况下,帮助提高预测模型的性能。本文比较了用于监督分类任务中缺失类别数据填补的方法。我们使用两个包含缺失类别数据的机器学习基准数据集进行实验,对比了在不同水平的数据缺失扰动下,基于未填补(即独热编码)和已填补数据训练的分类器的表现。研究结果表明,填补方法可以在存在数据缺失扰动的情况下提高预测准确性,通过正则化分类器实际上可以改善预测效果。我们在包含数据缺失扰动的Adult数据集上使用k近邻(k-NN)填补方法达到了当前最佳水平。

监督学习中的缺失数据插补 | 最新论文 | HyperAI超神经