Imputation de données manquantes pour l'apprentissage supervisé

L'imputation de données manquantes peut aider à améliorer les performances des modèles de prédiction dans des situations où les données manquantes cachent des informations utiles. Cet article compare différentes méthodes d'imputation de données catégorielles manquantes pour des tâches de classification supervisée. Nous avons mené des expérimentations sur deux ensembles de données de référence en apprentissage automatique comportant des données catégorielles manquantes, en comparant les classifieurs formés sur des données non imputées (c'est-à-dire encodées en one-hot) ou imputées avec différents niveaux de perturbation supplémentaire due aux données manquantes. Nous montrons que les méthodes d'imputation peuvent augmenter la précision prédictive en présence de perturbations dues aux données manquantes, ce qui peut effectivement améliorer la précision des prédictions en régularisant le classifieur. Nous obtenons l'état de l'art sur l'ensemble de données Adult avec une perturbation due aux données manquantes et une imputation par les k-plus-proches-voisins (k-NN).