Fehlende Datenimputation für überwachtes Lernen

Die Imputation fehlender Daten kann die Leistung von Vorhersagemodellen verbessern, insbesondere dann, wenn fehlende Daten nützliche Informationen verbergen. Diese Arbeit vergleicht Methoden zur Imputation fehlender kategorialer Daten für überwachte Klassifizierungsaufgaben. Wir führen Experimente auf zwei Benchmark-Datensätzen des maschinellen Lernens durch, die fehlende kategoriale Daten enthalten, und vergleichen Klassifikatoren, die auf nicht-imputierten (d.h., one-hot-kodierten) oder imputierten Daten mit verschiedenen Stufen zusätzlicher Fehlenddaten-Störung trainiert wurden. Unsere Ergebnisse zeigen, dass Imputationsmethoden die prädiktive Genauigkeit bei der Anwesenheit von Fehlenddaten-Störungen erhöhen können, was tatsächlich durch Regularisierung des Klassifikators die Vorhersagegenauigkeit verbessern kann. Auf dem Adult-Datensatz erreichen wir den Stand der Technik bei der Verwendung von Fehlenddaten-Störungen und k-nearest-neighbors (k-NN)-Imputation.