GAIN: Fehlende Daten durch Generative Adversarial Nets ergänzen

Wir schlagen eine neuartige Methode zur Ermittlung fehlender Daten vor, indem wir den bekannten Rahmen von Generativen Wettbewerbsnetzen (Generative Adversarial Nets, GAN) anpassen. Demgemäß nennen wir unsere Methode Generative Adversarial Imputation Nets (GAIN). Der Generator (G) beobachtet einige Komponenten eines echten Datenvektors, ergänzt die fehlenden Komponenten unter Berücksichtigung der tatsächlich beobachteten und gibt einen vollständigen Vektor aus. Der Diskriminator (D) nimmt daraufhin einen vollständigen Vektor entgegen und versucht zu bestimmen, welche Komponenten tatsächlich beobachtet wurden und welche ergänzt wurden. Um sicherzustellen, dass D den Generator (G) dazu zwingt, die gewünschte Verteilung zu lernen, geben wir D zusätzliche Informationen in Form eines Hinweisvektors. Der Hinweis offenbart dem Diskriminator partielle Informationen über das Fehlen der ursprünglichen Stichprobe, wodurch D seine Aufmerksamkeit auf die Ergänzungsqualität bestimmter Komponenten fokussieren kann. Dieser Hinweis stellt sicher, dass G tatsächlich lernt, gemäß der echten Datenverteilung zu generieren. Wir haben unsere Methode an verschiedenen Datensätzen getestet und festgestellt, dass GAIN erheblich besser abschneidet als die bislang besten Ergänzungsmethoden.