GAIN : Imputation de Données Manquantes à l'Aide de Réseaux Antagonistes Générateurs

Nous proposons une nouvelle méthode pour l'imputation de données manquantes en adaptant le cadre bien connu des Réseaux Antagonistes Génératifs (GAN). Nous appelons notre méthode Réseaux Antagonistes Génératifs d'Imputation (GAIN). Le générateur (G) observe certaines composantes d'un vecteur de données réelles, impute les composantes manquantes conditionnellement aux observations effectuées, et produit un vecteur complet. Le discriminateur (D) reçoit ensuite un vecteur complet et tente de déterminer quelles composantes ont été réellement observées et quelles ont été imputées. Pour garantir que D force G à apprendre la distribution souhaitée, nous fournissons à D une information supplémentaire sous forme d'un vecteur indicateur. Ce vecteur indicateur révèle à D des informations partielles sur la nature manquante de l'échantillon original, ce qui permet à D de se concentrer sur la qualité de l'imputation de certaines composantes spécifiques. Ce vecteur indicateur assure que G apprend effectivement à générer selon la distribution réelle des données. Nous avons testé notre méthode sur divers jeux de données et constaté que GAIN surpassait significativement les méthodes d'imputation les plus avancées actuellement disponibles.