Imputation de séries temporelles multivariées avec des réseaux génératifs adverses

Les séries chronologiques multivariées contiennent généralement un grand nombre de valeurs manquantes, ce qui entrave l’application de méthodes d’analyse avancées sur ces données. Les approches classiques pour traiter ce problème — telles que l’imputation par la moyenne ou par zéro, l’élimination des cas, ou l’imputation basée sur la factorisation matricielle — sont toutes incapables de modéliser les dépendances temporelles et la complexité de la distribution inhérente aux séries chronologiques multivariées. Dans cet article, nous abordons le problème d’imputation des valeurs manquantes comme une tâche de génération de données. Inspirés par le succès des Réseaux Générateurs Adversariaux (GAN) dans la génération d’images, nous proposons d’apprendre la distribution globale d’un ensemble de données de séries chronologiques multivariées à l’aide d’un GAN, qui est ensuite utilisé pour générer les valeurs manquantes de chaque échantillon. Contrairement aux données d’image, les séries chronologiques sont généralement incomplètes en raison de la nature du processus d’enregistrement des données. Pour modéliser l’irrégularité temporelle des séries incomplètes, nous utilisons une version modifiée de l’unité récurrente à porte (GRU). Des expériences menées sur deux jeux de données de séries chronologiques multivariées montrent que le modèle proposé surpassait les méthodes de référence en termes de précision d’imputation. Les résultats expérimentaux démontrent également qu’un modèle simple appliqué aux données imputées peut atteindre des performances de pointe sur des tâches de prédiction, illustrant ainsi les bénéfices de notre approche dans les applications ultérieures.