Multivariate Time Series Imputation mit Generative Adversarial Networks

Mehrdimensionale Zeitreihen enthalten typischerweise eine große Anzahl fehlender Werte, was die Anwendung fortgeschrittener Analysemethoden auf multivariate Zeitreihendaten erschwert. Herkömmliche Ansätze zur Behandlung fehlender Werte – einschließlich Mittelwert-/Null-Einsetzung, Fall-Auslassung und auf Matrixfaktorisierung basierende Imputation – sind allenfalls unzureichend in der Lage, die zeitlichen Abhängigkeiten und die komplexe Verteilungsstruktur multivariater Zeitreihen zu modellieren. In diesem Artikel betrachten wir das Problem der Imputation fehlender Werte als Aufgabe der Datengenerierung. Inspiriert vom Erfolg von Generative Adversarial Networks (GAN) bei der Bildgenerierung, schlagen wir vor, die Gesamtverteilung eines multivariaten Zeitreihendatensatzes mit einer GAN zu lernen, die anschließend zur Generierung fehlender Werte für jedes einzelne Beispiel verwendet wird. Im Gegensatz zu Bilddaten sind Zeitreihendaten aufgrund der Natur des Datenerfassungsprozesses häufig unvollständig. Um die zeitliche Irregularität unvollständiger Zeitreihen zu modellieren, verwenden wir eine modifizierte Gate Recurrent Unit (GRU) innerhalb der GAN. Experimente an zwei multivariaten Zeitreihendatensätzen zeigen, dass das vorgeschlagene Modell die Baseline-Methoden hinsichtlich der Genauigkeit der Imputation übertrifft. Zudem ergab sich, dass ein einfaches Modell auf den imputierten Daten Zustand-des-Kunst-Ergebnisse bei Vorhersageaufgaben erzielen kann, was die Vorteile unseres Ansatzes für nachgeschaltete Anwendungen unterstreicht.