HyperAIHyperAI
vor 3 Monaten

iTransformer: Inverted Transformers sind wirksam für die Zeitreihenprognose

Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long
iTransformer: Inverted Transformers sind wirksam für die Zeitreihenprognose
Abstract

Der jüngste Aufschwung linearer Vorhersagemodelle stellt die anhaltende Begeisterung für architektonische Modifikationen von Transformer-basierten Vorhersagemodellen in Frage. Diese Modelle nutzen Transformers, um globale Abhängigkeiten über zeitliche Token von Zeitreihen zu modellieren, wobei jedes Token aus mehreren Variablen desselben Zeitpunkts gebildet wird. Allerdings leiden Transformers bei der Vorhersage von Zeitreihen mit größeren Blick zurück-Fenstern unter Leistungsabfall und exponentiell steigendem Rechenaufwand. Zudem werden für jedes zeitliche Token mehrere Variablen zusammengefasst, die potenzielle verzögerte Ereignisse und unterschiedliche physikalische Messgrößen repräsentieren, was bei der Lernung variablenzentrierter Darstellungen fehlschlagen kann und zu sinnlosen Aufmerksamkeitskarten führen kann. In dieser Arbeit reflektieren wir die fähigen Funktionen der Transformer-Komponenten und adaptieren die Transformer-Architektur ohne jegliche Änderung der grundlegenden Bausteine. Wir stellen iTransformer vor, das lediglich die Aufmerksamkeitsmechanismen und das Feed-Forward-Netzwerk auf invertierten Dimensionen anwendet. Konkret werden die Zeitpunkte einzelner Serien in Variablen-Token eingebettet, die dann vom Aufmerksamkeitsmechanismus genutzt werden, um multivariate Korrelationen zu erfassen; gleichzeitig wird das Feed-Forward-Netzwerk für jeden Variablen-Token einzeln eingesetzt, um nichtlineare Darstellungen zu lernen. Das iTransformer-Modell erreicht state-of-the-art-Ergebnisse auf anspruchsvollen realen Datensätzen, was die Transformer-Familie mit verbesserter Leistungsfähigkeit, stärkerer Generalisierungsfähigkeit über verschiedene Variablen hinweg und effizienterer Nutzung beliebiger Blick zurück-Fenster ausstattet und es zu einer hervorragenden Alternative als grundlegende Architektur für die Zeitreihenvorhersage macht. Der Quellcode ist in diesem Repository verfügbar: https://github.com/thuml/iTransformer.