Nutzen von 2D-Informationen für die langfristige Zeitreihenprognose mit Vanilla Transformers

Zeitreihenvorhersage ist entscheidend für das Verständnis und die Prognose komplexer Dynamiken in verschiedenen Bereichen, von Finanzen und Wirtschaft über Klima bis hin zu Gesundheitswesen. Aufbauend auf der Transformer-Architektur wird ein Ansatz verfolgt, bei dem mehrere Variablen derselben Zeitstufe zu einem einzigen zeitlichen Token kodiert werden, um globale Abhängigkeiten zu modellieren. Im Gegensatz dazu werden bei einem anderen Ansatz die Zeitpunkte einzelner Serien in separaten Variablen-Tokens eingebettet. Der erste Ansatz stößt auf Schwierigkeiten bei der Lernung variatenspezifischer Darstellungen, während der zweite Ansatz das Risiko birgt, essenzielle zeitliche Informationen zu übersehen, die für eine genaue Vorhersage entscheidend sind. In unserer Arbeit stellen wir GridTST vor, ein Modell, das die Vorteile beider Ansätze durch innovative mehrdimensionale Aufmerksamkeitsmechanismen auf Basis eines grundlegenden Transformers kombiniert. Wir betrachten die Eingabedaten als Gitter, wobei die $x$-Achse die Zeitstufen und die $y$-Achse die Variablen repräsentiert. Eine vertikale Säulenschnittführung verbindet die Variablen zu jedem Zeitpunkt zu einem \textit{Zeit-Token}, während eine horizontale Säulenschnittführung die einzelnen Serien über alle Zeitstufen in einem \textit{Variablen-Token} einbettet. Entsprechend richtet die \textit{horizontale Aufmerksamkeitsmechanik} ihre Aufmerksamkeit auf die Zeit-Tokens, um die Korrelationen zwischen Daten zu verschiedenen Zeitpunkten zu erfassen, während eine \textit{vertikale}, variablenbewusste \textit{Aufmerksamkeit} zur Erfassung multivariater Korrelationen eingesetzt wird. Diese Kombination ermöglicht eine effiziente Verarbeitung von Informationen sowohl in zeitlicher als auch in variablenbezogener Dimension und verstärkt somit die analytische Leistungsfähigkeit des Modells. % Zudem integrieren wir die Patch-Technik, bei der Zeit-Tokens in Teilserien-ähnliche Patchs unterteilt werden, um sicherzustellen, dass lokale semantische Informationen in der Einbettung erhalten bleiben. Das GridTST-Modell erzielt konsistent Spitzenleistungen auf verschiedenen realen Datensätzen.