Eine Zeitreihe ist 64 Wörter wert: Langfristige Vorhersage mit Transformers

Wir schlagen eine effiziente Architektur von Transformer-basierten Modellen für die mehrdimensionale Zeitreihen-Vorhersage und selbstüberwachte Repräsentationslernung vor. Diese basiert auf zwei zentralen Komponenten: (i) der Zerlegung der Zeitreihen in Unterreihen-Patches, die als Eingabetokens für den Transformer dienen; (ii) der Kanal-Unabhängigkeit, bei der jeder Kanal eine einzelne univariate Zeitreihe enthält und alle Reihen gemeinsame Embeddings und Transformer-Gewichte nutzen. Die Patch-Design-Strategie bietet drei wesentliche Vorteile: Lokale semantische Informationen werden in den Embeddings bewahrt; die Berechnungs- und Speicherkosten der Aufmerksamkeitsmatrizen werden quadratisch reduziert, bei gleichbleibendem Blick-zurück-Fenster; und das Modell kann längere historische Informationen berücksichtigen. Unser kanalunabhängiger Patch-Time-Series-Transformer (PatchTST) erreicht eine signifikant verbesserte Genauigkeit bei der Langzeitvorhersage im Vergleich zu aktuellen State-of-the-Art Transformer-basierten Modellen. Zudem wenden wir unser Modell auf selbstüberwachte Vortrainingsaufgaben an und erzielen hervorragende Ergebnisse bei der Feinabstimmung, die sogar die Leistung von überwachten Trainingsverfahren auf großen Datensätzen übertreffen. Die Übertragung maskierter, vortrainierter Repräsentationen von einem Datensatz auf andere führt zudem zu SOTA-Vorhersagegenauigkeiten. Der Quellcode ist verfügbar unter: https://github.com/yuqinie98/PatchTST.