Informer: Jenseits des effizienten Transformers für die Vorhersage langer sequentieller Zeitreihen

Viele praktische Anwendungen erfordern die Vorhersage langer Zeitreihen, wie zum Beispiel die Planung des Stromverbrauchs. Die Vorhersage langer Zeitreihen (LSTF) verlangt eine hohe Vorhersagekapazität des Modells, das heißt, die Fähigkeit, präzise langfristige Abhängigkeiten zwischen Ausgabe und Eingabe effizient zu erfassen. Neueste Studien haben das Potenzial von Transformers zur Steigerung der Vorhersagekapazität gezeigt. Allerdings verhindern mehrere ernsthafte Probleme bei den Transformers deren direkte Anwendung auf LSTF, darunter quadratische Zeitkomplexität, hoher Speicherverbrauch und inhärente Einschränkungen der Encoder-Decoder-Architektur. Um diese Probleme zu lösen, haben wir ein effizientes Transformer-basiertes Modell für LSTF entwickelt, das Informer genannt wird und drei charakteristische Merkmale besitzt: (i) einen $ProbSparse$-Selbstaufmerksamkeitsmechanismus, der eine Zeitkomplexität und Speicherverwendung von $O(L \log L)$ erreicht und vergleichbare Leistung bei der Abhängigkeitsausrichtung von Sequenzen aufweist. (ii) Der Selbstaufmerksamkeits-Destillierungsprozess hebt dominierende Aufmerksamkeit durch Halbierung der Kaskadenschicht-Eingänge hervor und handhabt extrem lange Eingabesequenzen effizient. (iii) Der generative Dekoder, obwohl konzeptionell einfach gehalten, ermöglicht die Vorhersage langer Zeitreihensequenzen in einer einzigen Vorwärtsoperation anstelle eines schrittweisen Vorgehens, was die Inferenzgeschwindigkeit bei langen Sequenzvorhersagen erheblich verbessert. Ausführliche Experimente mit vier großen Datensätzen zeigen, dass Informer bestehende Methoden deutlich übertrifft und eine neue Lösung für das LSTF-Problem bietet.