Die Verbesserung der Lokalität und das Überwinden der Speicherflaschenhals von Transformer bei der Zeitreihenprognose

Die Prognose von Zeitreihen ist ein wichtiges Problem in vielen Bereichen, darunter die Vorhersage der Energieerzeugung von Solarkraftwerken, der Stromverbrauch und die Verkehrslage. In dieser Arbeit schlagen wir vor, solche Prognoseprobleme mit dem Transformer [1] anzugehen. Obwohl wir von seiner Leistung in unserer vorläufigen Studie beeindruckt waren, identifizierten wir zwei Hauptnachteile: (1) Lokalitätsunempfindlichkeit: das punktweise Skalarprodukt-Selbst-Aufmerksamkeitsmechanismus in der kanonischen Transformer-Architektur ist gegenüber lokalem Kontext unempfindlich, was das Modell anfällig für Anomalien in Zeitreihen machen kann; (2) Speicherflaschenhals: die räumliche Komplexität des kanonischen Transformers wächst quadratisch mit der Sequenzlänge $L$, was eine direkte Modellierung langer Zeitreihen unmöglich macht. Um diese beiden Probleme zu lösen, schlagen wir zunächst eine konvolutive Selbst-Aufmerksamkeit vor, bei der Abfragen und Schlüssel durch kausale Faltung erzeugt werden, sodass der lokale Kontext besser in den Aufmerksamkeitsmechanismus integriert wird. Anschließend präsentieren wir den LogSparse Transformer, der nur einen Speicheraufwand von $O(L(\log L)^{2})$ hat und die Prognosegenauigkeit für Zeitreihen mit feiner Granularität und starken langfristigen Abhängigkeiten unter eingeschränktem Speicherbudget verbessert. Unsere Experimente sowohl mit synthetischen Daten als auch mit realen Datensätzen zeigen, dass unser Ansatz sich günstig mit dem Stand der Technik vergleicht.