PatchMixer: Eine Patch-Mixing-Architektur für die Langzeit-Zeitreihen-Vorhersage

Obwohl der Transformer in den letzten Jahren die dominierende Architektur für Zeitreihenvorhersagetasks geworden ist, bleibt eine grundlegende Herausforderung bestehen: Die permutationsinvariante Selbst-Attention-Mechanismen in Transformers führen zu einem Verlust zeitlicher Informationen. Um diese Herausforderungen anzugehen, schlagen wir PatchMixer vor, ein neuartiges, auf CNNs basierendes Modell. Es führt eine permutationsabhängige Faltungsstruktur ein, um zeitliche Informationen zu bewahren. Im Gegensatz zu herkömmlichen CNNs in diesem Bereich, die häufig mehrere Skalen oder zahlreiche Zweige verwenden, stützt sich unsere Methode ausschließlich auf tiefenweise separable Faltungen. Dadurch können lokale Merkmale und globale Korrelationen mit einer einzigen Skalierung architektonisch erfasst werden. Zudem setzen wir zwei Vorhersageköpfe ein, die sowohl lineare als auch nichtlineare Komponenten umfassen, um zukünftige Kurventrends und Details präziser zu modellieren. Unsere experimentellen Ergebnisse auf sieben Benchmark-Datenmengen für Zeitreihenvorhersage zeigen, dass PatchMixer im Vergleich zur Stand-of-the-Art-Methode und dem besten CNN-Modell jeweils relative Verbesserungen von 3,9 % und 21,2 % erzielt, während es gleichzeitig 2- bis 3-mal schneller ist als die fortschrittlichste bisherige Methode.