HyperAIHyperAI
vor 11 Tagen

TSMixer: Leichtgewichtiges MLP-Mixer-Modell für die mehrdimensionale Zeitreihenvorhersage

Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam
TSMixer: Leichtgewichtiges MLP-Mixer-Modell für die mehrdimensionale Zeitreihenvorhersage
Abstract

Transformers haben in der Zeitreihenprognose an Beliebtheit gewonnen, da sie in der Lage sind, weite zeitliche Abhängigkeiten zu erfassen. Dennoch stellen ihre hohen Anforderungen an Speicher und Rechenleistung eine kritische Engstelle für langfristige Prognosen dar. Um diesem Problem entgegenzuwirken, stellen wir TSMixer vor – eine leichte neuronale Architektur, die ausschließlich aus mehrschichtigen Perzeptronen (MLP) besteht und für multivariate Prognose und Repräsentationslernen auf segmentierten Zeitreihen geeignet ist. Angelehnt an den Erfolg von MLP-Mixer in der Computer Vision adaptieren wir diesen Ansatz für Zeitreihen, lösen dabei spezifische Herausforderungen und führen validierte Komponenten ein, um die Genauigkeit zu verbessern. Dazu gehört ein neuartiges Designparadigma, bei dem Online-Rekonziliationsköpfe an den MLP-Mixer-Backbone angefügt werden, um explizit zeitreihenspezifische Eigenschaften wie Hierarchie und Kanalkorrelationen zu modellieren. Zudem schlagen wir eine neue hybride Kanalmodellierung sowie eine einfache Gating-Strategie vor, um geräuscherfüllte Kanalinteraktionen effektiv zu behandeln und eine gute Generalisierung über diverse Datensätze hinweg zu gewährleisten. Durch die Integration dieser leichten Komponenten verbessern wir signifikant die Lernfähigkeit einfacher MLP-Strukturen und erreichen eine Leistung, die komplexe Transformer-Modelle bei minimaler Rechenressourcennutzung übertrifft. Darüber hinaus ermöglicht die modulare Architektur von TSMixer die Kompatibilität sowohl mit überwachten als auch mit maskierten selbstüberwachten Lernmethoden, was es zu einem vielversprechenden Baustein für Zeitreihen-Foundations-Modelle macht. TSMixer übertrifft state-of-the-art MLP- und Transformer-Modelle in der Prognose um einen erheblichen Abstand von 8 bis 60 Prozent. Zudem erreicht es die neuesten starken Benchmarks von Patch-Transformer-Modellen (um 1–2 Prozent) bei einer signifikanten Reduktion von Speicherbedarf und Laufzeit (2–3-fach). Der Quellcode unseres Modells wurde offiziell als PatchTSMixer auf HuggingFace veröffentlicht:Modell: https://huggingface.co/docs/transformers/main/en/model_doc/patchtsmixerBeispiele: https://github.com/ibm/tsfm/#notebooks-links

TSMixer: Leichtgewichtiges MLP-Mixer-Modell für die mehrdimensionale Zeitreihenvorhersage | Neueste Forschungsarbeiten | HyperAI