HyperAIHyperAI
vor 17 Tagen

Tiny Time Mixers (TTMs): Schnelle vortrainierte Modelle für die verbesserte Zero-/Few-Shot-Vorhersage multivariater Zeitreihen

Vijay Ekambaram, Arindam Jati, Pankaj Dayama, Sumanta Mukherjee, Nam H. Nguyen, Wesley M. Gifford, Chandra Reddy, Jayant Kalagnanam
Tiny Time Mixers (TTMs): Schnelle vortrainierte Modelle für die verbesserte Zero-/Few-Shot-Vorhersage multivariater Zeitreihen
Abstract

Große vortrainierte Modelle erzielen hervorragende Leistungen bei Zero- oder Few-Shot-Lernaufgaben in Sprach- und Visionaufgaben, stoßen jedoch bei der Vorhersage mehrdimensionaler Zeitreihen (TS) auf Herausforderungen aufgrund der vielfältigen Datencharakteristika. Daher konzentrieren sich jüngere Forschungsanstrengungen auf die Entwicklung vortrainierter Modelle für die Zeitreihenvorhersage. Diese Modelle, die entweder von Grund auf neu entwickelt oder anhand großer Sprachmodelle (LLMs) angepasst wurden, zeichnen sich durch herausragende Leistung bei Zero- oder Few-Shot-Vorhersageaufgaben aus. Sie sind jedoch durch eine geringe Geschwindigkeit, hohe Rechenanforderungen sowie die Vernachlässigung von Kreuzkanal- und exogenen Korrelationen eingeschränkt. Um dies zu beheben, stellen wir Tiny Time Mixers (TTM) vor – ein kompaktes Modell (mit mindestens 1 Mio. Parametern), das effektive Transfer-Lernfähigkeiten besitzt und ausschließlich auf öffentlichen Zeitreihendaten trainiert wurde. TTM basiert auf der leichtgewichtigen TSMixer-Architektur und integriert Innovationen wie adaptive Patching, vielfältige Auflösungsabtastung sowie Auflösungs-Präfix-Tuning, um die Vortrainingsphase auf Datensätzen mit unterschiedlichen Auflösungen mit minimaler Modellkapazität effizient zu gestalten. Zudem nutzt es ein mehrstufiges Modellierungsansatz, um Kanalkorrelationen zu erfassen und exogene Signale während des Feinabstimmens zu integrieren. TTM übertrifft bestehende etablierte Benchmarks bei Zero- und Few-Shot-Vorhersage um (4–40 %), während die Rechenanforderungen signifikant reduziert werden. Darüber hinaus sind TTM-Modelle leichtgewichtig und können bereits auf reine CPU-Systeme ausgeführt werden, was ihre Nutzbarkeit erhöht und die breitere Anwendung in ressourcenbeschränkten Umgebungen fördert. Die Modellgewichte zur Wiederholbarkeit und Forschungszwecken sind unter https://huggingface.co/ibm/ttm-research-r2/ verfügbar. Für kommerzielle Nutzung unter der Apache-Lizenz stehen die Gewichte der ursprünglichen TTM-Q-Variante unter https://huggingface.co/ibm-granite/granite-timeseries-ttm-r1 zur Verfügung, während die neuesten Varianten (TTM-B, TTM-E, TTM-A) unter https://huggingface.co/ibm-granite/granite-timeseries-ttm-r2 abrufbar sind.