HyperAIHyperAI
il y a 16 jours

TSMixer : Modèle léger MLP-Mixer pour la prévision de séries temporelles multivariées

Vijay Ekambaram, Arindam Jati, Nam Nguyen, Phanwadee Sinthong, Jayant Kalagnanam
TSMixer : Modèle léger MLP-Mixer pour la prévision de séries temporelles multivariées
Résumé

Les Transformers ont gagné en popularité dans le domaine de la prévision de séries temporelles grâce à leur capacité à capturer des interactions sur de longues séquences. Toutefois, leurs exigences élevées en mémoire et en calcul constituent un goulot d’étranglement critique pour les prévisions à long terme. Pour remédier à ce problème, nous proposons TSMixer, une architecture neuronale légère, entièrement composée de modules de perceptron multicouches (MLP), conçue pour la prévision multivariée et l’apprentissage de représentations sur des séries temporelles découpées en segments (patched time series). Inspirés du succès du MLP-Mixer en vision par ordinateur, nous l’adaptons aux séries temporelles, en surmontant les défis spécifiques à ce domaine et en introduisant des composants validés pour améliorer la précision. Cela inclut un nouveau paradigme de conception consistant à ajouter des têtes de réconciliation en ligne au squelette MLP-Mixer, permettant de modéliser explicitement des propriétés propres aux séries temporelles telles que la hiérarchie et les corrélations entre canaux. Nous proposons également une nouvelle approche hybride de modélisation des canaux, combinée à une méthode de mise en œuvre simple basée sur une porte (gating), afin de traiter efficacement les interactions bruyantes entre canaux et d’améliorer la généralisation sur des jeux de données diversifiés. Grâce à ces composants légers, nous renforçons significativement la capacité d’apprentissage des structures MLP simples, surpassant les modèles Transformers complexes tout en utilisant une quantité négligeable de ressources de calcul. En outre, la conception modulaire de TSMixer permet une compatibilité avec à la fois les méthodes d’apprentissage supervisé et auto-supervisé à masque, en faisant un composant prometteur pour les modèles fondamentaux (Foundation Models) de séries temporelles. TSMixer bat largement les modèles d’état de l’art basés sur MLP et Transformers, avec une amélioration de 8 à 60 % dans la précision de prévision. Il dépasse également les derniers benchmarks performants basés sur Patch-Transformer (de 1 à 2 %), tout en réduisant considérablement la mémoire utilisée et le temps d’exécution (2 à 3 fois). Le code source de notre modèle est officiellement disponible sous le nom de PatchTSMixer sur HuggingFace :Modèle : https://huggingface.co/docs/transformers/main/fr/model_doc/patchtsmixerExemples : https://github.com/ibm/tsfm/#notebooks-links

TSMixer : Modèle léger MLP-Mixer pour la prévision de séries temporelles multivariées | Articles de recherche récents | HyperAI