il y a 15 jours

Une série temporelle vaut 64 mots : Prévision à long terme avec les Transformers

Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, Jayant Kalagnanam

Résumé

Nous proposons une conception efficace de modèles basés sur les Transformers pour la prévision de séries temporelles multivariées et l’apprentissage représentationnel auto-supervisé. Elle repose sur deux composants clés : (i) la segmentation des séries temporelles en sous-séries sous forme de « patches », qui servent de tokens d’entrée aux Transformers ; (ii) l’indépendance des canaux, où chaque canal contient une seule série temporelle univariée, partageant le même embedding et les mêmes poids de Transformer pour toutes les séries. La conception par « patches » offre naturellement trois avantages majeurs : l’information sémantique locale est préservée dans l’embedding ; la complexité en calcul et en mémoire des cartes d’attention est réduite de manière quadratique pour une fenêtre de rétention donnée ; et le modèle peut accéder à un historique plus long. Le modèle PatchTST, basé sur une approche de « patch » indépendante par canal, améliore significativement la précision de la prévision à long terme par rapport aux modèles de pointe basés sur les Transformers. Nous appliquons également notre modèle à des tâches d’entraînement préalable auto-supervisé et obtenons des performances remarquables en fin-tuning, surpassant même l’apprentissage supervisé sur de grands jeux de données. Le transfert des représentations pré-entraînées avec masquage d’un jeu de données vers d’autres permet également d’atteindre une précision de prévision de niveau étalon (SOTA). Le code est disponible à l’adresse : https://github.com/yuqinie98/PatchTST.