Une série temporelle vaut 64 mots : Prévision à long terme avec les Transformers

Nous proposons une conception efficace de modèles basés sur les Transformers pour la prévision de séries temporelles multivariées et l’apprentissage représentationnel auto-supervisé. Elle repose sur deux composants clés : (i) la segmentation des séries temporelles en sous-séries sous forme de « patches », qui servent de tokens d’entrée aux Transformers ; (ii) l’indépendance des canaux, où chaque canal contient une seule série temporelle univariée, partageant le même embedding et les mêmes poids de Transformer pour toutes les séries. La conception par « patches » offre naturellement trois avantages majeurs : l’information sémantique locale est préservée dans l’embedding ; la complexité en calcul et en mémoire des cartes d’attention est réduite de manière quadratique pour une fenêtre de rétention donnée ; et le modèle peut accéder à un historique plus long. Le modèle PatchTST, basé sur une approche de « patch » indépendante par canal, améliore significativement la précision de la prévision à long terme par rapport aux modèles de pointe basés sur les Transformers. Nous appliquons également notre modèle à des tâches d’entraînement préalable auto-supervisé et obtenons des performances remarquables en fin-tuning, surpassant même l’apprentissage supervisé sur de grands jeux de données. Le transfert des représentations pré-entraînées avec masquage d’un jeu de données vers d’autres permet également d’atteindre une précision de prévision de niveau étalon (SOTA). Le code est disponible à l’adresse : https://github.com/yuqinie98/PatchTST.