il y a 3 mois

iTransformer : Les Transformers inversés sont efficaces pour la prévision des séries temporelles

Yong Liu, Tengge Hu, Haoran Zhang, Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long

Résumé

La récente explosion des modèles linéaires de prévision remet en question la passion persistante pour les modifications architecturales des prédicteurs basés sur les Transformers. Ces prédicteurs exploitent les Transformers afin de modéliser les dépendances globales entre les jetons temporels d'une série chronologique, chaque jeton étant constitué de plusieurs variables observées au même instant. Toutefois, les Transformers font face à des difficultés dans la prévision de séries chronologiques nécessitant de larges fenêtres de rétention (lookback), en raison d'une dégradation des performances et d'une explosion computationnelle. En outre, l'embedding de chaque jeton temporel combine plusieurs variables représentant potentiellement des événements retardés et des mesures physiques distinctes, ce qui peut entraver l'apprentissage de représentations centrées sur les variables et conduire à des cartes d'attention sans signification. Dans ce travail, nous réfléchissons aux rôles fondamentaux des composants du Transformer et repensons l'architecture Transformer sans modifier ses composants de base. Nous proposons iTransformer, qui applique simplement les mécanismes d'attention et de réseau feed-forward sur des dimensions inversées. Plus précisément, les instants temporels de chaque série sont transformés en jetons de variables, utilisés par le mécanisme d'attention pour capturer les corrélations multivariées ; parallèlement, le réseau feed-forward est appliqué à chaque jeton de variable afin d'apprendre des représentations non linéaires. Le modèle iTransformer atteint l'état de l'art sur des jeux de données réels exigeants, renforçant ainsi les performances, la capacité de généralisation à travers différentes variables et l'efficacité d'utilisation de fenêtres de rétention arbitraires au sein de la famille des Transformers, ce qui en fait une alternative prometteuse comme architecture fondamentale pour la prévision de séries chronologiques. Le code est disponible à l'adresse suivante : https://github.com/thuml/iTransformer.