il y a 17 jours

Exploiter les informations 2D pour la prévision à long terme de séries temporelles à l’aide de Transformers simples

Xin Cheng, Xiuying Chen, Shuqi Li, Di Luo, Xun Wang, Dongyan Zhao, Rui Yan

Résumé

La prédiction de séries temporelles est essentielle pour comprendre et anticiper les dynamiques complexes dans divers domaines, allant de la finance et de l’économie à la climatologie et à la santé. À partir de l’architecture Transformer, une approche consiste à encoder plusieurs variables provenant du même instant temporel en un seul jeton temporel afin de modéliser les dépendances globales. À l’inverse, une autre approche consiste à incorporer les points temporels de chaque série individuelle dans des jetons distincts dédiés aux variables. La première méthode rencontre des difficultés dans l’apprentissage de représentations centrées sur les variables, tandis que la seconde risque de négliger des informations temporelles essentielles pour une prédiction précise. Dans notre travail, nous proposons GridTST, un modèle qui combine les avantages des deux approches grâce à des mécanismes d’attention innovants à plusieurs directions, fondés sur un Transformer de base. Nous considérons les données temporelles d’entrée comme une grille, où l’axe des abscisses représente les pas de temps et l’axe des ordonnées les variables. Une découpe verticale de cette grille regroupe les variables à chaque instant temporel en un jeton temporel, tandis qu’une découpe horizontale intègre chaque série individuelle sur l’ensemble des instants en un jeton variable. En conséquence, un mécanisme d’attention horizontale se concentre sur les jetons temporels pour capturer les corrélations entre les données aux différents instants, tandis qu’une attention verticale, sensible aux variables, est utilisée pour saisir les corrélations multivariées. Cette combinaison permet un traitement efficace des informations à la fois dans les dimensions temporelle et variable, renforçant ainsi la capacité analytique du modèle. Nous intégrons également la technique de découpage en patchs, en segmentant les jetons temporels en sous-séries de taille réduite, garantissant ainsi la préservation des informations sémantiques locales dans l’encodage. Le modèle GridTST atteint de manière cohérente des performances de pointe sur divers jeux de données réels.