Les Transformers sont-ils efficaces pour la prévision des séries temporelles ?

Récemment, il y a eu une augmentation significative des solutions basées sur les Transformers pour la tâche de prévision à long terme des séries temporelles (LTSF). Malgré les performances croissantes au cours des dernières années, nous remettons en question la validité de cette ligne de recherche dans ce travail. Plus précisément, les Transformers sont sans doute la solution la plus réussie pour extraire les corrélations sémantiques entre les éléments d'une longue séquence. Cependant, dans le modèle des séries temporelles, notre objectif est d'extraire les relations temporelles dans un ensemble ordonné de points continus. Bien que l'utilisation du codage positionnel et l'embedding de sous-séries par des tokens dans les Transformers facilitent la préservation de certaines informations d'ordre, la nature du mécanisme d'auto-attention \emph{invariant par permutation} entraîne inévitablement une perte d'informations temporelles. Pour valider notre affirmation, nous introduisons un ensemble de modèles linéaires à une couche nommés LTSF-Linear pour comparaison. Les résultats expérimentaux sur neuf jeux de données réels montrent que LTSF-Linear surpasse de manière surprenante les modèles LTSF basés sur des Transformers existants dans tous les cas, et souvent avec une marge importante. De plus, nous menons des études empiriques approfondies pour explorer l'impact de divers éléments de conception des modèles LTSF sur leur capacité à extraire les relations temporelles. Nous espérons que cette découverte surprenante ouvre de nouvelles directions de recherche pour la tâche LTSF. Nous prônons également une réévaluation de la validité des solutions basées sur les Transformers pour d'autres tâches d'analyse des séries temporelles (par exemple, détection d'anomalies) à l'avenir. Le code est disponible à : \url{https://github.com/cure-lab/LTSF-Linear}.