PatchMixer : Une architecture de mixage de patches pour la prévision à long terme des séries temporelles

Bien que le modèle Transformer ait dominé les tâches de prévision de séries temporelles au cours des dernières années, un défi fondamental persiste : le mécanisme d’attention auto-associative invariant par permutation intégré aux Transformers entraîne une perte d’information temporelle. Pour relever ces défis, nous proposons PatchMixer, un nouveau modèle basé sur les réseaux de neurones convolutifs (CNN). Ce modèle introduit une structure convolutive variant par permutation, permettant ainsi de préserver l’information temporelle. À la différence des CNN classiques dans ce domaine, qui recourent souvent à plusieurs échelles ou à un grand nombre de branches, notre approche repose exclusivement sur des convolutions séparables profondes. Cette architecture à une seule échelle permet d’extraire à la fois des caractéristiques locales et des corrélations globales. En outre, nous utilisons deux têtes de prévision dualisées, comprenant des composantes linéaires et non linéaires, afin de mieux modéliser les tendances et les détails des courbes futures. Nos résultats expérimentaux sur sept benchmarks de prévision de séries temporelles montrent que, par rapport à la méthode de pointe actuelle et au meilleur CNN performant, PatchMixer obtient respectivement des améliorations relatives de 3,9 % et 21,2 %, tout en étant 2 à 3 fois plus rapide que la méthode la plus avancée.