Modélisation efficace de longues séquences avec des espaces d'états structurés

Un objectif central de la modélisation de séquences est de concevoir un modèle principiel unique capable de traiter des données séquentielles dans une variété de modalités et de tâches, en particulier les dépendances à long terme. Bien que les modèles conventionnels, tels que les RNNs (Réseaux de neurones récurrents), CNNs (Réseaux de neurones convolutifs) et Transformers, disposent de variantes spécialisées pour capturer ces dépendances à long terme, ils peinent encore à s'adapter aux séquences très longues comprenant plus de 10 000 étapes. Une approche prometteuse récemment proposée consiste à modéliser les séquences en simulant le modèle d'espace d'état fondamental (SSM) ( x'(t) = Ax(t) + Bu(t), y(t) = Cx(t) + Du(t) ), et a montré que pour des choix appropriés de la matrice d'état ( A ), ce système pouvait gérer mathématiquement et empiriquement les dépendances à long terme. Cependant, cette méthode présente des exigences computationnelles et mémoire prohibitives, la rendant non viable comme solution générale pour la modélisation de séquences.Nous proposons le modèle S4 (Structured State Space sequence model) basé sur une nouvelle paramétrisation du SSM, et démontrons qu'il peut être calculé beaucoup plus efficacement que les approches précédentes tout en conservant leurs forces théoriques. Notre technique consiste à conditionner ( A ) avec une correction de faible rang, ce qui permet une diagonalisation stable et réduit le SSM au calcul bien étudié d'un noyau de Cauchy. Le S4 obtient des résultats empiriques solides sur une gamme diversifiée de benchmarks établis, notamment : (i) 91 % d'exactitude sur CIFAR-10 séquentiel sans augmentation de données ni pertes auxiliaires, se comparant ainsi favorablement à un ResNet 2D plus grand ; (ii) il réduit considérablement l'écart avec les Transformers dans les tâches de modélisation d'images et de langage, tout en générant des résultats 60 fois plus rapidement ; (iii) il atteint l'état de l'art sur toutes les tâches du benchmark Long Range Arena, y compris la résolution réussie de la tâche Path-X complexe d'une longueur de 16k où tous les travaux antérieurs ont échoué, tout en étant aussi efficace que tous ses concurrents.