Mamba-360 : Étude des modèles d'espace d'état en tant qu'alternative aux Transformers pour le traitement de séquences longues : méthodes, applications et défis

La modélisation de séquences est un domaine fondamental dans de nombreux domaines, notamment le traitement du langage naturel (NLP), la reconnaissance vocale, la prévision de séries temporelles, la génération musicale et la bioinformatique. Les réseaux de neurones récurrents (RNN) et les réseaux à mémoire à long et court terme (LSTM) ont historiquement dominé les tâches de modélisation de séquences telles que la traduction automatique ou la reconnaissance d'entités nommées (NER). Toutefois, l'évolution des modèles à attention (transformers) a provoqué un changement de paradigme, en raison de leurs performances supérieures. Néanmoins, les transformers souffrent d'une complexité d'attention quadratique en $O(N^2)$ et de difficultés à intégrer efficacement des biais inductifs. Plusieurs variantes ont été proposées pour surmonter ces limitations, en s'appuyant sur des réseaux spectraux ou des convolutions, et ont montré des performances prometteuses sur diverses tâches. Toutefois, elles peinent encore à traiter efficacement des séquences très longues. Les modèles d'état (State Space Models, SSM) émergent comme des alternatives prometteuses dans ce contexte, notamment avec l'apparition de S4 et de ses variantes telles que S4nd, Hippo, Hyena, les espaces d'état diagonaux (DSS), les espaces d'état à portes (GSS), l'unité récurrente linéaire (LRU), Liquid-S4, Mamba, etc. Dans cette revue, nous classons les SSM fondamentaux selon trois paradigmes : les architectures à portes, les architectures structurelles et les architectures récurrentes. Cette revue met également en lumière les nombreuses applications des SSM dans divers domaines tels que la vision, la vidéo, l'audio, la parole, le langage (notamment la modélisation de séquences longues), la médecine (y compris la génomique), la chimie (comme la conception de médicaments), les systèmes de recommandation et l'analyse de séries temporelles, y compris les données tabulaires. En outre, nous synthétisons les performances des SSM sur des jeux de données standards tels que Long Range Arena (LRA), WikiText, GLUE, Pile, ImageNet, Kinetics-400, sstv2, ainsi que sur des jeux de données vidéo comme Breakfast, COIN, LVU, et divers jeux de données de séries temporelles. La page du projet dédiée au travail Mamba-360 est disponible à l'adresse suivante : \url{https://github.com/badripatro/mamba360}.