il y a 2 mois

Modèles de l’espace d’état structuré liquide

Ramin Hasani; Mathias Lechner; Tsun-Hsuan Wang; Makram Chahine; Alexander Amini; Daniela Rus

Résumé

Une paramétrisation appropriée des matrices de transition d'état des modèles d'espace d'état linéaires (SSM) suivie par des non-linéarités standards leur permet d'apprendre efficacement des représentations à partir de données séquentielles, établissant l'état de l'art sur une large série de benchmarks de modélisation de séquences à longue portée. Dans cet article, nous montrons que nous pouvons améliorer encore davantage lorsque le SSM structuré, tel que S4, est donné par un modèle d'espace d'état à constante temporelle liquide (LTC) linéaire. Les réseaux neuronaux LTC sont des réseaux neuronaux causaux en temps continu dotés d'un module de transition d'état dépendant de l'entrée, ce qui leur permet d'apprendre à s'adapter aux entrées en cours lors de l'inférence. Nous démontrons que, en utilisant la décomposition diagonale plus basse rangée de la matrice de transition d'état introduite dans S4, et quelques simplifications, le modèle d'espace d'état structuré basé sur LTC, appelé Liquid-S4, atteint le nouvel état de l'art en généralisation sur les tâches de modélisation de séquences avec des dépendances à long terme telles que les images, le texte, l'audio et les séries temporelles médicales, avec une performance moyenne de 87,32 % sur le benchmark Long-Range Arena. Sur l'ensemble du jeu de données de reconnaissance des commandes vocales brutes (Speech Command), Liquid-S4 atteint une précision de 96,78 % avec une réduction de 30 % du nombre de paramètres par rapport à S4. Le gain supplémentaire en performance est le résultat direct de la structure noyau du Liquid-S4 qui prend en compte les similarités entre les échantillons de la séquence d'entrée pendant l'entraînement et l'inférence.