HyperAIHyperAI
il y a 11 jours

Comment entraîner votre HiPPO : modèles d'espace d'état avec projections sur des bases orthogonales généralisées

Albert Gu, Isys Johnson, Aman Timalsina, Atri Rudra, Christopher Ré
Comment entraîner votre HiPPO : modèles d'espace d'état avec projections sur des bases orthogonales généralisées
Résumé

Les modèles d’état linéaires invariants dans le temps (SSM, state space models) constituent un cadre classique issu de l’ingénierie et de la statistique, qui s’est révélé particulièrement prometteur en apprentissage automatique grâce au modèle séquentiel à espace d’état structuré (S4). Un élément central du S4 consiste à initialiser la matrice d’état du SSM avec une matrice spécifique appelée matrice HiPPO, dont l’importance empirique a été démontrée pour la capacité du S4 à traiter des séquences longues. Toutefois, la matrice utilisée par S4 avait été initialement dérivée dans des travaux antérieurs dans le cadre d’un système dynamique variant dans le temps, et son application dans un cadre de SSM invariant dans le temps n’avait pas d’interprétation mathématique connue. En conséquence, le mécanisme théorique par lequel les modèles S4 captent les dépendances à longue portée reste encore inexpliqué. Nous proposons une formulation plus générale et plus intuitive du cadre HiPPO, qui permet d’interpréter simplement le S4 comme une décomposition sur des polynômes de Legendre déformés exponentiellement, expliquant ainsi sa capacité à modéliser des dépendances à longue portée. Notre généralisation introduit une classe théoriquement riche de modèles SSM, permettant également de dériver des variantes plus intuitives du S4 pour d’autres bases, telles que la base de Fourier, et d’expliquer d’autres aspects de l’entraînement du S4, notamment la manière d’initialiser le paramètre crucial d’échelle de temps. Ces nouvelles insights permettent d’améliorer les performances du S4 à 86 % sur le benchmark Long Range Arena, et à 96 % sur la tâche la plus difficile, Path-X.

Comment entraîner votre HiPPO : modèles d'espace d'état avec projections sur des bases orthogonales généralisées | Articles de recherche récents | HyperAI