HyperAIHyperAI

Command Palette

Search for a command to run...

Combinaison de modèles récurrents, convolutifs et à temps continu avec des couches d'espace d'état linéaire

Albert Gu; Isys Johnson; Karan Goel; Khaled Saab; Tri Dao; Atri Rudra; Christopher Ré

Résumé

Les réseaux de neurones récurrents (RNN), les convolutions temporelles et les équations différentielles neuronales (NDE) sont des familles populaires de modèles d'apprentissage profond pour les données séquentielles, chacune possédant des forces uniques et des compromis en termes de puissance de modélisation et d'efficacité computationnelle. Nous présentons un modèle séquentiel simple inspiré par les systèmes de contrôle qui généralise ces approches tout en abordant leurs faiblesses. La couche d'espace d'état linéaire (LSSL) mappe une séquence uyu \mapsto yuy en simulant simplement une représentation linéaire continue dans l'espace d'état x˙=Ax+Bu,y=Cx+Du\dot{x} = Ax + Bu, y = Cx + Dux˙=Ax+Bu,y=Cx+Du. Théoriquement, nous montrons que les modèles LSSL sont étroitement liés aux trois familles de modèles mentionnées précédemment et qu'ils héritent de leurs forces. Par exemple, ils généralisent les convolutions à temps continu, expliquent les heuristiques courantes des RNN et partagent des caractéristiques des NDE telles que l'adaptation à l'échelle temporelle. Nous intégrons ensuite et généralisons la théorie récente sur la mémorisation à temps continu pour introduire un sous-ensemble entraînable de matrices structurées AAA qui dotent les LSSL d'une mémoire à long terme. Expérimentalement, l'empilement de couches LSSL dans un réseau neuronal profond simple obtient des résultats d'avant-garde sur diverses基准(benchmarks) pour les dépendances longues dans la classification d'images séquentielles, les tâches de régression en santé réelle et la parole. Dans une tâche difficile de classification vocale avec des séquences de longueur 16000, LSSL surpassent les approches antérieures avec 24 points de précision supplémentaires, et même surpassent les méthodes basées sur des fonctionnalités conçues manuellement pour des séquences 100 fois plus courtes.注:在“diverses基准”中,“基准”应为“benchmarks”,但为了保持句子的流畅性和正式性,我将其直接翻译成了法语。如果需要保留英文术语,请告知。


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp