HyperAIHyperAI

Command Palette

Search for a command to run...

Modèles d'Équilibre Profond

Shaojie Bai; J. Zico Kolter; Vladlen Koltun

Résumé

Nous présentons une nouvelle approche pour la modélisation de données séquentielles : le modèle d'équilibre profond (DEQ). Motivés par l'observation que les couches cachées de nombreux modèles de séquences existants convergent vers un certain point fixe, nous proposons l'approche DEQ qui trouve directement ces points d'équilibre grâce à des méthodes de recherche de racines. Cette méthode est équivalente à l'exécution d'un réseau de propagation avant (feedforward) de profondeur infinie (avec liage des poids), mais présente l'avantage notable que nous pouvons effectuer une rétropropagation analytique à travers le point d'équilibre en utilisant la différentiation implicite. Avec cette approche, l'entraînement et la prédiction dans ces réseaux nécessitent une mémoire constante, indépendamment de la profondeur effective du réseau. Nous démontrons comment les DEQ peuvent être appliqués à deux modèles de séquences profonds de pointe : les transformateurs avec auto-attention et les réseaux treillis. Dans des tâches de modélisation linguistique à grande échelle, telles que le benchmark WikiText-103, nous montrons que les DEQ 1) améliorent souvent les performances par rapport à ces modèles de pointe (pour des nombres similaires de paramètres) ; 2) ont des exigences computationnelles similaires aux modèles existants ; et 3) réduisent considérablement la consommation mémoire (souvent le goulot d'étranglement pour entraîner des grands modèles de séquences), démontrant une réduction mémoire allant jusqu'à 88 % dans nos expériences. Le code est disponible sur https://github.com/locuslab/deq .


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Modèles d'Équilibre Profond | Articles | HyperAI