il y a un mois

Modèles d'Équilibre Profond

Shaojie Bai; J. Zico Kolter; Vladlen Koltun

Résumé

Nous présentons une nouvelle approche pour la modélisation de données séquentielles : le modèle d'équilibre profond (DEQ). Motivés par l'observation que les couches cachées de nombreux modèles de séquences existants convergent vers un certain point fixe, nous proposons l'approche DEQ qui trouve directement ces points d'équilibre grâce à des méthodes de recherche de racines. Cette méthode est équivalente à l'exécution d'un réseau de propagation avant (feedforward) de profondeur infinie (avec liage des poids), mais présente l'avantage notable que nous pouvons effectuer une rétropropagation analytique à travers le point d'équilibre en utilisant la différentiation implicite. Avec cette approche, l'entraînement et la prédiction dans ces réseaux nécessitent une mémoire constante, indépendamment de la profondeur effective du réseau. Nous démontrons comment les DEQ peuvent être appliqués à deux modèles de séquences profonds de pointe : les transformateurs avec auto-attention et les réseaux treillis. Dans des tâches de modélisation linguistique à grande échelle, telles que le benchmark WikiText-103, nous montrons que les DEQ 1) améliorent souvent les performances par rapport à ces modèles de pointe (pour des nombres similaires de paramètres) ; 2) ont des exigences computationnelles similaires aux modèles existants ; et 3) réduisent considérablement la consommation mémoire (souvent le goulot d'étranglement pour entraîner des grands modèles de séquences), démontrant une réduction mémoire allant jusqu'à 88 % dans nos expériences. Le code est disponible sur https://github.com/locuslab/deq .