il y a un mois

Mélange-de-Récursions : Apprentissage de Profondeurs Récursives Dynamiques pour le Calcul Adaptatif au Niveau des Tokens

Sangmin Bae, Yujin Kim, Reza Bayat, Sungnyun Kim, Jiyoun Ha, Tal Schuster, Adam Fisch, Hrayr Harutyunyan, Ziwei Ji, Aaron Courville, Se-Young Yun

Voir les détails de l'article View Code

Mélange-de-Récursions : Apprentissage de Profondeurs Récursives Dynamiques pour le Calcul Adaptatif au Niveau des Tokens

Résumé

L'élargissement des modèles de langage débloque des capacités impressionnantes, mais les exigences en matière de calcul et de mémoire qui l'accompagnent rendent à la fois l'entraînement et le déploiement coûteux. Les efforts actuels visant à améliorer l'efficacité se concentrent généralement sur le partage de paramètres ou le calcul adaptatif, laissant ouverte la question de savoir comment atteindre ces deux objectifs simultanément. Nous présentons Mixture-of-Recursions (MoR), un cadre unifié qui combine ces deux axes d'efficacité au sein d'un seul Transformers récursif. MoR réutilise une pile commune de couches tout au long des étapes de récursion pour atteindre une efficacité paramétrique, tandis que des routeurs légers permettent une réflexion adaptative au niveau du jeton en attribuant dynamiquement différentes profondeurs de récursion à chaque jeton. Cela permet à MoR de concentrer le calcul d'attention quadratique uniquement parmi les jetons encore actifs à une certaine profondeur de récursion, améliorant ainsi l'efficacité d'accès à la mémoire en mettant en cache sélectivement leurs paires clé-valeur. Outre ces mécanismes fondamentaux, nous proposons également une variante de partage KV qui réutilise les paires clé-valeur de la première récursion, spécifiquement conçue pour réduire la latence pré-remplissage et l'emprise mémoire. Sur une gamme de modèles allant de 135 millions à 1,7 milliard de paramètres, MoR forme une nouvelle frontière Pareto : avec des FLOPs d'entraînement équivalents et des tailles de modèle plus petites, il diminue considérablement la perplexité de validation et améliore la précision en apprentissage par quelques exemples, tout en offrant un débit plus élevé comparativement aux baselines récursives classiques et existantes. Ces gains démontrent que MoR est une voie efficace vers la qualité des grands modèles sans engendrer leur coût élevé.