Réseaux Neuraux Extrêmement Grands : La Couche de Mélange d'Experts à Passage Épars

La capacité d'un réseau neuronal à absorber des informations est limitée par son nombre de paramètres. La calcul conditionnel, où certaines parties du réseau sont activées en fonction de chaque exemple, a été théoriquement proposé comme un moyen de considérablement augmenter la capacité du modèle sans une augmentation proportionnelle des ressources de calcul. En pratique, cependant, il existe des défis algorithmiques et de performance significatifs. Dans ce travail, nous abordons ces défis et réalisons finalement le potentiel du calcul conditionnel, atteignant des améliorations supérieures à 1000 fois en termes de capacité du modèle avec seulement de légères pertes en efficacité computationnelle sur des grappes GPU modernes. Nous introduisons une couche de mélange d'experts (Mixture-of-Experts layer - MoE) à activation éparse, composée jusqu'à plusieurs milliers de sous-réseaux feed-forward. Un réseau de contrôle d'activation (gating network) entraînable détermine une combinaison éparse de ces experts à utiliser pour chaque exemple. Nous appliquons le MoE aux tâches de modélisation linguistique et de traduction automatique, où la capacité du modèle est cruciale pour absorber les grandes quantités de connaissances disponibles dans les corpus d'entraînement. Nous présentons des architectures de modèles dans lesquelles une couche MoE avec jusqu'à 137 milliards de paramètres est appliquée convolutivement entre des couches LSTM empilées. Sur des benchmarks importants en modélisation linguistique et en traduction automatique, ces modèles obtiennent des résultats nettement meilleurs que l'état de l'art avec un coût computationnel inférieur.