HyperAIHyperAI

Command Palette

Search for a command to run...

Réseaux Neuraux Extrêmement Grands : La Couche de Mélange d'Experts à Passage Épars

Noam Shazeer; Azalia Mirhoseini; Krzysztof Maziarz; Andy Davis; Quoc Le; Geoffrey Hinton; Jeff Dean

Résumé

La capacité d'un réseau neuronal à absorber des informations est limitée par son nombre de paramètres. La calcul conditionnel, où certaines parties du réseau sont activées en fonction de chaque exemple, a été théoriquement proposé comme un moyen de considérablement augmenter la capacité du modèle sans une augmentation proportionnelle des ressources de calcul. En pratique, cependant, il existe des défis algorithmiques et de performance significatifs. Dans ce travail, nous abordons ces défis et réalisons finalement le potentiel du calcul conditionnel, atteignant des améliorations supérieures à 1000 fois en termes de capacité du modèle avec seulement de légères pertes en efficacité computationnelle sur des grappes GPU modernes. Nous introduisons une couche de mélange d'experts (Mixture-of-Experts layer - MoE) à activation éparse, composée jusqu'à plusieurs milliers de sous-réseaux feed-forward. Un réseau de contrôle d'activation (gating network) entraînable détermine une combinaison éparse de ces experts à utiliser pour chaque exemple. Nous appliquons le MoE aux tâches de modélisation linguistique et de traduction automatique, où la capacité du modèle est cruciale pour absorber les grandes quantités de connaissances disponibles dans les corpus d'entraînement. Nous présentons des architectures de modèles dans lesquelles une couche MoE avec jusqu'à 137 milliards de paramètres est appliquée convolutivement entre des couches LSTM empilées. Sur des benchmarks importants en modélisation linguistique et en traduction automatique, ces modèles obtiennent des résultats nettement meilleurs que l'état de l'art avec un coût computationnel inférieur.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp