HyperAIHyperAI
il y a 2 mois

GPipe : Formation efficace de grands réseaux neuronaux grâce au parallélisme en pipeline

Yanping Huang; Youlong Cheng; Ankur Bapna; Orhan Firat; Mia Xu Chen; Dehao Chen; HyoukJoong Lee; Jiquan Ngiam; Quoc V. Le; Yonghui Wu; Zhifeng Chen
GPipe : Formation efficace de grands réseaux neuronaux grâce au parallélisme en pipeline
Résumé

L'augmentation de la capacité des réseaux neuronaux profonds est reconnue comme une approche efficace pour améliorer la qualité des modèles dans plusieurs tâches d'apprentissage automatique différentes. Dans de nombreux cas, l'augmentation de la capacité du modèle au-delà de la limite mémoire d'un seul accélérateur a nécessité le développement d'algorithmes ou d'infrastructures spéciaux. Ces solutions sont souvent spécifiques à l'architecture et ne se transposent pas à d'autres tâches. Pour répondre au besoin d'un parallélisme de modèle efficace et indépendant des tâches, nous présentons GPipe, une bibliothèque de parallélisme en pipeline qui permet de faire évoluer tout réseau pouvant être exprimé comme une séquence de couches. En faisant fonctionner différentes sous-séquences de couches sur des accélérateurs distincts, GPipe offre la flexibilité nécessaire pour évoluer vers des tailles gigantesques diverses et efficacement. De plus, GPipe utilise un nouvel algorithme de fractionnement par lots en pipeline, ce qui permet une accélération presque linéaire lorsque le modèle est partitionné sur plusieurs accélérateurs. Nous démontrons les avantages de GPipe en entraînant des réseaux neuronaux à grande échelle sur deux tâches différentes avec des architectures de réseau distinctes : (i) Classification d'images : Nous entraînons un modèle AmoebaNet comportant 557 millions de paramètres et atteignons une précision top-1 de 84,4 % sur ImageNet-2012 ; (ii) Traduction neuronale multilingue : Nous entraînons un unique modèle Transformer à 128 couches et 6 milliards de paramètres sur un corpus couvrant plus de 100 langues, obtenant ainsi une meilleure qualité que tous les modèles bilingues.

GPipe : Formation efficace de grands réseaux neuronaux grâce au parallélisme en pipeline | Articles de recherche récents | HyperAI