HyperAIHyperAI

Command Palette

Search for a command to run...

GPipe: Effiziente Schulung riesiger neuronaler Netze durch Pipelines-Parallelismus

Yanping Huang; Youlong Cheng; Ankur Bapna; Orhan Firat; Mia Xu Chen; Dehao Chen; HyoukJoong Lee; Jiquan Ngiam; Quoc V. Le; Yonghui Wu; Zhifeng Chen

Zusammenfassung

Das Erhöhen der Kapazität tiefer neuronaler Netze ist als effektiver Ansatz zur Verbesserung der Modellqualität für verschiedene maschinelle Lernaufgaben bekannt. In vielen Fällen war es erforderlich, spezielle Algorithmen oder Infrastrukturen zu entwickeln, um die Modellkapazität über den Speicherlimit eines einzelnen Beschleunigers hinaus zu steigern. Diese Lösungen sind oft architekturspezifisch und lassen sich nicht auf andere Aufgaben übertragen. Um die Notwendigkeit nach effizienter und aufgabeneutraler Modellparallelität anzugehen, stellen wir GPipe vor, eine Bibliothek für Pipeline-Parallelität, die das Skalieren jedes Netzwerks ermöglicht, das als Sequenz von Schichten ausgedrückt werden kann. Durch Pipelining verschiedener Teilschichtsequenzen auf separaten Beschleunigern bietet GPipe die Flexibilität, eine Vielzahl unterschiedlicher Netzwerke effizient auf gigantische Größen zu skalieren. Darüber hinaus nutzt GPipe einen neuen Algorithmus zur Batch-Splitting-Pipelining, der bei der Verteilung eines Modells auf mehrere Beschleuniger fast lineare Beschleunigung erzielt. Wir demonstrieren die Vorteile von GPipe durch das Training großskaliger neuronaler Netze anhand zweier verschiedener Aufgaben mit unterschiedlichen Netzarchitekturen: (i) Bildklassifikation: Wir trainieren ein AmoebaNet-Modell mit 557 Millionen Parametern und erreichen eine Top-1-Akkuratesse von 84,4 % auf ImageNet-2012; (ii) Mehrsprachige neuronale Maschinübersetzung: Wir trainieren ein einzelnes Transformer-Modell mit 6 Milliarden Parametern und 128 Schichten an einem Korpus, das über 100 Sprachen abdeckt, und erzielen bessere Qualität als alle bilingualen Modelle.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GPipe: Effiziente Schulung riesiger neuronaler Netze durch Pipelines-Parallelismus | Paper | HyperAI