HyperAIHyperAI
vor 2 Monaten

GPipe: Effiziente Schulung riesiger neuronaler Netze durch Pipelines-Parallelismus

Yanping Huang; Youlong Cheng; Ankur Bapna; Orhan Firat; Mia Xu Chen; Dehao Chen; HyoukJoong Lee; Jiquan Ngiam; Quoc V. Le; Yonghui Wu; Zhifeng Chen
GPipe: Effiziente Schulung riesiger neuronaler Netze durch Pipelines-Parallelismus
Abstract

Das Erhöhen der Kapazität tiefer neuronaler Netze ist als effektiver Ansatz zur Verbesserung der Modellqualität für verschiedene maschinelle Lernaufgaben bekannt. In vielen Fällen war es erforderlich, spezielle Algorithmen oder Infrastrukturen zu entwickeln, um die Modellkapazität über den Speicherlimit eines einzelnen Beschleunigers hinaus zu steigern. Diese Lösungen sind oft architekturspezifisch und lassen sich nicht auf andere Aufgaben übertragen. Um die Notwendigkeit nach effizienter und aufgabeneutraler Modellparallelität anzugehen, stellen wir GPipe vor, eine Bibliothek für Pipeline-Parallelität, die das Skalieren jedes Netzwerks ermöglicht, das als Sequenz von Schichten ausgedrückt werden kann. Durch Pipelining verschiedener Teilschichtsequenzen auf separaten Beschleunigern bietet GPipe die Flexibilität, eine Vielzahl unterschiedlicher Netzwerke effizient auf gigantische Größen zu skalieren. Darüber hinaus nutzt GPipe einen neuen Algorithmus zur Batch-Splitting-Pipelining, der bei der Verteilung eines Modells auf mehrere Beschleuniger fast lineare Beschleunigung erzielt. Wir demonstrieren die Vorteile von GPipe durch das Training großskaliger neuronaler Netze anhand zweier verschiedener Aufgaben mit unterschiedlichen Netzarchitekturen: (i) Bildklassifikation: Wir trainieren ein AmoebaNet-Modell mit 557 Millionen Parametern und erreichen eine Top-1-Akkuratesse von 84,4 % auf ImageNet-2012; (ii) Mehrsprachige neuronale Maschinübersetzung: Wir trainieren ein einzelnes Transformer-Modell mit 6 Milliarden Parametern und 128 Schichten an einem Korpus, das über 100 Sprachen abdeckt, und erzielen bessere Qualität als alle bilingualen Modelle.

GPipe: Effiziente Schulung riesiger neuronaler Netze durch Pipelines-Parallelismus | Neueste Forschungsarbeiten | HyperAI