vor 9 Tagen

Hydra: Ein System für großskalige, mehrmodellbasierte Deep Learning

Kabir Nagrecha, Arun Kumar

Abstract

Die Skalierung der Tiefe und Größe von Modellen ist mittlerweile ein verbreiteter Ansatz, um die Genauigkeit in vielen Anwendungen des tiefen Lernens (Deep Learning, DL) zu steigern, wie die weit verbreitete Erfolge von Modellen mit mehreren Milliarden bis hin zu Trillionen Parametern in der Forschung zum natürlichen Sprachverstehen (Natural Language Processing, NLP) belegen. Trotz des Fortschritts in der DL-Forschung und bei großen Technologieunternehmen bleibt die breite praktische Einführung solch großer Modelle bei Fachwissenschaftlern und Unternehmen weiterhin durch GPU-Speicherbeschränkungen, hohe Trainingskosten und geringe GPU-Verfügbarkeit – selbst in öffentlichen Cloud-Umgebungen – eingeschränkt. Die Modellauswahl verschärft diese Ressourcenprobleme zusätzlich: Benutzer müssen häufig Dutzende von Modellen mit unterschiedlichen Hyperparametern oder neuronalen Architekturen vergleichen, um das für ihre spezifische Aufgabe und Datensatz geeignete Modell zu finden. In diesem Paper stellen wir Hydra vor, ein System, das solche Herausforderungen durch eine ressourcensparende, out-of-the-box-Skalierung von Multi-Large-Model-DL-Arbeitslasten – auch auf herkömmlichen GPUs – angeht. Hydra ist der erste Ansatz, der die Ausführung von Multi-Modell-Arbeitslasten für große DL-Modelle ganzheitlich optimiert. Dazu adaptieren wir vorherige „model-parallel“-Ausführungsstrategien, um sie mit skalierbarem Parameter-Offloading über die gesamte Speicherhierarchie zu kombinieren, und hybriderisieren diesen Ansatz zusätzlich mit task-parallelisierten Aufgabenplanungstechniken. Hydra trennt die Skalierbarkeit der Modellparameter von der Parallelität der Ausführung, wodurch DL-Anwender sogar ein 6-Milliarden-Parameter-Modell auf einer einzigen herkömmlichen GPU trainieren können. Zudem nutzt Hydra das Beschleunigungspotenzial der Task-Parallelität in Multi-GPU-Umgebungen vollständig und erreicht nahezu lineare starke Skalierung, was die Durchführbarkeit einer gründlichen Modellauswahl für solche Modelle möglicherweise praktikabler macht. Wir evaluieren die End-to-End-Leistung durch das Feintuning von GPT-2 für Sprachmodellierung. Dabei stellen wir fest, dass Hydra eine bis zu 100 % höhere Trainingsdurchsatzleistung bietet als selbst die besten Einstellungen aktueller industrieller Frameworks wie DeepSpeed und GPipe bei der Verarbeitung von Multi-Large-Model-Arbeitslasten.