vor 4 Monaten

Nicht Alles Ist Verloren: Wiederherstellung von LLM ohne Checkpoints

Details der Forschungsarbeit anzeigen Code anzeigen

Blagoev Nikolay Ersoy O\u011fuzhan Chen Lydia Yiyu

Nicht Alles Ist Verloren: Wiederherstellung von LLM ohne Checkpoints

Abstract

Das Training von LLMs auf dezentralen und schwachen Rechenknoten, wie z.B. mehreren lokalen Instanzen, senkt die Trainingskosten und ermöglicht die Demokratisierung von Modellen. Die unvermeidliche Herausforderung dabei ist das Ausfallverhalten der Knoten aufgrund von Fehlern und den Scheduling-Richtlinien des Betreibers, was zu Verlusten einzelner Stufen – Teilen des Modells – führen kann. Die herkömmlichen Ansätze zur Wiederherstellung nach Fehlern sind entweder Checkpointing, bei dem regelmäßig eine Kopie des gesamten Modells in zusätzlichen Speicher geschrieben wird, oder redundante Berechnungen. Diese Methoden erzeugen selbst in Fällen ohne Fehler erhebliche Kommunikations- und/oder Rechenaufwand und skalieren schlecht bei großen Modellen. In diesem Artikel schlagen wir CheckFree vor, eine effiziente Wiederherstellungsmethode, bei der ein fehlerhafter Stufe durch ein gewichtetes Mittel der nächsten Nachbarstufen ersetzt wird. Im Gegensatz zum Stand der Technik benötigt CheckFree weder zusätzliche Berechnungen noch Speicherplatz. Aufgrund der Natur des Durchschnittsbildens von Nachbarstufen kann es jedoch nur Ausfälle von Zwischenstufen wiederherstellen. Wir erweitern unsere Methode weiter zu CheckFree+, das mit asynchroner Pipeline-Ausführung auch Abstürze der ersten und letzten Stufen toleriert. Dank asynchroner Pipelining werden das Verhalten dieser Stufen durch ihre Nachbarn nachgeahmt, was CheckFree+ ermöglicht, sie einfach durch Kopieren der Gewichte vom direkten Nachbarn wiederherzustellen. Um die (De-)Einbettungsschichten wiederherstellen zu können, kopiert CheckFree+ diese Schichten zu den Nachbarstufen, was relativ geringe Speicherkosten verursacht. Wir evaluieren unsere Methode umfassend an LLaMa-Modellen mit Modellgrößen von 124M bis 1,5B unter Berücksichtigung verschiedener Ausfallhäufigkeiten. Bei niedrigen und mittleren Ausfallraten (5-10 %) übertrifft CheckFree sowohl CheckFree+ sowohl Checkpointing als auch redundante Berechnungen hinsichtlich der Konvergenzgeschwindigkeit in realer Zeit um über 12 %. Beide unserer Vorschläge können über unseren Quellcode ausgeführt werden, der unter folgender URL verfügbar ist: https://github.com/gensyn-ai/CheckFree.

Code-Repositories

gensyn-ai/checkfree

Offiziell

pytorch

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp