Command Palette
Search for a command to run...
Nicht Alles Ist Verloren: Wiederherstellung von LLM ohne Checkpoints
Blagoev Nikolay Ersoy O\u011fuzhan Chen Lydia Yiyu

Abstract
Das Training von LLMs auf dezentralen und schwachen Rechenknoten, wie z.B. mehreren lokalen Instanzen, senkt die Trainingskosten und ermöglicht die Demokratisierung von Modellen. Die unvermeidliche Herausforderung dabei ist das Ausfallverhalten der Knoten aufgrund von Fehlern und den Scheduling-Richtlinien des Betreibers, was zu Verlusten einzelner Stufen – Teilen des Modells – führen kann. Die herkömmlichen Ansätze zur Wiederherstellung nach Fehlern sind entweder Checkpointing, bei dem regelmäßig eine Kopie des gesamten Modells in zusätzlichen Speicher geschrieben wird, oder redundante Berechnungen. Diese Methoden erzeugen selbst in Fällen ohne Fehler erhebliche Kommunikations- und/oder Rechenaufwand und skalieren schlecht bei großen Modellen. In diesem Artikel schlagen wir CheckFree vor, eine effiziente Wiederherstellungsmethode, bei der ein fehlerhafter Stufe durch ein gewichtetes Mittel der nächsten Nachbarstufen ersetzt wird. Im Gegensatz zum Stand der Technik benötigt CheckFree weder zusätzliche Berechnungen noch Speicherplatz. Aufgrund der Natur des Durchschnittsbildens von Nachbarstufen kann es jedoch nur Ausfälle von Zwischenstufen wiederherstellen. Wir erweitern unsere Methode weiter zu CheckFree+, das mit asynchroner Pipeline-Ausführung auch Abstürze der ersten und letzten Stufen toleriert. Dank asynchroner Pipelining werden das Verhalten dieser Stufen durch ihre Nachbarn nachgeahmt, was CheckFree+ ermöglicht, sie einfach durch Kopieren der Gewichte vom direkten Nachbarn wiederherzustellen. Um die (De-)Einbettungsschichten wiederherstellen zu können, kopiert CheckFree+ diese Schichten zu den Nachbarstufen, was relativ geringe Speicherkosten verursacht. Wir evaluieren unsere Methode umfassend an LLaMa-Modellen mit Modellgrößen von 124M bis 1,5B unter Berücksichtigung verschiedener Ausfallhäufigkeiten. Bei niedrigen und mittleren Ausfallraten (5-10 %) übertrifft CheckFree sowohl CheckFree+ sowohl Checkpointing als auch redundante Berechnungen hinsichtlich der Konvergenzgeschwindigkeit in realer Zeit um über 12 %. Beide unserer Vorschläge können über unseren Quellcode ausgeführt werden, der unter folgender URL verfügbar ist: https://github.com/gensyn-ai/CheckFree.
Code-Repositories
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.