HyperAIHyperAI

Command Palette

Search for a command to run...

Teilen ist Fürsorge: Effizientes Nachtraining von Sprachmodellen mit kollektiver RL-Erfahrungsteilung

Zusammenfassung

Sprachmodelle (LMs) nach der Trainingsschleife, die mit Verstärkendem Lernen (RL) optimiert werden, können ihre Fähigkeit zur komplexen Schlussfolgerung verbessern, ohne dass eine überwachte Feinabstimmung erforderlich ist – wie beispielsweise DeepSeek-R1-Zero demonstriert hat. Die effektive Nutzung von RL für Sprachmodelle erfordert jedoch eine erhebliche Parallelisierung, um die Inferenz zu skalieren, was zusätzliche technische Herausforderungen mit sich bringt (z. B. Latenz, Speicherbedarf und Zuverlässigkeit), die sich stetig mit steigenden finanziellen Kosten verbinden. Wir stellen Swarm sAmpling Policy Optimization (SAPO) vor, einen vollständig dezentralen und asynchronen Algorithmus für die RL-Nachtrainierung. SAPO ist für dezentrale Netzwerke heterogener Rechenknoten konzipiert, wobei jeder Knoten sein eigenes oder mehrere Policy-Modelle verwaltet und dabei „Rollouts“ mit anderen Knoten im Netzwerk teilt; es werden keine expliziten Annahmen über Latenz, Modellhomogenität oder Hardware getroffen, und Knoten können auch unabhängig voneinander (in Isolation) arbeiten, falls gewünscht. Dadurch umgeht der Algorithmus typische Engpässe bei der Skalierung der RL-Nachtrainierung und ermöglicht gleichzeitig (und fördert sogar) neue Möglichkeiten. Durch die Nutzung von Rollouts, die über das Netzwerk geteilt werden, ermöglicht SAPO, dass „Aha-Erlebnisse“ propagiert werden, wodurch der Lernprozess beschleunigt wird. In dieser Arbeit zeigen wir, dass SAPO in kontrollierten Experimenten kumulative Belohnungsgewinne von bis zu 94 % erzielt hat. Zudem teilen wir Erkenntnisse aus Tests an einem Netzwerk mit Tausenden von Knoten, die von Mitgliedern der Gensyn-Community beigesteuert wurden, die den Algorithmus während einer Open-Source-Demo auf unterschiedlichsten Hardware-Plattformen und Modellen betrieben haben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp