Teilen ist Fürsorge: Effizientes Nachtraining von Sprachmodellen mit kollektiver RL-Erfahrungsteilung

Sprachmodelle (LMs) nach der Trainingsschleife, die mit Verstärkendem Lernen (RL) optimiert werden, können ihre Fähigkeit zur komplexen Schlussfolgerung verbessern, ohne dass eine überwachte Feinabstimmung erforderlich ist – wie beispielsweise DeepSeek-R1-Zero demonstriert hat. Die effektive Nutzung von RL für Sprachmodelle erfordert jedoch eine erhebliche Parallelisierung, um die Inferenz zu skalieren, was zusätzliche technische Herausforderungen mit sich bringt (z. B. Latenz, Speicherbedarf und Zuverlässigkeit), die sich stetig mit steigenden finanziellen Kosten verbinden. Wir stellen Swarm sAmpling Policy Optimization (SAPO) vor, einen vollständig dezentralen und asynchronen Algorithmus für die RL-Nachtrainierung. SAPO ist für dezentrale Netzwerke heterogener Rechenknoten konzipiert, wobei jeder Knoten sein eigenes oder mehrere Policy-Modelle verwaltet und dabei „Rollouts“ mit anderen Knoten im Netzwerk teilt; es werden keine expliziten Annahmen über Latenz, Modellhomogenität oder Hardware getroffen, und Knoten können auch unabhängig voneinander (in Isolation) arbeiten, falls gewünscht. Dadurch umgeht der Algorithmus typische Engpässe bei der Skalierung der RL-Nachtrainierung und ermöglicht gleichzeitig (und fördert sogar) neue Möglichkeiten. Durch die Nutzung von Rollouts, die über das Netzwerk geteilt werden, ermöglicht SAPO, dass „Aha-Erlebnisse“ propagiert werden, wodurch der Lernprozess beschleunigt wird. In dieser Arbeit zeigen wir, dass SAPO in kontrollierten Experimenten kumulative Belohnungsgewinne von bis zu 94 % erzielt hat. Zudem teilen wir Erkenntnisse aus Tests an einem Netzwerk mit Tausenden von Knoten, die von Mitgliedern der Gensyn-Community beigesteuert wurden, die den Algorithmus während einer Open-Source-Demo auf unterschiedlichsten Hardware-Plattformen und Modellen betrieben haben.