Meta und NYU entwickeln neue Methode zur LLM-Anpassung mit reduzierter Rechenleistung
Neue KI-Methode von Meta und NYU verbessert die Ausrichtung von großen Sprachmodellen durch Semi-Online-Reinforcement-Learning Große Sprachmodelle (LLMs) erfordern oft eine zusätzliche Ausrichtungsphase, um sie für den menschlichen Gebrauch zu optimieren. In dieser Phase spielt Reinforcement Learning (RL) eine zentrale Rolle, indem es den Modellen ermöglicht, Entscheidungen auf der Basis von menschlichem Feedback oder der Richtigkeit von Aufgaben zu treffen. Dieses Feinjustierungsverfahren bringt die Modelle näher an die Erwartungen der Nutzer heran, wodurch sie besser für anweisungsbasierte Anwendungen oder präzise mathematische Aufgaben geeignet werden. Herausforderungen bei der Auswahl von Offline- oder Online-RL-Strategien Eine wesentliche Schwierigkeit besteht darin, die effektivste Methode für diese Feinjustierung zu wählen. Trainingsmethoden lassen sich in zwei Extremen unterteilen: Offline-Ansätze, die auf statischen, vorab generierten Daten beruhen, und vollständig Online-Ansätze, die bei jeder neuen Interaktion kontinuierlich aktualisiert werden. Beide Methoden haben ihre eigenen Herausforderungen. Offline-Modelle können während des Trainings nicht anpassen, was ihre Leistung einschränkt. Online-Modelle hingegen erfordern oft mehr Rechenressourcen. Zudem ist es schwieriger, sicherzustellen, dass die Modelle sowohl bei mathematischen (verifizierbaren) als auch bei offenen (nicht verifizierbaren) Aufgaben gut abschneiden. Überblick über Ausrichtungsalgorithmen: DPO und GRPO Traditionell werden Werkzeuge wie Direct Preference Optimization (DPO) und Group Relative Policy Optimization (GRPO) zur Ausrichtung von Modellen eingesetzt. DPO arbeitet offline und ist darauf ausgelegt, mit präferenzbasierten Datensätzen zu arbeiten. Es wird wegen seiner Einfachheit und Dateneffizienz geschätzt, aber es fehlt die Anpassungsfähigkeit von Online-Methoden. GRPO basiert auf dem PPO-Algorithmus und führt Online-Feinjustierung durch, indem es Gruppen von Ausgaben vergleicht, um relative Vorteile zu berechnen. Obwohl GRPO in Echtzeit anpasst und dynamische Belohnungssysteme unterstützt, erhöht sein on-policy Charakter die Rechenlast und macht Experimente anspruchsvoller. Ein ausgewogener Alternativansatz für die Ausrichtung von LLMs In einer Studie, die von Meta und NYU präsentiert wurde, wurde ein Ansatz untersucht, der diese Einschränkungen durch eine semi-online Trainingsstruktur überwinden soll. Diese Technik regelt, wie häufig die Generierungskomponente und die Trainingskomponente des Modells synchronisiert werden, anstatt bei jedem Trainingschritt zu aktualisieren, wie es bei vollständig Online-Methoden der Fall ist, oder gar nicht, wie es bei Offline-Setups üblich ist. Die semi-online Methode findet einen Kompromiss, indem sie die Synchronisationsrate anpasst. Die Forscher entwarfen diesen Ansatz, um die Trainingszeit zu reduzieren und gleichzeitig eine hohe Anpassungsfähigkeit des Modells zu gewährleisten. Das modulare Setup ermöglichte es ihnen, DPO oder GRPO je nach Aufgabe flexibel mit spezifischen Belohnungsmodellen zu kombinieren. Instruktionsfolge und mathematisches Denken Die Methodik beinhaltete das Feinjustieren des Llama-3.1-8B-Instruct-Modells anhand von zwei Arten von Aufgaben: Offenen Instruktionen und mathematischem Problemlösen. Bei nicht verifizierbaren Aufgaben wurden Nutzeranfragen aus dem WildChat-1M-Datensatz extrahiert und mit dem Athene-RM-8B-Belohnungsmodell bewertet, das Skalarwerte für jede Anfrage zuweist. Bei verifizierbaren Aufgaben verwendeten die Forscher den NuminaMath-Datensatz in Verbindung mit dem Math-Verify-Tool, das überprüft, ob die generierten Antworten den erwarteten Ergebnissen entsprechen. Die Trainingsversuche wurden auf 32 NVIDIA H200-GPUs durchgeführt, wobei 8 GPUs für die Inferenz verwendet wurden. Verschiedene Setups verglichen Offline-, semi-online- und Online-Synchronisationsintervalle. Leistungssteigerungen bei verifizierbaren und nicht verifizierbaren Aufgaben Es zeigten sich signifikante Leistungsunterschiede. Auf Math500 erreichte das Offline-DPO eine Genauigkeit von 53,7 %, während das semi-online DPO mit einem Synchronisationsintervall von s = 100 58,9 % erreichte. Online-DPO und GRPO zeigten ähnliche Ergebnisse von 58,7 % und 58,1 %, jeweils. Ähnliche Trends konnten auf dem NuminaMath-Benchmark festgestellt werden, wo das Offline-DPO 36,4 % erreichte und die semi-online Varianten dies auf 39,4 % (s = 10) steigerten. Die Leistungsverbesserungen beschränkten sich nicht auf mathematische Aufgaben. Beim Bewerten nicht verifizierbarer Aufgaben mit AlpacaEval 2.0 und Arena-Hard zeigten Modelle, die mit gemischten Belohnungstypen trainiert wurden, konsistent bessere Ergebnisse. Die Kombination von verifizierbaren und nicht verifizierbaren Belohnungen in einem einzigen Trainingssetup führte zu stärkeren durchschnittlichen Scores, was darauf hinweist, dass die Methode effektiv generalisiert. Ein flexibler und skalierbarer Ansatz für Reinforcement Learning in LLMs Diese Studie zeigt, dass das Feinjustieren großer Sprachmodelle keinen strikten Einsatz von Offline- oder Online-Setups erfordert. Durch die Einführung eines flexiblen Synchronisationsverfahrens konnte das Forschungsteam von Meta und NYU die Trainings-effizienz signifikant erhöhen, ohne die Leistungseinbußen zu erleiden. Die Ergebnisse deuten darauf hin, dass das sorgfältige Balancieren von Belohnungstypen und der Frequenz der Trainings-Synchronisation zu Modellen führt, die bei verschiedenen Aufgabentypen gut abschneiden, ohne hohe Rechenkosten zu verursachen. Branchenexperten loben die neue Methode für ihre Flexibilität und Skalierbarkeit. Sie betrachten sie als wichtigen Schritt zur Optimierung von LLMs, insbesondere in Anwendungsbereichen, die sowohl präzise mathematische als auch flexiblere, anweisungsbasierte Aufgaben erfordern. Meta und NYU sind führende Institutionen im Bereich der KI-Forschung und haben durch dieses Projekt wieder einmal ihre Innovationstärke unter Beweis gestellt.