HyperAIHyperAI

Command Palette

Search for a command to run...

SwS: Selbstbewusste Schwachstellen-getriebene Problemerzeugung im Reinforcement Learning für LLM-Reasoning

Zusammenfassung

Das Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) hat sich als effektiv erwiesen, um große Sprachmodelle (LLMs) bei komplexen Denkaufgaben wie der Lösung mathematischer Probleme zu trainieren. Eine Voraussetzung für die Skalierbarkeit von RLVR ist ein hochwertiger Problemset mit präzisen und verifizierbaren Antworten. Allerdings begrenzen die Knappheit gut gestalteter, menschlich beschrifteter Mathematikaufgaben und die eingeschränkte Verifizierung von Antworten in bestehenden distillationsorientierten synthetischen Datensätzen ihre Effektivität im RL. Zudem erweitern die meisten Aufgabensynthesestrategien den Problemset willkürlich, ohne die Fähigkeiten des Modells zu berücksichtigen, was zu einer geringen Effizienz bei der Erstellung nützlicher Fragen führt. Um dieses Problem zu mindern, stellen wir einen selbstbewussten schwächegetriebenen Aufgabensynthese-Rahmen (SwS) vor, der systematisch Modellmängel identifiziert und diese für die Aufgabenverstärkung nutzt. Insbesondere definieren wir Schwächen als Fragen, bei denen das Modell während seines iterativen Sammelns im RL-Training stets versagt. Wir extrahieren dann die Kernkonzepte aus diesen Fehlern und synthetisieren neue Probleme, um die schwachen Bereiche des Modells in nachfolgenden erweiterten Trainingsphasen zu stärken und es so zu befähigen, sich auf seine Schwächen zu konzentrieren und sie allmählich zu überwinden. Ohne auf externe Wissensdistillation zurückzugreifen, ermöglicht unser Rahmen eine robuste Generalisierung, indem er das Modell dazu befähigt, seine Schwächen im RL selbstständig zu identifizieren und anzugehen. Dies führt durchschnittlich zu Leistungssteigerungen von 10,0 % und 7,7 % bei 7-Milliarden-Parameter-Modellen und 32-Milliarden-Parameter-Modellen über acht Hauptdenkbanchmarks hinweg.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp