HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Reinforcement Learning für die Schließfolgerung von LLMs aus einer interdisziplinären Perspektive erneut betrachtet

Reinforcement Learning für die Schließfolgerung von LLMs aus einer interdisziplinären Perspektive erneut betrachtet

Abstract

Das Verstärkungslernen (Reinforcement Learning, RL) ist als vielversprechender Ansatz zur Verbesserung der Inferenzfähigkeiten großer Sprachmodelle (Large Language Models, LLMs) hervorgetreten. Dennoch konzentrieren sich die meisten offenen Anstrengungen stark auf Mathematik und Programmierung, was unser Verständnis seiner breiteren Anwendbarkeit auf allgemeine Inferenzfähkeiten einschränkt. Ein wesentlicher Herausforderung besteht in der fehlenden zuverlässigen und skalierbaren RL-Belohnungssignale über verschiedene Inferenzdomänen hinweg. Wir stellen Guru vor, ein kurationiertes RL-Inferenzkorpus mit 92.000 verifizierbaren Beispielen, die sechs Inferenzdomänen abdecken: Mathematik, Programmierung, Wissenschaft, Logik, Simulation und Tabellen (Math, Code, Science, Logic, Simulation, and Tabular). Jede Domäne wurde durch domänenspezifische Belohnungsdesigns, Entduplizierung und Filterung erstellt, um Zuverlässigkeit und Effektivität für das RL-Training sicherzustellen. Auf Basis von Guru untersuchen wir systematisch etablierte Erkenntnisse im RL für die Inferenz von LLMs und beobachten erhebliche Variationen zwischen den Domänen. Zum Beispiel deuten frühere Arbeiten darauf hin, dass RL hauptsächlich vorhandenes Wissen aus vortrainierten Modellen hervorruft. Unsere Ergebnisse legen jedoch ein komplexeres Muster nahe: Domänen, die während des Vortrainings häufig gesehen werden (Mathematik, Programmierung, Wissenschaft), profitieren leicht von cross-domain RL-Training; Domänen mit begrenztem Vortrainingsexposure (Logik, Simulation und Tabellen) erfordern dagegen in-domain Training, um sinnvolle Leistungsverbesserungen zu erzielen. Dies deutet darauf hin, dass RL wahrscheinlich echte Fähigkeitsanpassungen fördert. Schließlich präsentieren wir Guru-7B und Guru-32B, zwei Modelle, die unter den offenen Modellen mit öffentlich zugänglichen Daten den aktuellen Stand der Technik im RL-Training erreichen. Sie übertreffen die besten Baseline-Modelle um 7,9 % und 6,7 % in unserer Evaluations-Suite mit 17 Aufgaben über sechs Inferenzdomänen. Zudem zeigen wir, dass unsere Modelle die Pass@k-Leistung ihrer Basismodelle effektiv verbessern können – insbesondere bei komplexen Aufgaben, die selten in den Vortrainingsdaten auftauchen. Wir veröffentlichen Daten, Modelle sowie Trainings- und Evaluationscode zur Förderung allgemeiner Inferenzfähigkeiten unter folgender URL: [diese URL]

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Reinforcement Learning für die Schließfolgerung von LLMs aus einer interdisziplinären Perspektive erneut betrachtet | Forschungsarbeiten | HyperAI