HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Knapsack RL: Freigabe der Exploration von LLMs durch Optimierung der Budgetallokation

Ziniu Li Congliang Chen Tianyun Yang Tian Ding Ruoyu Sun Ge Zhang Wenhao Huang Zhi-Quan Luo

Knapsack RL: Freigabe der Exploration von LLMs durch Optimierung der Budgetallokation

Abstract

Große Sprachmodelle (Large Language Models, LLMs) können sich durch Verstärkungslernen selbst verbessern, indem sie Trajektorien generieren, um verschiedene Lösungsansätze zu erkunden und bessere Ergebnisse zu finden. Der Explorationprozess ist jedoch rechenintensiv, weshalb aktuelle Methoden meist begrenzte Explorationbudgets für jede Aufgabe festlegen. Diese gleichmäßige Zuweisung führt zu problematischen Randfällen: Einfache Aufgaben schlagen regelmäßig fehl, während schwierige Aufgaben regelmäßig scheitern – beide erzeugen während der Trainingsupdates für die weit verbreitete Gruppen-relative Policy-Optimierung (Group Relative Policy Optimization, GRPO) jeweils einen Nullgradienten. Wir greifen dieses Problem aus der Perspektive der Explorationbudget-Zuweisung an. Indem wir jede Aufgabe als „Gut“ mit einem eindeutigen „Wert“ und einer „Kosten“ betrachten, stellen wir eine Verbindung zum klassischen Rucksackproblem her. Diese Formulierung ermöglicht es uns, eine optimale Zuweisungsregel abzuleiten, die Ressourcen adaptiv basierend auf dem aktuellen Lernstatus des Modells verteilt. Angewandt auf GRPO erhöht unsere Methode das effektive Verhältnis nicht-nuller Policy-Gradienten während des Trainings um 20 bis 40 Prozent. Als rechnerischer „kostenloser Vorteil“ kann unser Ansatz Explorationbudgets von Aufgaben, bei denen das Lernen bereits gesättigt ist, auf solche umverteilen, in denen es am wirksamsten ist. Dadurch lassen sich deutlich größere Budgets – beispielsweise 93 Rollouts – für besonders anspruchsvolle Probleme nutzen, die bei einer gleichmäßigen Zuweisung rechnerisch unvertretbar wären. Diese Verbesserungen spiegeln sich in signifikanten Leistungssteigerungen auf mathematischen Schlussfolgerungsbewertungen wider: Durchschnittliche Verbesserungen von 2 bis 4 Punkten und Spitzenwerte von bis zu 9 Punkten auf bestimmten Aufgaben. Insbesondere erfordert die Erzielung vergleichbarer Ergebnisse mit der traditionellen homogenen Budgetzuweisung etwa das Doppelte an Rechenressourcen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Knapsack RL: Freigabe der Exploration von LLMs durch Optimierung der Budgetallokation | Forschungsarbeiten | HyperAI