HyperAIHyperAI

Command Palette

Search for a command to run...

PivotRL: Hochpräzises post-trainingsbasiertes Agenten-Training bei geringen Rechenkosten

Zusammenfassung

Das Nachtraining für langfristige agentenbasierte Aufgaben steht in einem Zielkonflikt zwischen Recheneffizienz und Generalisierungsfähigkeit. Zwar ist das überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) rechen effizient, leidet jedoch häufig unter einer Verschlechterung der Leistung bei Daten außerhalb des Trainingsbereichs (Out-of-Domain, OOD). Umgekehrt bewahrt das End-to-End-Verstärkungslernen (End-to-End Reinforcement Learning, E2E RL) die OOD-Fähigkeiten, verursacht jedoch hohe Rechenkosten aufgrund zahlreicher On-Policy-Rollouts über viele Interaktionsschritte.Wir stellen PivotRL vor, ein neuartiges Framework, das auf bestehenden SFT-Trajektorien operiert und die Rechen effizienz von SFT mit der OOD-Genauigkeit von E2E RL kombiniert. PivotRL stützt sich auf zwei Schlüsselmechanismen: Erstens führt es lokale On-Policy-Rollouts durch und filtert nach „Pivots" – informativen Zwischenschritten, bei denen die gesampelten Aktionen eine hohe Varianz in den Ergebnissen aufweisen. Zweitens verwendet es Belohnungen für funktional äquivalente Aktionen, anstatt eine strikte String-Übereinstimmung mit den Demonstrationen aus den SFT-Daten zu verlangen.Theoretisch zeigen wir, dass diese Mechanismen starke Lernsignale mit hoher natürlicher Gradientennorm incentivieren, während die Wahrscheinlichkeitsreihenfolge der Policy für Aktionen, die nicht mit den Trainingsaufgaben zusammenhängen, maximal erhalten bleibt. Im Vergleich zum Standard-SFT auf identischen Daten erzielen wir mit PivotRL im Durchschnitt über vier agentenbasierte Domänen eine um 4,17 % höhere In-Domain-Genauigkeit sowie eine um 10,04 % höhere OOD-Genauigkeit bei nicht-agentenbasierten Aufgaben. Bemerkenswerterweise erreicht PivotRL bei agentenbasierten Codierungsaufgaben eine mit E2E RL konkurrenzfähige Genauigkeit bei gleichzeitig um den Faktor 4 reduzierter Anzahl an Rollout-Schritten.PivotRL wird von NVIDIAs Nemotron-3-Super-120B-A12B übernommen und fungiert als zentrale Komponente beim produktionsreifen Nachtraining agentenbasierter Systeme im industriellen Maßstab.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp