vor 4 Tagen

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Zusammenfassung

Das Nachtraining für langfristige agentenbasierte Aufgaben steht in einem Zielkonflikt zwischen Recheneffizienz und Generalisierungsfähigkeit. Zwar ist das überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) rechen effizient, leidet jedoch häufig unter einer Verschlechterung der Leistung bei Daten außerhalb des Trainingsbereichs (Out-of-Domain, OOD). Umgekehrt bewahrt das End-to-End-Verstärkungslernen (End-to-End Reinforcement Learning, E2E RL) die OOD-Fähigkeiten, verursacht jedoch hohe Rechenkosten aufgrund zahlreicher On-Policy-Rollouts über viele Interaktionsschritte.Wir stellen PivotRL vor, ein neuartiges Framework, das auf bestehenden SFT-Trajektorien operiert und die Rechen effizienz von SFT mit der OOD-Genauigkeit von E2E RL kombiniert. PivotRL stützt sich auf zwei Schlüsselmechanismen: Erstens führt es lokale On-Policy-Rollouts durch und filtert nach „Pivots" – informativen Zwischenschritten, bei denen die gesampelten Aktionen eine hohe Varianz in den Ergebnissen aufweisen. Zweitens verwendet es Belohnungen für funktional äquivalente Aktionen, anstatt eine strikte String-Übereinstimmung mit den Demonstrationen aus den SFT-Daten zu verlangen.Theoretisch zeigen wir, dass diese Mechanismen starke Lernsignale mit hoher natürlicher Gradientennorm incentivieren, während die Wahrscheinlichkeitsreihenfolge der Policy für Aktionen, die nicht mit den Trainingsaufgaben zusammenhängen, maximal erhalten bleibt. Im Vergleich zum Standard-SFT auf identischen Daten erzielen wir mit PivotRL im Durchschnitt über vier agentenbasierte Domänen eine um 4,17 % höhere In-Domain-Genauigkeit sowie eine um 10,04 % höhere OOD-Genauigkeit bei nicht-agentenbasierten Aufgaben. Bemerkenswerterweise erreicht PivotRL bei agentenbasierten Codierungsaufgaben eine mit E2E RL konkurrenzfähige Genauigkeit bei gleichzeitig um den Faktor 4 reduzierter Anzahl an Rollout-Schritten.PivotRL wird von NVIDIAs Nemotron-3-Super-120B-A12B übernommen und fungiert als zentrale Komponente beim produktionsreifen Nachtraining agentenbasierter Systeme im industriellen Maßstab.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 4 Tagen

Überwachtes Feinabstimmen

Verstärkendes Lernen

Agent

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 4 Tagen

Überwachtes Feinabstimmen

Verstärkendes Lernen

Agent

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

PivotRL: Hochpräzises post-trainingsbasiertes Agenten-Training bei geringen Rechenkosten

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PivotRL: Hochpräzises post-trainingsbasiertes Agenten-Training bei geringen Rechenkosten

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PivotRL: Hochpräzises post-trainingsbasiertes Agenten-Training bei geringen Rechenkosten

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao2 more

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao