il y a 4 jours

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Résumé

L'entraînement postérieur pour des tâches agentiques à horizon long présente une tension entre l'efficacité computationnelle et la capacité de généralisation. Bien que le fine-tuning supervisé (SFT) soit efficace sur le plan computationnel, il souffre souvent d'une dégradation hors domaine (OOD). À l'inverse, l'apprentissage par renforcement de bout en bout (E2E RL) préserve les capacités OOD, mais engendre des coûts computationnels élevés en raison du grand nombre de tours de déploiement (rollout) sur politique. Nous présentons PivotRL, un cadre novateur qui exploite des trajectoires SFT existantes pour combiner l'efficacité computationnelle du SFT avec la précision OOD de l'E2E RL. PivotRL repose sur deux mécanismes clés : premièrement, il exécute des déploiements (rollouts) locaux sur politique et filtre les « pivots », c'est-à-dire des tours intermédiaires informatifs où les actions échantillonnées présentent une forte variance dans leurs résultats ; deuxièmement, il utilise des récompenses pour des actions fonctionnellement équivalentes, sans exiger une correspondance stricte des chaînes de caractères avec les démonstrations issues des données de SFT. Nous démontrons théoriquement que ces mécanismes favorisent l'émergence de signaux d'apprentissage puissants, caractérisés par une forte norme du gradient naturel, tout en préservant au maximum l'ordonnancement des probabilités de la politique pour les actions non liées aux tâches d'entraînement. Par rapport au SFT standard appliqué aux mêmes données, nous montrons que PivotRL atteint une précision intradomaine supérieure de +4,17 % en moyenne sur quatre domaines agentiques, et une précision OOD supérieure de +10,04 % sur des tâches non agentiques. Notamment, sur des tâches de codage agentiques, PivotRL atteint une précision compétitive avec l'E2E RL tout en nécessitant quatre fois moins de tours de déploiement. PivotRL a été intégré à Nemotron-3-Super-120B-A12B de NVIDIA, où il joue le rôle de moteur principal dans l'entraînement postérieur agentique à l'échelle de la production.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 jours

Affinage Supervisé

Apprentissage Par Renforcement

Agent

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 4 jours

Affinage Supervisé

Apprentissage Par Renforcement

Agent

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

PivotRL : Entraînement postérieur agentic à haute précision et à faible coût computationnel | Articles | HyperAI

Command Palette

PivotRL : Entraînement postérieur agentic à haute précision et à faible coût computationnel

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PivotRL : Entraînement postérieur agentic à haute précision et à faible coût computationnel

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

PivotRL : Entraînement postérieur agentic à haute précision et à faible coût computationnel

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao2 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao

Junkeun Yi Damon Mosk-Aoyama Baihe Huang Ritu Gala Charles Wang Sugam Dipak Devare Khushi Bhardwaj Abhibha Gupta Oleksii Kuchaiev Jiantao Jiao