HyperAIHyperAI

Command Palette

Search for a command to run...

PivotRL : Entraînement postérieur agentic à haute précision et à faible coût computationnel

Résumé

L'entraînement postérieur pour des tâches agentiques à horizon long présente une tension entre l'efficacité computationnelle et la capacité de généralisation. Bien que le fine-tuning supervisé (SFT) soit efficace sur le plan computationnel, il souffre souvent d'une dégradation hors domaine (OOD). À l'inverse, l'apprentissage par renforcement de bout en bout (E2E RL) préserve les capacités OOD, mais engendre des coûts computationnels élevés en raison du grand nombre de tours de déploiement (rollout) sur politique. Nous présentons PivotRL, un cadre novateur qui exploite des trajectoires SFT existantes pour combiner l'efficacité computationnelle du SFT avec la précision OOD de l'E2E RL. PivotRL repose sur deux mécanismes clés : premièrement, il exécute des déploiements (rollouts) locaux sur politique et filtre les « pivots », c'est-à-dire des tours intermédiaires informatifs où les actions échantillonnées présentent une forte variance dans leurs résultats ; deuxièmement, il utilise des récompenses pour des actions fonctionnellement équivalentes, sans exiger une correspondance stricte des chaînes de caractères avec les démonstrations issues des données de SFT. Nous démontrons théoriquement que ces mécanismes favorisent l'émergence de signaux d'apprentissage puissants, caractérisés par une forte norme du gradient naturel, tout en préservant au maximum l'ordonnancement des probabilités de la politique pour les actions non liées aux tâches d'entraînement. Par rapport au SFT standard appliqué aux mêmes données, nous montrons que PivotRL atteint une précision intradomaine supérieure de +4,17 % en moyenne sur quatre domaines agentiques, et une précision OOD supérieure de +10,04 % sur des tâches non agentiques. Notamment, sur des tâches de codage agentiques, PivotRL atteint une précision compétitive avec l'E2E RL tout en nécessitant quatre fois moins de tours de déploiement. PivotRL a été intégré à Nemotron-3-Super-120B-A12B de NVIDIA, où il joue le rôle de moteur principal dans l'entraînement postérieur agentique à l'échelle de la production.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
PivotRL : Entraînement postérieur agentic à haute précision et à faible coût computationnel | Articles | HyperAI