HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

VerlTool : Vers un apprentissage par renforcement agissant holistique intégrant l'utilisation d'outils

VerlTool : Vers un apprentissage par renforcement agissant holistique intégrant l'utilisation d'outils

Résumé

L’apprentissage par renforcement avec récompenses vérifiables (RLVR) a démontré son efficacité dans l’amélioration des capacités de raisonnement des grands modèles linguistiques (LLM), mais reste limité aux interactions à un seul tour sans intégration d’outils. Bien que des approches récentes d’apprentissage par renforcement agencé avec utilisation d’outils (ARLT) aient émergé afin de traiter les interactions multi-tours avec outils, les travaux existants reposent sur des codebases spécifiques à chaque tâche, souffrant de fragmentation, de goulets d’étranglement liés à l’exécution synchrone, ainsi que d’une faible extensibilité entre domaines. Ces inefficacités freinent l’adoption par la communauté et l’innovation algorithmique. Nous introduisons VerlTool, un cadre unifié et modulaire qui surmonte ces limitations grâce à des principes de conception systématiques. VerlTool apporte quatre contributions majeures : (1) une alignement en amont avec VeRL, garantissant la compatibilité et simplifiant la maintenance ; (2) une gestion unifiée des outils via des API standardisées, prenant en charge diverses modalités, notamment l’exécution de code, la recherche, les bases de données SQL et le traitement d’images ; (3) une exécution asynchrone des trajectoires (rollout), permettant une accélération quasi double en éliminant les goulets d’étranglement synchrones ; (4) une évaluation complète démontrant des performances compétitives sur six domaines d’ARLT. Notre cadre formalise l’ARLT comme des trajectoires multi-tours comprenant des jetons d’observation multimodaux (texte/image/vidéo), dépassant ainsi les paradigmes mono-tour du RLVR. Nous entraînons et évaluons des modèles sur des tâches de raisonnement mathématique, de question-réponse sur connaissances, de génération de requêtes SQL, de raisonnement visuel, de recherche web et d’ingénierie logicielle, obtenant des résultats comparables à ceux des systèmes spécialisés tout en offrant une infrastructure d’entraînement unifiée. L’architecture modulaire par plugins permet une intégration rapide des outils, nécessitant uniquement des définitions légères en Python, réduisant significativement la charge de développement et offrant une base évolutif pour la recherche en apprentissage par renforcement augmenté d’outils. Notre code est mis à disposition sous licence libre à l’adresse suivante : https://github.com/TIGER-AI-Lab/verl-tool.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VerlTool : Vers un apprentissage par renforcement agissant holistique intégrant l'utilisation d'outils | Articles de recherche | HyperAI