Command Palette
Search for a command to run...
Agent0-VL : Exploration d’un Agent Auto-Évoluant pour le Raisonnement Vision-Langage Intégré aux Outils
Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

Résumé
Les agents vision-langage ont connu des progrès remarquables dans diverses tâches de raisonnement multimodales ; toutefois, leur apprentissage reste limité par les contraintes de supervision annotée par l’humain. Des approches récentes basées sur une auto-évaluation récompensante tentent de surmonter cette limitation en permettant aux modèles d’agir comme leurs propres juges ou fournisseurs de récompense. Pourtant, l’évaluation auto-générée uniquement à partir de texte peine à vérifier les étapes complexes de raisonnement visuel et souffre fréquemment d’hallucinations d’évaluation. Afin de relever ces défis, inspirés des avancées récentes dans le raisonnement intégrant des outils, nous proposons Agent0-VL, un agent vision-langage auto-évolutive qui réalise une amélioration continue grâce à un raisonnement intégrant des outils. Agent0-VL intègre l’utilisation d’outils non seulement dans le processus de raisonnement, mais aussi dans l’auto-évaluation et la correction auto-réparatrice, permettant au modèle d’effectuer une introspection, une vérification et une révision de son raisonnement par une analyse fondée sur des preuves. Il unifie deux rôles synergiques au sein d’un même modèle LVLM : un Solver chargé d’effectuer un raisonnement multi-tours intégrant des outils, et un Verifieur chargé de générer des retours structurés et des récompenses auto-évaluées à très fine granularité à travers une critique fondée sur des outils. Ces deux rôles interagissent au sein d’un cycle de raisonnement auto-évolutive, où la vérification basée sur des outils et l’apprentissage par renforcement s’alignent conjointement sur les distributions de raisonnement et d’évaluation, assurant une amélioration auto-évolutive stable. Grâce à cette évolution sans récompense externe, Agent0-VL parvient à aligner ses comportements de raisonnement et de vérification sans aucune annotation humaine ni modèle externe de récompense, réalisant ainsi une amélioration continue. Des expérimentations sur la résolution de problèmes géométriques et l’analyse scientifique visuelle montrent qu’Agent0-VL obtient une amélioration de 12,5 % par rapport au modèle de base. Notre code est disponible à l’adresse suivante : https://github.com/aiming-lab/Agent0/Agent0-VL.
Dépôts de code
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.