HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 jours

Agent0-VL : Exploration d’un Agent Auto-Évoluant pour le Raisonnement Vision-Langage Intégré aux Outils

Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

Agent0-VL : Exploration d’un Agent Auto-Évoluant pour le Raisonnement Vision-Langage Intégré aux Outils

Résumé

Les agents vision-langage ont connu des progrès remarquables dans diverses tâches de raisonnement multimodales ; toutefois, leur apprentissage reste limité par les contraintes de supervision annotée par l’humain. Des approches récentes basées sur une auto-évaluation récompensante tentent de surmonter cette limitation en permettant aux modèles d’agir comme leurs propres juges ou fournisseurs de récompense. Pourtant, l’évaluation auto-générée uniquement à partir de texte peine à vérifier les étapes complexes de raisonnement visuel et souffre fréquemment d’hallucinations d’évaluation. Afin de relever ces défis, inspirés des avancées récentes dans le raisonnement intégrant des outils, nous proposons Agent0-VL, un agent vision-langage auto-évolutive qui réalise une amélioration continue grâce à un raisonnement intégrant des outils. Agent0-VL intègre l’utilisation d’outils non seulement dans le processus de raisonnement, mais aussi dans l’auto-évaluation et la correction auto-réparatrice, permettant au modèle d’effectuer une introspection, une vérification et une révision de son raisonnement par une analyse fondée sur des preuves. Il unifie deux rôles synergiques au sein d’un même modèle LVLM : un Solver chargé d’effectuer un raisonnement multi-tours intégrant des outils, et un Verifieur chargé de générer des retours structurés et des récompenses auto-évaluées à très fine granularité à travers une critique fondée sur des outils. Ces deux rôles interagissent au sein d’un cycle de raisonnement auto-évolutive, où la vérification basée sur des outils et l’apprentissage par renforcement s’alignent conjointement sur les distributions de raisonnement et d’évaluation, assurant une amélioration auto-évolutive stable. Grâce à cette évolution sans récompense externe, Agent0-VL parvient à aligner ses comportements de raisonnement et de vérification sans aucune annotation humaine ni modèle externe de récompense, réalisant ainsi une amélioration continue. Des expérimentations sur la résolution de problèmes géométriques et l’analyse scientifique visuelle montrent qu’Agent0-VL obtient une amélioration de 12,5 % par rapport au modèle de base. Notre code est disponible à l’adresse suivante : https://github.com/aiming-lab/Agent0/Agent0-VL.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Agent0-VL : Exploration d’un Agent Auto-Évoluant pour le Raisonnement Vision-Langage Intégré aux Outils | Articles de recherche | HyperAI