HyperAIHyperAI

Command Palette

Search for a command to run...

Agent0-VL : Exploration d’un Agent Auto-Évoluant pour le Raisonnement Vision-Langage Intégré aux Outils

Jiaqi Liu Kaiwen Xiong Peng Xia Yiyang Zhou Haonian Ji Lu Feng Siwei Han Mingyu Ding Huaxiu Yao

Résumé

Les agents vision-langage ont connu des progrès remarquables dans diverses tâches de raisonnement multimodales ; toutefois, leur apprentissage reste limité par les contraintes de supervision annotée par l’humain. Des approches récentes basées sur une auto-évaluation récompensante tentent de surmonter cette limitation en permettant aux modèles d’agir comme leurs propres juges ou fournisseurs de récompense. Pourtant, l’évaluation auto-générée uniquement à partir de texte peine à vérifier les étapes complexes de raisonnement visuel et souffre fréquemment d’hallucinations d’évaluation. Afin de relever ces défis, inspirés des avancées récentes dans le raisonnement intégrant des outils, nous proposons Agent0-VL, un agent vision-langage auto-évolutive qui réalise une amélioration continue grâce à un raisonnement intégrant des outils. Agent0-VL intègre l’utilisation d’outils non seulement dans le processus de raisonnement, mais aussi dans l’auto-évaluation et la correction auto-réparatrice, permettant au modèle d’effectuer une introspection, une vérification et une révision de son raisonnement par une analyse fondée sur des preuves. Il unifie deux rôles synergiques au sein d’un même modèle LVLM : un Solver chargé d’effectuer un raisonnement multi-tours intégrant des outils, et un Verifieur chargé de générer des retours structurés et des récompenses auto-évaluées à très fine granularité à travers une critique fondée sur des outils. Ces deux rôles interagissent au sein d’un cycle de raisonnement auto-évolutive, où la vérification basée sur des outils et l’apprentissage par renforcement s’alignent conjointement sur les distributions de raisonnement et d’évaluation, assurant une amélioration auto-évolutive stable. Grâce à cette évolution sans récompense externe, Agent0-VL parvient à aligner ses comportements de raisonnement et de vérification sans aucune annotation humaine ni modèle externe de récompense, réalisant ainsi une amélioration continue. Des expérimentations sur la résolution de problèmes géométriques et l’analyse scientifique visuelle montrent qu’Agent0-VL obtient une amélioration de 12,5 % par rapport au modèle de base. Notre code est disponible à l’adresse suivante : https://github.com/aiming-lab/Agent0/Agent0-VL.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Agent0-VL : Exploration d’un Agent Auto-Évoluant pour le Raisonnement Vision-Langage Intégré aux Outils | Articles | HyperAI