HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Perception visuelle renforcée par l'outil

Zetong Zhou Dongping Chen Zixian Ma Zhihan Hu Mingyang Fu Sinan Wang Yao Wan Zhou Zhao Ranjay Krishna

Perception visuelle renforcée par l'outil

Résumé

Le raisonnement visuel, pilier de l'intelligence humaine, englobe des processus perceptifs et logiques complexes essentiels à la résolution de divers problèmes visuels. Bien que les progrès réalisés en vision par ordinateur aient permis de développer des modèles puissants pour de nombreuses tâches perceptives, leur utilisation pour le raisonnement visuel général reste un défi. Les travaux antérieurs ont montré qu’en enrichissant les modèles linguistiques à grande échelle (LLM) par des modèles visuels via un fine-tuning supervisé, on améliore les performances, mais cette approche présente des limites majeures, telles que la génération coûteuse de données, la dépendance à un filtrage rigoureux des données et une généralisation médiocre. Pour surmonter ces problèmes, nous proposons ReVPT, une méthode visant à améliorer la capacité des modèles LLM multimodaux à raisonner et à utiliser des outils visuels grâce à l’apprentissage par renforcement (RL). Nous introduisons un nouvel algorithme de RL basé sur GRPO, spécifiquement conçu pour entraîner les modèles à raisonner à l’aide d’une série de quatre outils visuels. À travers des expériences approfondies, nous démontrons que notre méthode atteint des performances de pointe sur plusieurs benchmarks fortement centrés sur la perception, notamment SAT, CV-Bench, BLINK et MMStar, surpassant significativement les méthodes de fine-tuning supervisé et basées sur le texte. Notamment, nos modèles ReVPT-3B et ReVPT-7B surpassent les modèles instructés respectivement de 9,03 % et 9,44 % sur CV-Bench. Enfin, à travers des analyses ablatives étendues, nous apportons au communauté de nouvelles perspectives sur l’utilisation d’outils visuels fondée sur l’apprentissage par renforcement. Le code est disponible à l’adresse suivante : https://github.com/ls-kelvin/REVPT.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Perception visuelle renforcée par l'outil | Articles de recherche | HyperAI