HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 6 jours

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Yicheng He Chengsong Huang Zongxia Li Jiaxin Huang Yonghui Yang

VisPlay : Modèles Vision-Language auto-évoluant à partir d'images

Résumé

L’apprentissage par renforcement (RL) offre un cadre rigoureux pour améliorer les modèles vision-langage (VLM) sur des tâches de raisonnement complexes. Toutefois, les approches de RL existantes reposent souvent sur des étiquettes annotées par des humains ou des heuristiques spécifiques à la tâche pour définir des récompenses vérifiables, deux solutions coûteuses et difficiles à mettre à l’échelle. Nous introduisons VisPlay, un cadre de RL auto-évoluant qui permet aux VLM d’améliorer de manière autonome leurs capacités de raisonnement à l’aide de grandes quantités de données d’images non étiquetées. À partir d’un seul modèle de base VLM, VisPlay attribue au modèle deux rôles interactifs : un Questionneur conditionné par l’image, chargé de formuler des questions visuelles exigeantes mais répondables, et un Raisonneur multimodal, chargé de générer des réponses « argent » (silver). Ces deux rôles sont entraînés conjointement via une optimisation de politique par rapport à un groupe (GRPO), qui intègre des récompenses de diversité et de difficulté afin d’équilibrer la complexité des questions générées avec la qualité des réponses « argent ». VisPlay s’écrit efficacement sur deux familles de modèles. Lorsqu’il est entraîné sur Qwen2.5-VL et MiMo-VL, VisPlay obtient des améliorations constantes en raisonnement visuel, en généralisation compositionnelle et en réduction des hallucinations sur huit benchmarks, notamment MM-Vet et MMMU, démontrant ainsi une voie évolutivement scalable vers une intelligence multimodale auto-évolutive. La page du projet est disponible à l’adresse suivante : https://bruno686.github.io/VisPlay/

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
VisPlay : Modèles Vision-Language auto-évoluant à partir d'images | Articles de recherche | HyperAI