HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-Zero : Amélioration autonome des modèles linguistiques-visuels évolutifs par un auto-jeu stratégique et ludifié

Qinsi Wang Bo Liu Tianyi Zhou Jing Shi Yueqian Lin Yiran Chen Hai Helen Li Kun Wan Wentian Zhao

Résumé

Bien que l’apprentissage par renforcement (RL) puisse efficacement améliorer les capacités de raisonnement des modèles vision-langage (VLM), les méthodes actuelles restent fortement dépendantes de jeux de données exigeant une construction et une vérification manuelles intensives, entraînant des coûts d’entraînement extrêmement élevés et limitant ainsi la mise en œuvre pratique des VLM. Pour relever ce défi, nous proposons Vision-Zero, un cadre universel par rapport au domaine permettant l’autopromotion des VLM grâce à des jeux visuels compétitifs générés à partir de paires d’images arbitraires. Plus précisément, Vision-Zero présente trois caractéristiques principales : (1) Cadre de jeu stratégique autonome : Vision-Zero entraîne les VLM dans des jeux du type « Qui est le traître ? », où les modèles doivent mener des raisonnements stratégiques et adopter des actions à travers plusieurs rôles. Grâce à une interaction ludique, les modèles génèrent eux-mêmes leurs données d’entraînement sans annotation humaine. (2) Jeux à partir d’images arbitraires : Contrairement aux cadres actuels basés sur la gamification, Vision-Zero peut générer des jeux à partir de n’importe quelles images, améliorant ainsi la capacité de raisonnement du modèle dans des domaines variés et démontrant une forte généralisation à différentes tâches. Nous illustrons cette polyvalence à l’aide de trois types distincts de jeux d’images : scènes synthétiques basées sur CLEVR, graphiques et images du monde réel. (3) Amélioration durable des performances : Nous introduisons une nouvelle méthode d’entraînement, l’Optimisation itérative de politique par jeu autonome (Iterative-SPO), qui alterne entre jeu autonome (self-play) et apprentissage par renforcement à récompenses vérifiables (RLVR), atténuant ainsi le plateau de performance fréquemment observé dans les entraînements basés uniquement sur le jeu autonome, et permettant des améliorations durables à long terme. Malgré l’absence de labels dans les données utilisées, Vision-Zero atteint des performances de pointe sur des tâches de raisonnement, de réponse à des questions sur des graphiques et d’understanding centré sur la vision, dépassant ainsi les méthodes traditionnelles basées sur l’annotation. Les modèles et le code source sont disponibles à l’adresse suivante : https://github.com/wangqinsi1/Vision-Zero.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Vision-Zero : Amélioration autonome des modèles linguistiques-visuels évolutifs par un auto-jeu stratégique et ludifié | Articles | HyperAI