HyperAIHyperAI
il y a 4 jours

Vision-Zero : Amélioration autonome des modèles linguistiques-visuels évolutifs par un auto-jeu stratégique et ludifié

Qinsi Wang, Bo Liu, Tianyi Zhou, Jing Shi, Yueqian Lin, Yiran Chen, Hai Helen Li, Kun Wan, Wentian Zhao
Vision-Zero : Amélioration autonome des modèles linguistiques-visuels évolutifs par un auto-jeu stratégique et ludifié
Résumé

Bien que l’apprentissage par renforcement (RL) puisse efficacement améliorer les capacités de raisonnement des modèles vision-langage (VLM), les méthodes actuelles restent fortement dépendantes de jeux de données exigeant une construction et une vérification manuelles intensives, entraînant des coûts d’entraînement extrêmement élevés et limitant ainsi la mise en œuvre pratique des VLM. Pour relever ce défi, nous proposons Vision-Zero, un cadre universel par rapport au domaine permettant l’autopromotion des VLM grâce à des jeux visuels compétitifs générés à partir de paires d’images arbitraires. Plus précisément, Vision-Zero présente trois caractéristiques principales : (1) Cadre de jeu stratégique autonome : Vision-Zero entraîne les VLM dans des jeux du type « Qui est le traître ? », où les modèles doivent mener des raisonnements stratégiques et adopter des actions à travers plusieurs rôles. Grâce à une interaction ludique, les modèles génèrent eux-mêmes leurs données d’entraînement sans annotation humaine. (2) Jeux à partir d’images arbitraires : Contrairement aux cadres actuels basés sur la gamification, Vision-Zero peut générer des jeux à partir de n’importe quelles images, améliorant ainsi la capacité de raisonnement du modèle dans des domaines variés et démontrant une forte généralisation à différentes tâches. Nous illustrons cette polyvalence à l’aide de trois types distincts de jeux d’images : scènes synthétiques basées sur CLEVR, graphiques et images du monde réel. (3) Amélioration durable des performances : Nous introduisons une nouvelle méthode d’entraînement, l’Optimisation itérative de politique par jeu autonome (Iterative-SPO), qui alterne entre jeu autonome (self-play) et apprentissage par renforcement à récompenses vérifiables (RLVR), atténuant ainsi le plateau de performance fréquemment observé dans les entraînements basés uniquement sur le jeu autonome, et permettant des améliorations durables à long terme. Malgré l’absence de labels dans les données utilisées, Vision-Zero atteint des performances de pointe sur des tâches de raisonnement, de réponse à des questions sur des graphiques et d’understanding centré sur la vision, dépassant ainsi les méthodes traditionnelles basées sur l’annotation. Les modèles et le code source sont disponibles à l’adresse suivante : https://github.com/wangqinsi1/Vision-Zero.