Command Palette
Search for a command to run...
V-Thinker : Pensée interactive avec des images

Résumé
Faire en sorte que les grands modèles multimodaux (LMM) intègrent profondément l’interaction visuelle avec des capacités de raisonnement à long terme reste un défi persistant dans ce domaine. Les avancées récentes en matière de raisonnement centré sur la vision explorent un paradigme prometteur, « penser avec les images », pour les LMM, marquant un changement de raisonnement assisté par l’image vers un raisonnement interactif basé sur l’image. Bien que ce progrès majeur permette aux modèles de se concentrer sur des régions images fines, les progrès restent freinés par des espaces d’outils visuels limités et des conceptions de flux de travail spécifiques à une tâche. Pour combler cet écart, nous proposons V-Thinker, un assistant généraliste pour le raisonnement multimodal, qui permet un raisonnement interactif centré sur la vision grâce à un apprentissage par renforcement end-to-end. V-Thinker se compose de deux composants clés : (1) un « flywheel d’évolution des données » qui synthétise, évolue et vérifie automatiquement des jeux de données pour le raisonnement interactif selon trois dimensions — diversité, qualité et difficulté ; et (2) un « programme d’entraînement progressif visuel » qui aligne d’abord la perception par une supervision au niveau des points, puis intègre le raisonnement interactif via un cadre de renforcement en deux étapes. En outre, nous introduisons VTBench, un benchmark vérifié par des experts, spécifiquement conçu pour les tâches de raisonnement interactif centré sur la vision. Des expériences étendues démontrent que V-Thinker surpasse de manière cohérente les modèles de base LMM performants, tant dans des scénarios de raisonnement général que dans des scénarios interactifs, offrant ainsi des perspectives précieuses pour l’avancement des applications de raisonnement interactif basé sur l’image.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.