HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 17 jours

V-Thinker : Pensée interactive avec des images

V-Thinker : Pensée interactive avec des images

Résumé

Faire en sorte que les grands modèles multimodaux (LMM) intègrent profondément l’interaction visuelle avec des capacités de raisonnement à long terme reste un défi persistant dans ce domaine. Les avancées récentes en matière de raisonnement centré sur la vision explorent un paradigme prometteur, « penser avec les images », pour les LMM, marquant un changement de raisonnement assisté par l’image vers un raisonnement interactif basé sur l’image. Bien que ce progrès majeur permette aux modèles de se concentrer sur des régions images fines, les progrès restent freinés par des espaces d’outils visuels limités et des conceptions de flux de travail spécifiques à une tâche. Pour combler cet écart, nous proposons V-Thinker, un assistant généraliste pour le raisonnement multimodal, qui permet un raisonnement interactif centré sur la vision grâce à un apprentissage par renforcement end-to-end. V-Thinker se compose de deux composants clés : (1) un « flywheel d’évolution des données » qui synthétise, évolue et vérifie automatiquement des jeux de données pour le raisonnement interactif selon trois dimensions — diversité, qualité et difficulté ; et (2) un « programme d’entraînement progressif visuel » qui aligne d’abord la perception par une supervision au niveau des points, puis intègre le raisonnement interactif via un cadre de renforcement en deux étapes. En outre, nous introduisons VTBench, un benchmark vérifié par des experts, spécifiquement conçu pour les tâches de raisonnement interactif centré sur la vision. Des expériences étendues démontrent que V-Thinker surpasse de manière cohérente les modèles de base LMM performants, tant dans des scénarios de raisonnement général que dans des scénarios interactifs, offrant ainsi des perspectives précieuses pour l’avancement des applications de raisonnement interactif basé sur l’image.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
V-Thinker : Pensée interactive avec des images | Articles de recherche | HyperAI