HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement visuel implicite latent

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Abstract

Bien que les grands modèles multimodaux (LMMs) aient fait des progrès significatifs, ils restent largement centrés sur le texte, s’appuyant sur le langage comme modalité fondamentale pour le raisonnement. En conséquence, leur capacité à traiter des tâches de raisonnement essentiellement visuelles demeure limitée. Des approches récentes ont cherché à pallier ce défaut en supervisant les étapes visuelles intermédiaires à l’aide d’images auxiliaires, de cartes de profondeur ou de morceaux d’image. Toutefois, ces stratégies imposent des prioris restrictifs quant’à l’apparence des abstractions visuelles « utiles », entraînent des coûts d’annotation élevés et peinent à généraliser entre les tâches. Pour surmonter cette limitation critique, nous proposons un mécanisme indépendant de la tâche, qui forme les LMMs à découvrir et à utiliser des tokens de raisonnement visuel sans supervision explicite. Ces tokens effectuent une attention globale et ré-encodent l’image de manière adaptative à la tâche, permettant au modèle d’extraire efficacement les informations visuelles pertinentes sans nécessiter de supervision manuelle. Notre approche surpasser directement le fine-tuning traditionnel et atteint des résultats de pointe sur une large gamme de tâches centrées sur la vision — y compris celles où les abstractions intermédiaires sont difficiles à spécifier — tout en se généralisant également à l’instruction tuning multi-tâches.


Build AI with AI

From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.

AI Co-coding
Ready-to-use GPUs
Best Pricing

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonnement visuel implicite latent | Papers | HyperAI