Command Palette
Search for a command to run...
Raisonnement visuel implicite latent
Raisonnement visuel implicite latent
Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig
Abstract
Bien que les grands modèles multimodaux (LMMs) aient fait des progrès significatifs, ils restent largement centrés sur le texte, s’appuyant sur le langage comme modalité fondamentale pour le raisonnement. En conséquence, leur capacité à traiter des tâches de raisonnement essentiellement visuelles demeure limitée. Des approches récentes ont cherché à pallier ce défaut en supervisant les étapes visuelles intermédiaires à l’aide d’images auxiliaires, de cartes de profondeur ou de morceaux d’image. Toutefois, ces stratégies imposent des prioris restrictifs quant’à l’apparence des abstractions visuelles « utiles », entraînent des coûts d’annotation élevés et peinent à généraliser entre les tâches. Pour surmonter cette limitation critique, nous proposons un mécanisme indépendant de la tâche, qui forme les LMMs à découvrir et à utiliser des tokens de raisonnement visuel sans supervision explicite. Ces tokens effectuent une attention globale et ré-encodent l’image de manière adaptative à la tâche, permettant au modèle d’extraire efficacement les informations visuelles pertinentes sans nécessiter de supervision manuelle. Notre approche surpasser directement le fine-tuning traditionnel et atteint des résultats de pointe sur une large gamme de tâches centrées sur la vision — y compris celles où les abstractions intermédiaires sont difficiles à spécifier — tout en se généralisant également à l’instruction tuning multi-tâches.