HyperAIHyperAI

Command Palette

Search for a command to run...

Raisonnement visuel implicite latent

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Résumé

Bien que les grands modèles multimodaux (LMMs) aient fait des progrès significatifs, ils restent largement centrés sur le texte, s’appuyant sur le langage comme modalité fondamentale pour le raisonnement. En conséquence, leur capacité à traiter des tâches de raisonnement essentiellement visuelles demeure limitée. Des approches récentes ont cherché à pallier ce défaut en supervisant les étapes visuelles intermédiaires à l’aide d’images auxiliaires, de cartes de profondeur ou de morceaux d’image. Toutefois, ces stratégies imposent des prioris restrictifs quant’à l’apparence des abstractions visuelles « utiles », entraînent des coûts d’annotation élevés et peinent à généraliser entre les tâches. Pour surmonter cette limitation critique, nous proposons un mécanisme indépendant de la tâche, qui forme les LMMs à découvrir et à utiliser des tokens de raisonnement visuel sans supervision explicite. Ces tokens effectuent une attention globale et ré-encodent l’image de manière adaptative à la tâche, permettant au modèle d’extraire efficacement les informations visuelles pertinentes sans nécessiter de supervision manuelle. Notre approche surpasser directement le fine-tuning traditionnel et atteint des résultats de pointe sur une large gamme de tâches centrées sur la vision — y compris celles où les abstractions intermédiaires sont difficiles à spécifier — tout en se généralisant également à l’instruction tuning multi-tâches.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonnement visuel implicite latent | Articles | HyperAI