il y a 2 mois

Résumé

Bien que les grands modèles multimodaux (LMMs) aient fait des progrès significatifs, ils restent largement centrés sur le texte, s’appuyant sur le langage comme modalité fondamentale pour le raisonnement. En conséquence, leur capacité à traiter des tâches de raisonnement essentiellement visuelles demeure limitée. Des approches récentes ont cherché à pallier ce défaut en supervisant les étapes visuelles intermédiaires à l’aide d’images auxiliaires, de cartes de profondeur ou de morceaux d’image. Toutefois, ces stratégies imposent des prioris restrictifs quant’à l’apparence des abstractions visuelles « utiles », entraînent des coûts d’annotation élevés et peinent à généraliser entre les tâches. Pour surmonter cette limitation critique, nous proposons un mécanisme indépendant de la tâche, qui forme les LMMs à découvrir et à utiliser des tokens de raisonnement visuel sans supervision explicite. Ces tokens effectuent une attention globale et ré-encodent l’image de manière adaptative à la tâche, permettant au modèle d’extraire efficacement les informations visuelles pertinentes sans nécessiter de supervision manuelle. Notre approche surpasser directement le fine-tuning traditionnel et atteint des résultats de pointe sur une large gamme de tâches centrées sur la vision — y compris celles où les abstractions intermédiaires sont difficiles à spécifier — tout en se généralisant également à l’instruction tuning multi-tâches.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Représentation Multimodale

LLM

Compréhension D'images

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 2 mois

Représentation Multimodale

LLM

Compréhension D'images

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Raisonnement visuel implicite latent

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement visuel implicite latent

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Raisonnement visuel implicite latent

Kelvin Li Chuyi Shang Leonid Karlinsky Rogerio Feris Trevor Darrell Roei Herzig

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters