HyperAIHyperAI

Command Palette

Search for a command to run...

ThinkMorph : Propriétés émergentes dans le raisonnement en chaîne de pensée multimodal entrelacé

Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

Résumé

Le raisonnement multimodal exige une coordination itérative entre le langage et la vision, mais il reste incertain ce qui constitue une chaîne de pensée entrelacée significative. Nous proposons que les pensées textuelles et visuelles agissent comme des modalités complémentaires, plutôt que isomorphes, s’aidant mutuellement à progresser dans le raisonnement. Guidé par ce principe, nous avons conçu ThinkMorph, un modèle unifié entraîné de manière fine sur 24 000 traces de raisonnement entrelacées de haute qualité, couvrant des tâches présentant divers degrés d’engagement visuel. ThinkMorph apprend à générer des étapes successives de raisonnement texte-image, qui manipulent concrètement le contenu visuel tout en maintenant une logique verbale cohérente. Ce modèle obtient des gains importants sur des benchmarks centrés sur la vision (34,7 % en moyenne par rapport au modèle de base) et se généralise à des tâches hors domaine, atteignant ou dépassant les performances de modèles VLM plus grands et propriétaires. Au-delà de la performance, ThinkMorph manifeste une intelligence multimodale émergente, incluant des compétences inédites en manipulation visuelle, un passage adaptatif entre modes de raisonnement, ainsi qu’une meilleure évolution à l’épreuve (test-time scaling) grâce à des pensées multimodales diversifiées. Ces résultats suggèrent des directions prometteuses pour caractériser les capacités émergentes des modèles unifiés dans le domaine du raisonnement multimodal.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
ThinkMorph : Propriétés émergentes dans le raisonnement en chaîne de pensée multimodal entrelacé | Articles | HyperAI