Command Palette
Search for a command to run...
ThinkMorph : Propriétés émergentes dans le raisonnement en chaîne de pensée multimodal entrelacé
Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

Résumé
Le raisonnement multimodal exige une coordination itérative entre le langage et la vision, mais il reste incertain ce qui constitue une chaîne de pensée entrelacée significative. Nous proposons que les pensées textuelles et visuelles agissent comme des modalités complémentaires, plutôt que isomorphes, s’aidant mutuellement à progresser dans le raisonnement. Guidé par ce principe, nous avons conçu ThinkMorph, un modèle unifié entraîné de manière fine sur 24 000 traces de raisonnement entrelacées de haute qualité, couvrant des tâches présentant divers degrés d’engagement visuel. ThinkMorph apprend à générer des étapes successives de raisonnement texte-image, qui manipulent concrètement le contenu visuel tout en maintenant une logique verbale cohérente. Ce modèle obtient des gains importants sur des benchmarks centrés sur la vision (34,7 % en moyenne par rapport au modèle de base) et se généralise à des tâches hors domaine, atteignant ou dépassant les performances de modèles VLM plus grands et propriétaires. Au-delà de la performance, ThinkMorph manifeste une intelligence multimodale émergente, incluant des compétences inédites en manipulation visuelle, un passage adaptatif entre modes de raisonnement, ainsi qu’une meilleure évolution à l’épreuve (test-time scaling) grâce à des pensées multimodales diversifiées. Ces résultats suggèrent des directions prometteuses pour caractériser les capacités émergentes des modèles unifiés dans le domaine du raisonnement multimodal.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.