HyperAI
il y a 11 jours

Penser avec des images pour le raisonnement multimodal : fondements, méthodes et frontières futures

Zhaochen Su; Peng Xia; Hangyu Guo; Zhenhua Liu; Yan Ma; Xiaoye Qu; Jiaqi Liu; Yanshu Li; Kaide Zeng; Zhengyuan Yang; Linjie Li; Yu Cheng; Heng Ji; Junxian He; Yi R.
Penser avec des images pour le raisonnement multimodal : fondements, méthodes et frontières futures
Résumé

Les récentes avancées dans le raisonnement multimodal ont été considérablement stimulées par la chaîne de pensée textuelle (Chain-of-Thought, CoT), un paradigme où les modèles mènent leur raisonnement au sein du langage. Cependant, cette approche centrée sur le texte traite la vision comme un contexte statique et initial, créant une « lacune sémantique » fondamentale entre les données perceptuelles riches et la pensée symbolique discrète. La cognition humaine dépasse souvent le langage, en utilisant la vision comme un tableau mental dynamique. Une évolution similaire se dessine maintenant dans l'IA, marquant un changement de paradigme fondamental des modèles qui ne font que penser aux images à ceux qui peuvent véritablement penser avec les images. Ce nouveau paradigme est caractérisé par des modèles qui exploitent l'information visuelle comme étapes intermédiaires dans leur processus de pensée, transformant ainsi la vision d'une entrée passive en un espace cognitif dynamique et manipulable. Dans cette revue, nous traçons cette évolution de l'intelligence selon une trajectoire d'autonomie cognitive croissante, qui se déroule en trois étapes clés : de l'exploration des outils externes, à travers la manipulation programmée, jusqu'à l'imagination intrinsèque. Pour structurer ce domaine en rapide évolution, notre revue apporte quatre contributions principales. (1) Nous établissons les principes fondamentaux du paradigme de la pensée avec les images et son cadre en trois étapes. (2) Nous fournissons une revue exhaustive des méthodes centrales qui définissent chaque étape de ce parcours. (3) Nous analysons le paysage critique des bancs d'essai d'évaluation et des applications transformatrices. (4) Nous identifions les défis importants et esquissons des orientations futures prometteuses. En offrant cet aperçu structuré, nous visons à fournir une carte claire pour les recherches futures vers une IA multimodale plus puissante et alignée sur l'humain.