HyperAI超神経
11日前

画像を用いた多モーダル推論の思考:基礎、手法、および将来のフロンティア

Zhaochen Su; Peng Xia; Hangyu Guo; Zhenhua Liu; Yan Ma; Xiaoye Qu; Jiaqi Liu; Yanshu Li; Kaide Zeng; Zhengyuan Yang; Linjie Li; Yu Cheng; Heng Ji; Junxian He; Yi R.
画像を用いた多モーダル推論の思考:基礎、手法、および将来のフロンティア
要約

最近のマルチモーダル推論における進展は、言語内で推論を行うテキスト中心のチェーン・オブ・ソート(Chain-of-Thought, CoT)というパラダイムによって大きく前進しました。しかし、この言語中心のアプローチは視覚を静的な初期コンテクストとして扱い、豊富な知覚データと離散的な象徴的思考との間に根本的な「意味の隔たり(semantic gap)」を作り出しています。人間の認知はしばしば言語を超えて、視覚を動的な心のスケッチパッドとして利用します。同様の進化が現在AIでも起こっており、画像について考えるだけでなく、画像とともに真正に思考できるモデルへの根本的なパラダイムシフトを示しています。この新興パラダイムは、思考過程の中間段階で視覚情報を活用するモデルによって特徴付けられ、視覚を受動的な入力から能動的かつ操作可能な認知ワークスペースへと変革します。本調査では、この認知の自律性が増す進化経路に沿って三つの主要な段階を追跡します:外部ツール探索からプログラム的操作を通じて内在的想像力へと展開されます。この急速に進化する分野を構造化するために、当調査は四つの主要な貢献を行います。(1) 画像とともに思考するパラダイムとその三段階フレームワークの基本原則を確立します。(2) このロードマップの各段階を特徴付ける核心的方法について包括的なレビューを提供します。(3) 評価ベンチマークと変革的な応用に関する重要な状況分析を行います。(4) 重要な課題を特定し、有望な将来方向性を提示します。この構造化された概要により、より強力で人間にとって適したマルチモーダルAIへの未来研究に対して明確なロードマップを提供することを目指しています。