Command Palette
Search for a command to run...
Jiawei Gu Yunzhuo Hao Huichen Will Wang Linjie Li Michael Qizhe Shieh Yejin Choi Ranjay Krishna Yu Cheng

要約
多モーダル推論は言語と視覚の間で反復的な調整を必要とするが、意味のある交互に展開された思考の連鎖とは何かについてはまだ明確でない。本研究では、テキストと画像の思考が互いに補完的であるべきであり、同型的(同一構造的)であるべきではないと仮定する。この原則に従い、視覚的関与度が異なる複数のタスクにまたがる24,000件の高品質な交互推論トレースを用いて微調整された統合モデル「ThinkMorph」を構築した。ThinkMorphは、視覚的コンテンツを具体的に操作しつつ、一貫した言語的論理を維持するように、段階的にテキストと画像を用いた推論ステップを生成する能力を学習する。このモデルは視覚中心のベンチマークにおいて大幅な性能向上を達成(ベースモデル比平均34.7%の向上)し、ドメイン外のタスクにも一般化可能であり、より大規模かつ非公開のVLM(視覚言語モデル)と同等またはそれを上回る性能を示した。性能以上の点で、ThinkMorphは、未体験の視覚的操作スキルや、推論モード間の適応的切り替え、多様な多モーダルな思考を活用したテスト時スケーリングの向上といった、Emergent(出現的)な多モーダル知能を示した。これらの結果は、統合型モデルが多モーダル推論において発現する能力を定性的に捉えるための有望な方向性を示唆している。