10 days ago
基于图像的多模态推理:基础、方法与未来前沿
Zhaochen Su; Peng Xia; Hangyu Guo; Zhenhua Liu; Yan Ma; Xiaoye Qu; Jiaqi Liu; Yanshu Li; Kaide Zeng; Zhengyuan Yang; Linjie Li; Yu Cheng; Heng Ji; Junxian He; Yi R.

摘要
近期在多模态推理领域的进展显著得益于文本链式思维(Chain-of-Thought, CoT),这是一种模型在语言内部进行推理的范式。然而,这种以文本为中心的方法将视觉视为静态的初始上下文,导致了丰富感知数据与离散符号思维之间存在根本性的“语义鸿沟”。人类认知通常超越语言,利用视觉作为动态的心理草图板。如今,人工智能领域正在经历类似的演变,标志着从仅思考图像的模型向能够真正利用图像进行思考的模型的根本性范式转变。这一新兴范式的特点是模型在其思维过程中将视觉信息作为中间步骤,从而将视觉从被动输入转变为动态、可操作的认知工作空间。在本综述中,我们沿着认知自主性逐渐增强的轨迹绘制了这一智能演化的路径,该路径分为三个关键阶段:从外部工具探索到程序化操作,再到内在想象。为了系统地梳理这一快速发展的领域,我们的综述做出了四项主要贡献。(1)我们确立了图像链式思维范式的基石及其三阶段框架。(2)我们对每个阶段的核心方法进行了全面回顾。(3)我们分析了评估基准和变革性应用的关键格局。(4)我们指出了重大挑战并概述了未来的发展方向。通过提供这一结构化的概览,我们旨在为未来研究提供一个明确的路线图,以实现更强大且与人类更加一致的多模态人工智能。