HyperAI超神经

感知、推理、思考与规划:大规模多模态推理模型综述

Yunxin Li, Zhenyu Liu, Zitao Li, Xuanyu Zhang, Zhenran Xu, Xinyu Chen, Haoyuan Shi, Shenyuan Jiang, Xintong Wang, Jifang Wang, Shouzheng Huang, Xinping Zhao, Borui Jiang, Lanqing Hong, Longyue Wang, Zhuotao Tian, Baoxing Huai, Wenhan Luo, Weihua Luo, Zheng Zhang, Baotian Hu, Min Zhang
发布日期: 5/13/2025
感知、推理、思考与规划:大规模多模态推理模型综述
摘要

推理是智能的核心,塑造了决策、得出结论和跨领域泛化的能⼒。在⼈⼯智能领域,随着系统越来越多地在开放、不确定和多模态环境中运作,推理成为实现稳健和适应性行为的关键。大型多模态推理模型(LMRMs)作为一种有前景的范式应运而生,通过整合文本、图像、音频和视频等多种模态来⽀持复杂的推理能力,旨在实现全面的感知、精准的理解和深入的推理。随着研究的进展,多模态推理已迅速从基于模块化、感知驱动的管道发展到统一的、以语言为中心的框架,这些框架提供了更加连贯的跨模态理解。尽管指令微调和强化学习已经提升了模型的推理能力,但在全模态泛化、推理深度和代理行为方面仍面临重大挑战。为了解决这些问题,我们提出了一个多模态推理研究的全面且结构化的综述,围绕一个反映该领域设计哲学变化和新兴能力的四阶段发展路线图组织。首先,我们回顾了早期基于任务特定模块的努力,在表示、对齐和融合的不同阶段隐含地嵌入了推理过程。接下来,我们探讨了最近将推理统⼀到多模态大语言模型(LLMs)中的方法,如多模态思维链(MCoT)和多模态强化学习的进步使得推理链条更加丰富和结构化。最后,结合OpenAI O3 和O4-mini 在具有挑战性的基准测试和实验案例中的实证洞见,我们讨论了原生大型多模态推理模型(N-LMRMs)的概念方向,这些模型旨在支持复杂现实环境中的可扩展、代理性和适应性推理与规划。