3 个月前
视觉推理优化中的图像思维提示方法研究:面向多模态大语言模型
Qiji Zhou, Ruochen Zhou, Zike Hu, Panzhong Lu, Siyang Gao, Yue Zhang

摘要
近年来,思维链(Chain-of-Thought, CoT)及其相关基于推理过程的研究显著提升了大语言模型(Large Language Models, LLMs)在复杂推理任务中的表现。随着多模态大语言模型(Multimodal Large Language Models, MLLMs)的不断发展,增强其解决复杂多模态推理问题的能力已成为当前研究的关键前沿。然而,将多模态推理过程融入CoT机制尚未得到充分探索。为此,我们提出了“思维图像”(Image-of-Thought, IoT)提示方法,旨在帮助MLLMs逐步提取视觉推理依据。具体而言,IoT提示方法能够根据输入图像和问题自动设计关键的视觉信息提取操作。在每一步视觉信息的精炼过程中,模型可识别出支持复杂视觉推理问题答案的具体视觉依据。与传统文本思维链不同,IoT同时利用视觉与文本双重推理线索,协助MLLMs更好地理解复杂的多模态信息。实验表明,IoT提示方法显著提升了多种MLLM在不同视觉理解任务中的零样本视觉推理性能。此外,IoT提示生成的逐步视觉特征解释,清晰揭示了模型的视觉推理过程,为分析大模型的多模态认知机制提供了可解释性支持。