
摘要
大型语言模型(LLMs)通过利用链式思维(CoT)提示生成中间推理链作为推断答案的依据,在复杂推理任务中展示了令人印象深刻的表现。然而,现有的CoT研究主要集中在语言模态上。我们提出了一种多模态链式思维(Multimodal-CoT)方法,该方法将语言(文本)和视觉(图像)模态融入一个两阶段框架,将推理依据生成与答案推断分离。这样一来,答案推断可以利用基于多模态信息生成的更好推理依据。在ScienceQA和A-OKVQA基准数据集上的实验结果表明了我们所提出方法的有效性。使用Multimodal-CoT后,参数量不足10亿的模型在ScienceQA基准测试中达到了最先进的性能。我们的分析表明,Multimodal-CoT具有减轻幻觉和提高收敛速度的优势。代码已公开发布在https://github.com/amazon-science/mm-cot。