Command Palette
Search for a command to run...

摘要
我们提出MIRA,一个全新的基准测试,用于评估模型在生成中间视觉图像对成功推理至关重要的场景下的表现。与仅依赖文本的传统思维链(CoT)方法不同,MIRA中的任务要求模型生成并利用中间视觉图像——如草图、结构图或路径图——来引导其推理过程。这一设置高度模拟了人类通过“以画促思”解决复杂问题的思维模式。为确保评估数据的高质量,我们构建了546个多模态问题,每个问题均配有中间视觉图像和最终答案。此外,我们还提出了一套统一的MIRA评估协议,涵盖三个层次的输入方式:仅含图像和问题的直接输入、仅含文本的思维链输入(附带图像和思维提示),以及包含标注图像线索与文本思维提示的视觉思维链(Visual-CoT)输入。为探明模型在本基准上的性能上限,我们还报告了在不同k值设置下的pass@k和多数投票准确率。实验结果表明,现有多模态大语言模型,包括性能最强的私有模型以及表现优异的开源模型,在仅依赖文本提示时表现不佳。然而,当提供中间视觉线索时,模型性能均得到持续提升,所有模型与任务的平均相对增益达33.7%。我们进一步通过扩大搜索空间并设计与Visual-CoT对齐的文本提示来探查性能上限,但其提升幅度相较于我们的Visual-CoT设置仍十分有限。这些结果充分凸显了想象中的视觉信息在MIRA任务中实现有效推理的关键作用。