6 个月前

摘要

本文提出了一项全新的多模态拼图求解任务，该任务以视觉问答（Visual Question Answering, VQA）为背景框架。为此，我们构建了一个名为AlgoPuzzleVQA的新数据集，旨在挑战并评估多模态语言模型在解决需要同时具备视觉理解、语言理解与复杂算法推理能力的算法类拼图问题方面的性能。所设计的拼图涵盖广泛的数学与算法主题，包括布尔逻辑、组合数学、图论、优化问题、搜索算法等，旨在揭示视觉信息解析能力与算法问题求解能力之间的差距。该数据集通过人工编写的代码自动生成，确保所有拼图均具有精确解，且解可通过算法直接推导得出，无需繁琐的人工计算。这一机制使得数据集在推理复杂度和规模上具备无限扩展的潜力。我们的实验研究发现，当前大型语言模型（如GPT-4V和Gemini）在拼图求解任务中表现有限，在大量拼图问题中，其在多项选择问答设置下的表现接近随机猜测水平。上述结果凸显了在解决复杂推理问题时，将视觉信息、语言理解与算法知识有效融合所面临的重大挑战，为未来多模态认知模型的发展指明了关键方向。

源 PDF