17 天前

语言模型是谜题天才吗?算法谜题揭示多模态推理中的严峻挑战

Deepanway Ghosal, Vernon Toh Yan Han, Chia Yew Ken, Soujanya Poria
语言模型是谜题天才吗?算法谜题揭示多模态推理中的严峻挑战
摘要

本文提出了一项全新的多模态拼图求解任务,该任务以视觉问答(Visual Question Answering, VQA)为背景框架。为此,我们构建了一个名为AlgoPuzzleVQA的新数据集,旨在挑战并评估多模态语言模型在解决需要同时具备视觉理解、语言理解与复杂算法推理能力的算法类拼图问题方面的性能。所设计的拼图涵盖广泛的数学与算法主题,包括布尔逻辑、组合数学、图论、优化问题、搜索算法等,旨在揭示视觉信息解析能力与算法问题求解能力之间的差距。该数据集通过人工编写的代码自动生成,确保所有拼图均具有精确解,且解可通过算法直接推导得出,无需繁琐的人工计算。这一机制使得数据集在推理复杂度和规模上具备无限扩展的潜力。我们的实验研究发现,当前大型语言模型(如GPT-4V和Gemini)在拼图求解任务中表现有限,在大量拼图问题中,其在多项选择问答设置下的表现接近随机猜测水平。上述结果凸显了在解决复杂推理问题时,将视觉信息、语言理解与算法知识有效融合所面临的重大挑战,为未来多模态认知模型的发展指明了关键方向。

语言模型是谜题天才吗?算法谜题揭示多模态推理中的严峻挑战 | 最新论文 | HyperAI超神经