
摘要
我们提出了一项新的基准测试,用于评估多模态大语言模型在解谜题(rebus puzzles)方面的性能。该数据集包含333个原创的图像类文字游戏实例,涵盖13个类别,如电影、作曲家、主要城市和食物等。要在此基准上准确识别谜题所暗示的词语或短语,模型必须综合运用图像识别、字符串操作、假设检验、多步推理以及对人类认知的理解,从而构成一项复杂且多模态的能力评估。实验结果表明,GPT-4o在所有模型中显著领先,其次是其他专有模型,整体表现优于所有被评估的模型。然而,即使是最优模型的最终准确率也仅为42%,在难度较高的谜题上更是降至仅7%,凸显出当前模型在推理能力方面仍需大幅提升。此外,模型极少能完全理解谜题的各个组成部分,且几乎无法对正确答案进行事后解释。因此,本基准测试可有效揭示多模态大语言模型在知识储备与推理能力方面存在的重大短板。