Command Palette
Search for a command to run...
Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

摘要
考试是衡量专家级智能的核心手段,要求综合运用理解、推理与生成能力。现有的考试类评测基准主要聚焦于理解与推理任务,而当前主流的评测基准则侧重于展现世界知识与视觉概念,却忽视了对严格绘图类考试的评估。为此,我们提出了GenExam——首个面向多学科文本到图像生成的考试基准。该基准涵盖10个学科领域,共包含1,000个样本,其考试式提示遵循四级分类体系进行组织。每个题目均配有真实答案图像及细粒度评分点,以实现对语义正确性与视觉合理性的精准评估。实验结果表明,即便是最先进的模型如GPT-Image-1和Gemini-2.5-Flash-Image,严格得分也均低于15%,而大多数模型得分几乎为0%,充分体现了本基准所面临的巨大挑战。通过将图像生成视为一种考试任务,GenExam为模型整合知识、推理与生成能力提供了严格的评估框架,为迈向通用人工智能(AGI)提供了重要启示。