5 个月前

计算机视觉

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

摘要

考试是衡量专家级智能的核心手段，要求综合运用理解、推理与生成能力。现有的考试类评测基准主要聚焦于理解与推理任务，而当前主流的评测基准则侧重于展现世界知识与视觉概念，却忽视了对严格绘图类考试的评估。为此，我们提出了GenExam——首个面向多学科文本到图像生成的考试基准。该基准涵盖10个学科领域，共包含1,000个样本，其考试式提示遵循四级分类体系进行组织。每个题目均配有真实答案图像及细粒度评分点，以实现对语义正确性与视觉合理性的精准评估。实验结果表明，即便是最先进的模型如GPT-Image-1和Gemini-2.5-Flash-Image，严格得分也均低于15%，而大多数模型得分几乎为0%，充分体现了本基准所面临的巨大挑战。通过将图像生成视为一种考试任务，GenExam为模型整合知识、推理与生成能力提供了严格的评估框架，为迈向通用人工智能（AGI）提供了重要启示。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

5 个月前

计算机视觉

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

摘要

考试是衡量专家级智能的核心手段，要求综合运用理解、推理与生成能力。现有的考试类评测基准主要聚焦于理解与推理任务，而当前主流的评测基准则侧重于展现世界知识与视觉概念，却忽视了对严格绘图类考试的评估。为此，我们提出了GenExam——首个面向多学科文本到图像生成的考试基准。该基准涵盖10个学科领域，共包含1,000个样本，其考试式提示遵循四级分类体系进行组织。每个题目均配有真实答案图像及细粒度评分点，以实现对语义正确性与视觉合理性的精准评估。实验结果表明，即便是最先进的模型如GPT-Image-1和Gemini-2.5-Flash-Image，严格得分也均低于15%，而大多数模型得分几乎为0%，充分体现了本基准所面临的巨大挑战。通过将图像生成视为一种考试任务，GenExam为模型整合知识、推理与生成能力提供了严格的评估框架，为迈向通用人工智能（AGI）提供了重要启示。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

GenExam：跨学科文本到图像测评 | 论文 | HyperAI超神经