Command Palette

Search for a command to run...

1 个月前

GenExam:跨学科文本到图像测评

Zhaokai Wang Penghao Yin Xiangyu Zhao Changyao Tian Yu Qiao et al

GenExam:跨学科文本到图像测评

摘要

考试是衡量专家级智能的核心手段,要求综合运用理解、推理与生成能力。现有的考试类评测基准主要聚焦于理解与推理任务,而当前主流的评测基准则侧重于展现世界知识与视觉概念,却忽视了对严格绘图类考试的评估。为此,我们提出了GenExam——首个面向多学科文本到图像生成的考试基准。该基准涵盖10个学科领域,共包含1,000个样本,其考试式提示遵循四级分类体系进行组织。每个题目均配有真实答案图像及细粒度评分点,以实现对语义正确性与视觉合理性的精准评估。实验结果表明,即便是最先进的模型如GPT-Image-1和Gemini-2.5-Flash-Image,严格得分也均低于15%,而大多数模型得分几乎为0%,充分体现了本基准所面临的巨大挑战。通过将图像生成视为一种考试任务,GenExam为模型整合知识、推理与生成能力提供了严格的评估框架,为迈向通用人工智能(AGI)提供了重要启示。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供