HyperAI超神经

OneIG-Bench: 图像生成的全方位细致评估

Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen
发布日期: 6/10/2025
OneIG-Bench: 图像生成的全方位细致评估
摘要

文本到图像(Text-to-image, T2I)模型因其能够生成高质量且与文本提示对齐的图像而受到了广泛关注。然而,T2I 模型的迅速发展揭示了早期基准测试的局限性,这些基准测试缺乏全面的评估,例如在推理能力、文本渲染和风格方面的评估。特别是,最近的最先进模型凭借其丰富的知识建模能力,在需要强大推理能力的图像生成问题上展示了令人鼓舞的结果,但现有的评估系统尚未充分应对这一前沿领域。为了系统地解决这些差距,我们引入了 OneIG-Bench,这是一个精心设计的综合基准框架,用于对 T2I 模型进行细粒度评估,涵盖多个维度,包括提示-图像对齐、文本渲染精度、推理生成的内容、风格化和多样性。通过结构化的评估,该基准框架能够深入分析模型性能,帮助研究人员和实践者识别图像生成全流程中的优势和瓶颈。具体而言,OneIG-Bench 通过允许用户专注于特定的评估子集来实现灵活评估。用户不必为所有提示生成图像,只需为选定维度相关的提示生成图像并完成相应的评估即可。我们的代码库和数据集现已公开发布,以促进 T2I 研究社区内的可重复评估研究和跨模型比较。