DreamBench++ 是一个由清华大学、西安交通大学、伊利诺伊厄巴纳-香槟分校、中科院、旷视的研究人员于 2024 年共同推出的新基准,旨在解决个性化图像生成技术评估中存在的问题。它通过引入支持多模态的 GPT-4o,实现了与人类偏好的深度对齐和自动化评估,并推出了一个更为全面和多元化的数据集。
DreamBench++ 的主要特点包括:
- 自动化评估:利用 GPT-4o 进行自动化评估,减少了人工评估的时间和成本。
- 人类偏好对齐:通过设计精心的提示词 (prompt),让 GPT-4o 在评估过程中像人类一样思考,确保评估结果与人类直觉和偏好一致。
- 全面的数据集:构建了包含 200 个关键词的个性化数据集,涵盖物体、活物和风格化图片三种类型,图片来源包括 Unsplash 、 Rawpixel 和 Google Image Search,挑选了背景干净、主体占比大的图片,以提高图像的清晰度和识别度。
- 实验结果:对 7 种不同的图像生成方法进行了评估,结果显示 DreamBench++ 在图像相似性和文本遵循方面的评分与人类评价高度一致,一致性分别达到了 79.64% 和 93.18%,比现有的 DINO score 和 CLIP score 高出 50% 以上。
DreamBench++ 的推出为个性化图像生成技术的评估提供了新的工具和方法,有助于推动该领域的进一步发展。相关论文和数据集已经公开,供研究者和开发者使用和参考。