11 天前

SelfEval:利用生成模型的判别特性进行评估

Sai Saketh Rambhatla, Ishan Misra
SelfEval:利用生成模型的判别特性进行评估
摘要

我们提出了一种自动化评估文本到图像生成扩散模型文本对齐能力的方法,该方法基于标准的图像-文本识别数据集。我们的方法名为SelfEval,其核心思想是利用生成模型计算在给定文本提示条件下真实图像的似然概率,该似然值可进一步用于在生成模型上执行识别任务。我们在专为多模态图像-文本判别学习设计的标准数据集上评估生成模型,并细致分析其性能的多个方面:属性绑定、颜色识别、计数能力、形状识别以及空间理解能力。现有自动化评估指标通常依赖于外部预训练模型(如CLIP等视觉语言模型VLMs或大语言模型LLMs),且对所采用的具体预训练模型及其固有局限性高度敏感。相比之下,SelfEval避开了这些限制。据我们所知,它是首个在多个生成模型、基准测试和评估指标上,与人工黄金标准评价结果展现出高度一致性的自动化评估指标,能够有效衡量生成结果与文本提示之间的忠实度。此外,SelfEval还揭示出,生成模型在诸如Winoground图像评分等具有挑战性的任务上,其识别性能已达到与判别模型相媲美的水平。我们期望SelfEval能够为扩散模型提供一种简便、可靠的自动化评估手段,推动生成模型质量评估的标准化与可复现性发展。

SelfEval:利用生成模型的判别特性进行评估 | 最新论文 | HyperAI超神经