GenEval 2:应对文本到图像评估中的基准漂移问题
GenEval 2:应对文本到图像评估中的基准漂移问题
Amita Kamath Kai-Wei Chang Ranjay Krishna Luke Zettlemoyer Yushi Hu Marjan Ghazvininejad
Abstract
自动化文本到图像(Text-to-Image, T2I)模型的评估面临巨大挑战:必须依赖一个判别模型来评分生成结果的准确性,同时测试提示(test prompts)需精心设计,以确保对当前T2I模型具有足够挑战性,但对判别模型本身则不应构成困难。我们指出,满足这些约束条件可能导致基准测试随时间发生“基准漂移”(benchmark drift)——即静态的评估标准无法跟上新模型能力的演进。我们发现,目前最流行的T2I基准之一GenEval正面临这一严重问题。尽管GenEval在发布之初与人类判断高度一致,但随着时间推移,其评估结果已显著偏离人类认知,当前模型在该基准上的绝对误差最高达17.7%。这一程度的漂移强烈表明,GenEval早已被当前模型“饱和”,我们通过一项大规模人类评估研究进一步验证了这一点。为弥补这一评估空白,我们提出了新一代基准GenEval 2,其在基础视觉概念的覆盖范围和组合复杂度方面均有显著提升,实证表明该基准对当前T2I模型更具挑战性。同时,我们引入了一种新的评估方法——Soft-TIFA,该方法通过融合对基础视觉元素的判断来综合评估生成质量。我们证明,Soft-TIFA在与人类判断的一致性方面优于现有方法(如VQAScore等整体性判别模型),并认为其在长期中更不容易发生与人类对齐的漂移。尽管我们期望GenEval 2能成为未来多年内可靠的评估基准,但避免基准漂移远非易事。更广泛而言,本研究强调了对T2I模型及其相关自动化评估基准进行持续审计与迭代优化的重要性。
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.