17 天前

揭示生成模型评估指标的缺陷及其对扩散模型的不公平对待

George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T. Taylor, Gabriel Loaiza-Ganem
揭示生成模型评估指标的缺陷及其对扩散模型的不公平对待
摘要

我们系统性地研究了涵盖语义多样性图像数据集的多种生成模型,旨在深入理解并改进用于评估这些模型的特征提取器与评价指标。基于心理物理学的最佳实践,我们开展了迄今为止规模最大的生成模型评估实验,通过人类感知实验测量生成样本的图像真实感,结果发现:目前任何现有指标均未与人类评价形成强相关性。在与17种现代评估指标(用于衡量生成模型的整体性能、保真度、多样性、稀有性及记忆现象)的对比中,我们发现:尽管人类评估认为扩散模型在感知真实感方面处于最先进水平,但这一表现并未在FID等常用指标中得到体现。该差异并非由生成样本的多样性引起,但部分原因在于对Inception-V3的过度依赖。为解决上述缺陷,我们进一步研究了替代性的自监督特征提取器,发现单个网络所编码的语义信息强烈依赖于其训练过程,并证实DINOv2-ViT-L/14能够实现对生成模型更为丰富的评估能力。随后,我们深入探究了数据记忆现象,发现生成模型在CIFAR10等简单小型数据集上确实会记忆训练样本,但在ImageNet等更复杂的大型数据集上则未必如此。然而,我们的实验表明,当前主流评估指标无法有效检测记忆现象:文献中现有指标均无法将记忆现象与其他现象(如欠拟合或模式坍缩)区分开来。为推动生成模型及其评估方法的进一步发展,我们已将所有生成图像数据集、人类评估数据,以及一个模块化工具库公开发布,该工具库支持基于9种不同编码器计算17种常用评估指标。相关资源可访问:https://github.com/layer6ai-labs/dgm-eval。