Exposer les faiblesses des métriques d'évaluation des modèles générateurs et leur traitement injuste des modèles de diffusion

Nous étudions systématiquement une large variété de modèles génératifs, couvrant des jeux de données d’images sémantiquement divers, afin de mieux comprendre et améliorer les extracteurs de caractéristiques et les métriques utilisées pour les évaluer. En appliquant les meilleures pratiques de la psychophysique, nous mesurons la perception humaine de la réalisme des images générées à l’aide de l’expérience la plus vaste jamais réalisée pour évaluer les modèles génératifs à ce jour. Nous constatons qu’aucune métrique existante ne présente une corrélation forte avec les évaluations humaines. En comparant 17 métriques modernes pour évaluer les performances globales, la fidélité, la diversité, la rareté et la mémoire des modèles génératifs, nous constatons que le réalisme perceptuel de pointe des modèles à diffusion, tel que jugé par les humains, n’est pas correctement reflété par les métriques couramment rapportées, telles que le FID. Cette divergence ne s’explique pas par la diversité des échantillons générés, bien qu’un facteur soit une dépendance excessive à Inception-V3. Nous corrigeons ces limites à travers une étude d’extracteurs de caractéristiques auto-supervisés alternatifs, montrant que l’information sémantique encodée par chaque réseau dépend fortement de sa procédure d’entraînement, et démontrant que DINOv2-ViT-L/14 permet une évaluation bien plus riche des modèles génératifs. Ensuite, nous explorons la mémoire des données d’entraînement et constatons que les modèles génératifs mémorisent effectivement des exemples d’entraînement sur des jeux de données simples et plus petits comme CIFAR10, mais pas nécessairement sur des jeux de données plus complexes comme ImageNet. Toutefois, nos expériences montrent que les métriques actuelles ne détectent pas correctement la mémoire : aucune métrique décrite dans la littérature ne parvient à distinguer la mémoire d’autres phénomènes, tels que le sous-apprentissage ou le rétrécissement des modes. Pour faciliter le développement futur des modèles génératifs et de leurs méthodes d’évaluation, nous mettons gratuitement à disposition sur GitHub (https://github.com/layer6ai-labs/dgm-eval) l’ensemble des jeux de données d’images générées, les données d’évaluation humaine, ainsi qu’une bibliothèque modulaire permettant de calculer les 17 métriques courantes pour 9 encodeurs différents.