GenEval 2 : Traitement du décalage des référentiels dans l'évaluation des modèles text-to-image
GenEval 2 : Traitement du décalage des référentiels dans l'évaluation des modèles text-to-image
Amita Kamath Kai-Wei Chang Ranjay Krishna Luke Zettlemoyer Yushi Hu Marjan Ghazvininejad
Abstract
L’évaluation automatisée des modèles de génération d’images à partir de texte (T2I) est un défi complexe : elle nécessite l’utilisation d’un modèle-juge pour évaluer la correction des sorties, ainsi qu’un choix soigneux des prompts de test afin qu’ils soient exigeants pour les modèles T2I actuels, mais pas pour le modèle-juge lui-même. Nous soutenons que la satisfaction de ces contraintes peut entraîner un décalage des benchmarks au fil du temps, lorsque les benchmarks statiques perdent leur capacité à suivre les progrès des modèles plus récents. Nous montrons que ce décalage est un problème majeur pour GenEval, l’un des benchmarks T2I les plus populaires. Bien qu’initialement bien aligné avec les jugements humains au moment de sa publication, GenEval s’est éloigné considérablement de ces jugements au fil du temps — entraînant une erreur absolue pouvant atteindre 17,7 % pour les modèles actuels. Ce niveau de décalage suggère fortement que GenEval est saturé depuis longtemps, ce que nous confirmons à travers une étude humaine à grande échelle. Pour combler ce manque dans l’évaluation, nous introduisons un nouveau benchmark, GenEval 2, qui offre une couverture améliorée des concepts visuels élémentaires et un degré plus élevé de compositionnalité, et que nous montrons être plus exigeant pour les modèles actuels. Nous proposons également Soft-TIFA, une méthode d’évaluation pour GenEval 2 qui combine les jugements portant sur des primitives visuelles ; nous démontrons qu’elle est mieux alignée avec les jugements humains et arguons qu’elle est moins sujette à dériver de cet alignement au fil du temps (par rapport à des juges plus holistiques comme VQAScore). Bien que nous espérions que GenEval 2 puisse servir de benchmark solide pendant de nombreuses années, éviter le décalage des benchmarks reste loin d’être garanti. Plus généralement, notre travail met en lumière l’importance d’audits continus et d’améliorations régulières pour les benchmarks d’évaluation automatisée des modèles T2I et des systèmes apparentés.
Build AI with AI
From idea to launch — accelerate your AI development with free AI co-coding, out-of-the-box environment and best price of GPUs.