HPSv3 : Vers un score de préférence humaine à large spectre

L’évaluation des modèles de génération d’images à partir de texte repose sur une correspondance avec la perception humaine, mais les métriques centrées sur l’humain actuelles sont limitées par une couverture de données insuffisante, une extraction de caractéristiques sous-optimale et des fonctions de perte inefficaces. Pour relever ces défis, nous introduisons le Human Preference Score v3 (HPSv3). (1) Nous présentons HPDv3, le premier ensemble de données de préférences humaines à large spectre, intégrant 1,08 million de paires texte-image et 1,17 million de comparaisons par paires annotées issues de modèles génératifs d’état de l’art ainsi que d’images réelles de qualité variée, allant de faible à élevée. (2) Nous proposons un modèle de préférence basé sur un VLM, entraîné à l’aide d’une fonction de perte de classement sensible à l’incertitude, permettant un classement fin. Par ailleurs, nous introduisons Chain-of-Human-Preference (CoHP), une méthode itérative d’amélioration d’image qui renforce la qualité sans nécessiter de données supplémentaires, en utilisant HPSv3 pour sélectionner à chaque étape l’image de meilleure qualité. Des expériences étendues démontrent que HPSv3 constitue une métrique robuste pour l’évaluation d’images à large spectre, tandis que CoHP offre une approche efficace et alignée sur les préférences humaines pour améliorer la qualité de génération d’images. Le code source et les données sont disponibles sur la page web d’HPSv3.