HPSv3: Ein Schritt hin zu einem breitbandigen menschlichen Präferenzscore

Die Bewertung von Text-zu-Bild-Generationsmodellen erfordert eine Ausrichtung an der menschlichen Wahrnehmung. Herkömmliche, menschenzentrierte Metriken sind jedoch durch begrenzte Datenausdehnung, suboptimale Merkmalsextraktion und ineffiziente Verlustfunktionen eingeschränkt. Um diese Herausforderungen zu bewältigen, stellen wir den Human Preference Score v3 (HPSv3) vor. (1) Wir veröffentlichen HPDv3, den ersten umfassenden Datensatz menschlicher Präferenzen, der 1,08 Mio. Text-Bild-Paare sowie 1,17 Mio. annotierte Paarvergleiche aus hochwertigen generativen Modellen und realen Bildern unterschiedlicher Qualität umfasst. (2) Wir führen ein auf visuellen Sprachmodellen basierendes Präferenzmodell ein, das mittels einer unsicherheitsbewussten Rangfolgeverlustfunktion für eine feinabgestimmte Rangordnung trainiert wird. Darüber hinaus stellen wir Chain-of-Human-Preference (CoHP) vor, eine iterativ arbeitende Bildverbesserungsmethode, die die Bildqualität ohne zusätzliche Daten verbessert, indem sie HPSv3 nutzt, um in jedem Schritt das beste Bild auszuwählen. Umfassende Experimente zeigen, dass HPSv3 eine robuste Metrik für die Bewertung von Bildern über einen weiten Spektrum darstellt und CoHP einen effizienten, menschenorientierten Ansatz zur Verbesserung der Bildgenerationsqualität bietet. Der Quellcode und der Datensatz sind unter der HPSv3-Homepage verfügbar.