Verbesserte Genauigkeits- und Treffermetrik zur Bewertung generativer Modelle

Die Fähigkeit, die Qualität und den Umfang der von einem generativen Modell erzeugten Stichproben automatisch zu schätzen, ist eine wesentliche Voraussetzung für die Förderung der Algorithmusforschung. Wir stellen ein Bewertungsmaß vor, das in Bildgenerierungsaufgaben beide Aspekte getrennt und verlässlich messen kann, indem es explizite, nichtparametrische Darstellungen der Mannigfaltigkeiten von realen und generierten Daten bildet. Wir zeigen die Effektivität unseres Maßes anhand mehrerer beispielhafter Szenarien in StyleGAN und BigGAN auf, bei denen bestehende Maße unergiebige oder widersprüchliche Ergebnisse liefern. Darüber hinaus analysieren wir mehrere Designvarianten von StyleGAN, um das Verständnis der Beziehungen zwischen Modellarchitektur, Trainingsmethoden und den Eigenschaften der resultierenden Stichprobenverteilung zu vertiefen. In diesem Prozess identifizieren wir neue Varianten, die den Stand der Technik verbessern. Zudem führen wir die erste prinzipielle Analyse von Truncation-Methoden durch und identifizieren eine verbesserte Methode. Schließlich erweitern wir unser Maß zur Schätzung der wahrnehmungsbasierten Qualität einzelner Stichproben und nutzen dies, um latente Rauminterpolationen zu untersuchen.