HyperAIHyperAI
vor 17 Tagen

Aufdeckung von Schwächen von Bewertungsmetriken für generative Modelle und deren ungerechtfertigte Behandlung von Diffusionsmodellen

George Stein, Jesse C. Cresswell, Rasa Hosseinzadeh, Yi Sui, Brendan Leigh Ross, Valentin Villecroze, Zhaoyan Liu, Anthony L. Caterini, J. Eric T. Taylor, Gabriel Loaiza-Ganem
Aufdeckung von Schwächen von Bewertungsmetriken für generative Modelle und deren ungerechtfertigte Behandlung von Diffusionsmodellen
Abstract

Wir untersuchen systematisch eine Vielzahl generativer Modelle über semantisch unterschiedliche Bild-Datensätze hinweg, um die zur Bewertung eingesetzten Merkmalsextraktoren und Metriken besser zu verstehen und zu verbessern. Unter Anwendung bewährter Methoden der Psychophysik führen wir die bislang umfangreichste Studie zur menschlichen Wahrnehmung der Realitätsnähe generierter Bilder durch und stellen fest, dass keine der derzeit verfügbaren Metriken eine starke Korrelation mit menschlichen Bewertungen aufweist. Im Vergleich zu 17 modernen Metriken zur Beurteilung der Gesamtleistung, Fidelität, Vielfalt, Seltenheit und Memorisation generativer Modelle zeigen wir, dass die state-of-the-art perceptuelle Realitätsnähe von Diffusionsmodellen, wie sie von Menschen eingeschätzt wird, in gängigen Metriken wie FID nicht angemessen widergespiegelt wird. Dieser Abstand lässt sich nicht durch Vielfalt der generierten Proben erklären, obwohl ein wesentlicher Grund in einer übermäßigen Abhängigkeit von Inception-V3 liegt. Wir beheben diese Mängel durch eine Untersuchung alternativer selbstüberwachter Merkmalsextraktoren, wobei wir feststellen, dass die semantische Information, die einzelne Netzwerke kodieren, stark von ihrem Trainingsverfahren abhängt. Zudem zeigen wir, dass DINOv2-ViT-L/14 eine deutlich reichhaltigere Bewertung generativer Modelle ermöglicht. Anschließend untersuchen wir das Phänomen der Datenspeicherung (Memorisation) und stellen fest, dass generative Modelle Trainingsbeispiele auf einfachen, kleineren Datensätzen wie CIFAR10 tatsächlich speichern, jedoch nicht notwendigerweise auf komplexeren Datensätzen wie ImageNet. Allerdings zeigen unsere Experimente, dass die derzeitigen Metriken die Memorisation nicht adäquat detektieren können: Keine der in der Literatur verfügbaren Metriken ist in der Lage, Memorisation von anderen Phänomenen wie Unteranpassung (underfitting) oder Modenverkleinerung (mode shrinkage) zu unterscheiden. Um die weitere Entwicklung generativer Modelle und deren Bewertung zu fördern, veröffentlichen wir alle generierten Bilddatensätze, die menschlichen Bewertungsdaten sowie eine modulare Bibliothek zur Berechnung der 17 gängigsten Metriken für 9 verschiedene Encoder unter: https://github.com/layer6ai-labs/dgm-eval.