NoisyTwins: klassen-konsistente und vielfältige Bildgenerierung mittels StyleGANs

StyleGANs befinden sich an der Spitze der steuerbaren Bildgenerierung, da sie einen semantisch entkoppelten Latenzraum erzeugen, der sich gut für Bildbearbeitung und -manipulation eignet. Allerdings verschlechtert sich die Leistung von StyleGANs erheblich, wenn sie auf großskaligen, langen-Schwanz-Datensätzen über Klassenbedingung trainiert werden. Wir stellen fest, dass ein Grund für diese Degradierung die Kollapsierung der Latenzen pro Klasse im $\mathcal{W}$-Latenzraum ist. Mit NoisyTwins führen wir zunächst eine effektive und kostengünstige Erweiterungsstrategie für Klassen-Embeddings ein, die anschließend die Latenzen basierend auf Selbstüberwachung im $\mathcal{W}$-Raum entkoppelt. Diese Entkoppelung mindert den Kollaps und stellt sicher, dass unsere Methode die intra-klassische Vielfalt beibehält und gleichzeitig Klassenkonsistenz in der Bildgenerierung gewährleistet. Wir belegen die Wirksamkeit unseres Ansatzes an großskaligen, realen Lang-Schwanz-Datensätzen wie ImageNet-LT und iNaturalist 2019, wo unsere Methode gegenüber anderen Ansätzen eine Verbesserung um ca. 19 % bezüglich FID erzielt und damit eine neue state-of-the-art erreicht.