vor 16 Tagen

NoisyTwins: klassen-konsistente und vielfältige Bildgenerierung mittels StyleGANs

Harsh Rangwani, Lavish Bansal, Kartik Sharma, Tejan Karmali, Varun Jampani, R. Venkatesh Babu

Abstract

StyleGANs befinden sich an der Spitze der steuerbaren Bildgenerierung, da sie einen semantisch entkoppelten Latenzraum erzeugen, der sich gut für Bildbearbeitung und -manipulation eignet. Allerdings verschlechtert sich die Leistung von StyleGANs erheblich, wenn sie auf großskaligen, langen-Schwanz-Datensätzen über Klassenbedingung trainiert werden. Wir stellen fest, dass ein Grund für diese Degradierung die Kollapsierung der Latenzen pro Klasse im $\mathcal{W}$-Latenzraum ist. Mit NoisyTwins führen wir zunächst eine effektive und kostengünstige Erweiterungsstrategie für Klassen-Embeddings ein, die anschließend die Latenzen basierend auf Selbstüberwachung im $\mathcal{W}$-Raum entkoppelt. Diese Entkoppelung mindert den Kollaps und stellt sicher, dass unsere Methode die intra-klassische Vielfalt beibehält und gleichzeitig Klassenkonsistenz in der Bildgenerierung gewährleistet. Wir belegen die Wirksamkeit unseres Ansatzes an großskaligen, realen Lang-Schwanz-Datensätzen wie ImageNet-LT und iNaturalist 2019, wo unsere Methode gegenüber anderen Ansätzen eine Verbesserung um ca. 19 % bezüglich FID erzielt und damit eine neue state-of-the-art erreicht.