HyperAIHyperAI

Command Palette

Search for a command to run...

NoisyTwins: klassen-konsistente und vielfältige Bildgenerierung mittels StyleGANs

Harsh Rangwani Lavish Bansal Kartik Sharma Tejan Karmali Varun Jampani R. Venkatesh Babu

Zusammenfassung

StyleGANs befinden sich an der Spitze der steuerbaren Bildgenerierung, da sie einen semantisch entkoppelten Latenzraum erzeugen, der sich gut für Bildbearbeitung und -manipulation eignet. Allerdings verschlechtert sich die Leistung von StyleGANs erheblich, wenn sie auf großskaligen, langen-Schwanz-Datensätzen über Klassenbedingung trainiert werden. Wir stellen fest, dass ein Grund für diese Degradierung die Kollapsierung der Latenzen pro Klasse im W\mathcal{W}W-Latenzraum ist. Mit NoisyTwins führen wir zunächst eine effektive und kostengünstige Erweiterungsstrategie für Klassen-Embeddings ein, die anschließend die Latenzen basierend auf Selbstüberwachung im W\mathcal{W}W-Raum entkoppelt. Diese Entkoppelung mindert den Kollaps und stellt sicher, dass unsere Methode die intra-klassische Vielfalt beibehält und gleichzeitig Klassenkonsistenz in der Bildgenerierung gewährleistet. Wir belegen die Wirksamkeit unseres Ansatzes an großskaligen, realen Lang-Schwanz-Datensätzen wie ImageNet-LT und iNaturalist 2019, wo unsere Methode gegenüber anderen Ansätzen eine Verbesserung um ca. 19 % bezüglich FID erzielt und damit eine neue state-of-the-art erreicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp