HyperAIHyperAI

Command Palette

Search for a command to run...

DGInStyle: domaingenerierbare semantische Segmentierung mit Bild-Diffusionsmodellen und stilisierter semantischer Steuerung

Yuru Jia Lukas Hoyer Shengyu Huang Tianfu Wang Luc Van Gool Konrad Schindler Anton Obukhov

Zusammenfassung

Große, vortrainierte latente Diffusionsmodelle (LDMs) haben eine außergewöhnliche Fähigkeit zur Erzeugung kreativen Inhalts demonstriert, sich durch Few-Shot-Finetuning an Benutzerdaten anzupassen und ihre Ausgabe auf andere Modalitäten, wie beispielsweise semantische Karten, zu konditionieren. Sind sie jedoch als skalierbare Daten-Generatoren nutzbar, etwa zur Verbesserung von Aufgaben im Perzeptions-Stack, wie der semantischen Segmentierung? Wir untersuchen diese Frage im Kontext autonomer Fahrzeuge und beantworten sie eindeutig mit „Ja“. Wir stellen einen effizienten Daten-Generierungs-Pipeline namens DGInStyle vor. Zunächst analysieren wir das Problem der Spezialisierung eines vortrainierten LDM auf semantikgesteuerte Generierung innerhalb eines engen Domänenbereichs. Anschließend schlagen wir eine Technik namens Style Swap vor, um das reichhaltige generative Vorwissen mit gelernter semantischer Kontrolle auszustatten. Drittens entwickeln wir eine Multi-Resolution Latent Fusion-Technik, um den Bias von LDMs gegenüber dominierenden Objekten zu überwinden. Mit DGInStyle generieren wir eine vielfältige Datensammlung von Straßen-Szenen, trainieren darauf ein domänenunabhängiges Modell für semantische Segmentierung und evaluieren das Modell an mehreren etablierten Datensätzen für autonome Fahrzeuge. Unser Ansatz steigert die Leistung mehrerer Methoden zur Domänenverallgemeinerung konsistent gegenüber den bisherigen State-of-the-Art-Methoden. Der Quellcode und die generierte Datensammlung sind unter https://dginstyle.github.io verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
DGInStyle: domaingenerierbare semantische Segmentierung mit Bild-Diffusionsmodellen und stilisierter semantischer Steuerung | Paper | HyperAI