DGInStyle: domaingenerierbare semantische Segmentierung mit Bild-Diffusionsmodellen und stilisierter semantischer Steuerung

Große, vortrainierte latente Diffusionsmodelle (LDMs) haben eine außergewöhnliche Fähigkeit zur Erzeugung kreativen Inhalts demonstriert, sich durch Few-Shot-Finetuning an Benutzerdaten anzupassen und ihre Ausgabe auf andere Modalitäten, wie beispielsweise semantische Karten, zu konditionieren. Sind sie jedoch als skalierbare Daten-Generatoren nutzbar, etwa zur Verbesserung von Aufgaben im Perzeptions-Stack, wie der semantischen Segmentierung? Wir untersuchen diese Frage im Kontext autonomer Fahrzeuge und beantworten sie eindeutig mit „Ja“. Wir stellen einen effizienten Daten-Generierungs-Pipeline namens DGInStyle vor. Zunächst analysieren wir das Problem der Spezialisierung eines vortrainierten LDM auf semantikgesteuerte Generierung innerhalb eines engen Domänenbereichs. Anschließend schlagen wir eine Technik namens Style Swap vor, um das reichhaltige generative Vorwissen mit gelernter semantischer Kontrolle auszustatten. Drittens entwickeln wir eine Multi-Resolution Latent Fusion-Technik, um den Bias von LDMs gegenüber dominierenden Objekten zu überwinden. Mit DGInStyle generieren wir eine vielfältige Datensammlung von Straßen-Szenen, trainieren darauf ein domänenunabhängiges Modell für semantische Segmentierung und evaluieren das Modell an mehreren etablierten Datensätzen für autonome Fahrzeuge. Unser Ansatz steigert die Leistung mehrerer Methoden zur Domänenverallgemeinerung konsistent gegenüber den bisherigen State-of-the-Art-Methoden. Der Quellcode und die generierte Datensammlung sind unter https://dginstyle.github.io verfügbar.