InstanceDiffusion: Instanzbasierte Steuerung für Bildgenerierung

Text-to-Image-Diffusionsmodelle erzeugen hochwertige Bilder, bieten jedoch keine Kontrolle über einzelne Instanzen im Bild. Wir stellen InstanceDiffusion vor, die präzise instanzbasierte Steuerung zu Text-to-Image-Diffusionsmodellen hinzufügt. InstanceDiffusion unterstützt freiformige Sprachbedingungen pro Instanz und ermöglicht flexible Methoden zur Spezifizierung von Instanzenpositionen, wie einfache Einzelpunkte, Kritzeleien, Begrenzungsrahmen oder komplexe Instanzsegmentierungsmasken sowie deren Kombinationen. Wir schlagen drei wesentliche Änderungen an Text-to-Image-Modellen vor, die präzise instanzbasierte Steuerung ermöglichen. Unser UniFusion-Block ermöglicht instanzbasierte Bedingungen für Text-to-Image-Modelle, der ScaleU-Block verbessert die Bildtreue und unser Multi-Instanz-Sampler verbessert die Generierung für mehrere Instanzen. InstanceDiffusion übertreffen signifikant spezialisierte state-of-the-art Modelle bei jeder Positionsbedingung. Bemerkenswerterweise erreichen wir auf dem COCO-Datensatz eine Verbesserung von 20,4 % AP$_{50}^\text{box}$ bei Box-Eingaben und 25,4 % IoU bei Maskeneingaben gegenüber dem bisherigen state-of-the-art.