Text-Bild-Ausrichtung für diffusionsbasierte Wahrnehmung

Diffusionsmodelle sind generative Modelle mit beeindruckenden Fähigkeiten zur Text-zu-Bild-Synthese und haben eine neue Welle kreativer Methoden für klassische maschinelle Lernaufgaben ausgelöst. Dennoch ist die beste Art, das wahrnehmungsbasierte Wissen dieser generativen Modelle für visuelle Aufgaben zu nutzen, noch eine offene Frage. Insbesondere ist es unklar, wie die Prompting-Schnittstelle bei der Anwendung von Diffusionsbackbones auf Vision-Aufgaben verwendet werden sollte. Wir stellen fest, dass automatisch generierte Bildunterschriften (captions) die Text-Bild-Ausrichtung verbessern können und die Kreuz-Attention-Karten des Modells erheblich optimieren, was zu einer besseren wahrnehmungsorientierten Leistung führt. Unser Ansatz verbessert den aktuellen Stand der Technik (SOTA) in der diffusionsbasierten semantischen Segmentierung auf ADE20K sowie den aktuellen Gesamt-SOTA für Tiefenschätzung auf NYUv2. Darüber hinaus verallgemeinert sich unsere Methode auf das cross-domain-Einsatzszenario. Durch Modellpersonalisierung und Änderungen an den Bildunterschriften (caption modifications) passen wir unser Modell an das Zielgebiet an und erzielen Verbesserungen gegenüber nicht angepassten Baselines. Unser cross-domain-Objekterkennungsmodell, das auf Pascal VOC trainiert wurde, erreicht SOTA-Ergebnisse auf Watercolor2K. Unsere cross-domain-Segmentierungs-Methode, die auf Cityscapes trainiert wurde, erreicht SOTA-Ergebnisse auf Dark Zurich-val und Nighttime Driving. Projektseite: https://www.vision.caltech.edu/tadp/. Code: https://github.com/damaggu/TADP.