HyperAIHyperAI

Command Palette

Search for a command to run...

Text-Bild-Ausrichtung für diffusionsbasierte Wahrnehmung

Neehar Kondapaneni\textsuperscript1,* Markus Marks\textsuperscript1,* Manuel Knott\textsuperscript1,2,* Rogerio Guimaraes\textsuperscript1 Pietro Perona\textsuperscript1

Zusammenfassung

Diffusionsmodelle sind generative Modelle mit beeindruckenden Fähigkeiten zur Text-zu-Bild-Synthese und haben eine neue Welle kreativer Methoden für klassische maschinelle Lernaufgaben ausgelöst. Dennoch ist die beste Art, das wahrnehmungsbasierte Wissen dieser generativen Modelle für visuelle Aufgaben zu nutzen, noch eine offene Frage. Insbesondere ist es unklar, wie die Prompting-Schnittstelle bei der Anwendung von Diffusionsbackbones auf Vision-Aufgaben verwendet werden sollte. Wir stellen fest, dass automatisch generierte Bildunterschriften (captions) die Text-Bild-Ausrichtung verbessern können und die Kreuz-Attention-Karten des Modells erheblich optimieren, was zu einer besseren wahrnehmungsorientierten Leistung führt. Unser Ansatz verbessert den aktuellen Stand der Technik (SOTA) in der diffusionsbasierten semantischen Segmentierung auf ADE20K sowie den aktuellen Gesamt-SOTA für Tiefenschätzung auf NYUv2. Darüber hinaus verallgemeinert sich unsere Methode auf das cross-domain-Einsatzszenario. Durch Modellpersonalisierung und Änderungen an den Bildunterschriften (caption modifications) passen wir unser Modell an das Zielgebiet an und erzielen Verbesserungen gegenüber nicht angepassten Baselines. Unser cross-domain-Objekterkennungsmodell, das auf Pascal VOC trainiert wurde, erreicht SOTA-Ergebnisse auf Watercolor2K. Unsere cross-domain-Segmentierungs-Methode, die auf Cityscapes trainiert wurde, erreicht SOTA-Ergebnisse auf Dark Zurich-val und Nighttime Driving. Projektseite: https://www.vision.caltech.edu/tadp/. Code: https://github.com/damaggu/TADP.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp