HyperAIHyperAI

Command Palette

Search for a command to run...

Text-to-Image Diffusionsmodelle für die visuelle Wahrnehmung freisetzen

Wenliang Zhao Yongming Rao Zuyan Liu Benlin Liu Jie Zhou Jiwen Lu

Zusammenfassung

Diffusionsmodelle (DMs) sind zu einem neuen Trend in der generativen Modellierung geworden und haben eine bemerkenswerte Fähigkeit zur bedingten Synthese demonstriert. Unter diesen Modellen zeichnen sich Text-zu-Bild-Diffusionsmodelle aus, die auf großskaligen Bild-Text-Paaren vortrainiert wurden, durch eine hohe Kontrollierbarkeit durch anpassbare Prompts aus. Im Gegensatz zu unbedingten generativen Modellen, die sich auf niedrigstufige Merkmale und Details konzentrieren, enthalten Text-zu-Bild-Diffusionsmodelle aufgrund der Vision-Sprache-Vortrainierung mehr hochstufiges Wissen. In diesem Paper stellen wir VPD (Visual Perception with a pre-trained Diffusion model) vor, einen neuen Ansatz, der die semantische Information eines vortrainierten Text-zu-Bild-Diffusionsmodells für Aufgaben der visuellen Wahrnehmung nutzt. Anstatt den vortrainierten Denoisings-Autoencoder in einer Diffusions-basierten Pipeline direkt zu verwenden, nutzen wir ihn lediglich als Backbone und untersuchen, wie man das erlernte Wissen optimal ausnutzen kann. Konkret prompten wir den Denoisings-Decoder mit geeigneten textuellen Eingaben und verbessern die Textmerkmale mittels eines Adapters, was eine bessere Anpassung an den vortrainierten Zustand ermöglicht und eine stärkere Interaktion zwischen den visuellen Inhalten und den Text-Prompts fördert. Zudem schlagen wir vor, die Cross-Attention-Maps zwischen visuellen und textuellen Merkmalen zur expliziten Steuerung zu nutzen. Im Vergleich zu anderen Vortrainingsansätzen zeigen wir, dass vision-sprachlich vortrainierte Diffusionsmodelle mithilfe des vorgeschlagenen VPD schneller auf nachgeschaltete Aufgaben der visuellen Wahrnehmung angepasst werden können. Umfangreiche Experimente zu semantischer Segmentierung, Referenzbildsegmentierung und Tiefenschätzung belegen die Wirksamkeit unseres Ansatzes. Insbesondere erreicht VPD eine RMSE von 0,254 auf NYUv2 für die Tiefenschätzung und 73,3 % oIoU auf RefCOCO-val für die Referenzbildsegmentierung, wodurch neue Rekorde auf diesen beiden Benchmarks erzielt werden. Der Quellcode ist unter https://github.com/wl-zhao/VPD verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp