vor 3 Monaten

Text-to-Image Diffusionsmodelle für die visuelle Wahrnehmung freisetzen

Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu

Abstract

Diffusionsmodelle (DMs) sind zu einem neuen Trend in der generativen Modellierung geworden und haben eine bemerkenswerte Fähigkeit zur bedingten Synthese demonstriert. Unter diesen Modellen zeichnen sich Text-zu-Bild-Diffusionsmodelle aus, die auf großskaligen Bild-Text-Paaren vortrainiert wurden, durch eine hohe Kontrollierbarkeit durch anpassbare Prompts aus. Im Gegensatz zu unbedingten generativen Modellen, die sich auf niedrigstufige Merkmale und Details konzentrieren, enthalten Text-zu-Bild-Diffusionsmodelle aufgrund der Vision-Sprache-Vortrainierung mehr hochstufiges Wissen. In diesem Paper stellen wir VPD (Visual Perception with a pre-trained Diffusion model) vor, einen neuen Ansatz, der die semantische Information eines vortrainierten Text-zu-Bild-Diffusionsmodells für Aufgaben der visuellen Wahrnehmung nutzt. Anstatt den vortrainierten Denoisings-Autoencoder in einer Diffusions-basierten Pipeline direkt zu verwenden, nutzen wir ihn lediglich als Backbone und untersuchen, wie man das erlernte Wissen optimal ausnutzen kann. Konkret prompten wir den Denoisings-Decoder mit geeigneten textuellen Eingaben und verbessern die Textmerkmale mittels eines Adapters, was eine bessere Anpassung an den vortrainierten Zustand ermöglicht und eine stärkere Interaktion zwischen den visuellen Inhalten und den Text-Prompts fördert. Zudem schlagen wir vor, die Cross-Attention-Maps zwischen visuellen und textuellen Merkmalen zur expliziten Steuerung zu nutzen. Im Vergleich zu anderen Vortrainingsansätzen zeigen wir, dass vision-sprachlich vortrainierte Diffusionsmodelle mithilfe des vorgeschlagenen VPD schneller auf nachgeschaltete Aufgaben der visuellen Wahrnehmung angepasst werden können. Umfangreiche Experimente zu semantischer Segmentierung, Referenzbildsegmentierung und Tiefenschätzung belegen die Wirksamkeit unseres Ansatzes. Insbesondere erreicht VPD eine RMSE von 0,254 auf NYUv2 für die Tiefenschätzung und 73,3 % oIoU auf RefCOCO-val für die Referenzbildsegmentierung, wodurch neue Rekorde auf diesen beiden Benchmarks erzielt werden. Der Quellcode ist unter https://github.com/wl-zhao/VPD verfügbar.