LaDiC: Sind Diffusionsmodelle wirklich schlechter als autoregressive Modelle für die Bild-zu-Text-Generierung?

Diffusionsmodelle haben bemerkenswerte Fähigkeiten bei der Text-zu-Bild-Generierung gezeigt. Ihre Leistung bei der Bild-zu-Text-Generierung, insbesondere bei der Bildbeschreibung (Image Captioning), hinkt jedoch Modellen mit autoregressivem Ansatz (AR-Modelle) hinterher, was Zweifel an ihrer Eignung für solche Aufgaben aufkommen lässt. In dieser Arbeit untersuchen wir Diffusionsmodelle erneut und betonen ihre Fähigkeit zur umfassenden Kontextmodellierung sowie die Parallelität der Decodierung. Aufgrund dieser Vorteile können Diffusionsmodelle die inhärenten Einschränkungen autoregressiver Methoden überwinden, darunter die langsame Inferenzgeschwindigkeit, die Fehlerfortpflanzung und die eindimensionale Beschränkung. Darüber hinaus identifizieren wir die bisherige Unterlegenheit von Diffusionsmodellen aufgrund des Fehlens eines effektiven latenten Raums zur Ausrichtung von Bild- und Textdaten sowie der Diskrepanz zwischen kontinuierlichen Diffusionsprozessen und diskreten Textdaten. Daraufhin stellen wir eine neuartige Architektur, LaDiC, vor, die einen geteilten BERT nutzt, um einen spezialisierten latenten Raum für Beschreibungen zu schaffen, und eine Regularisierungsmodul integriert, um unterschiedliche Textlängen effektiv zu handhaben. Unser Framework beinhaltet zudem einen Diffuser zur semantischen Bild-zu-Text-Umwandlung sowie eine Back&Refine-Technik, um die Interaktivität der Tokens während der Inferenz zu verbessern. LaDiC erreicht auf dem MS COCO-Datensatz die bisher beste Leistung unter Diffusionsmodellen mit 38,2 BLEU@4 und 126,2 CIDEr und zeigt dabei herausragende Ergebnisse, ohne dass eine Vortrainierung oder zusätzliche Module erforderlich sind. Dies zeigt eine starke Wettbewerbsfähigkeit gegenüber AR-Modellen und offenbart das bisher ungenutzte Potenzial von Diffusionsmodellen in der Bild-zu-Text-Generierung.