ImageBART: Bidirektionale Kontexte mit multinomialer Diffusion für autoregressive Bildsynthese

Autoregressive Modelle und ihre sequenzielle Faktorisierung der Datenwahrscheinlichkeit haben in letzter Zeit ein großes Potenzial für die Bildrepräsentation und -synthese gezeigt. Dennoch integrieren sie die Bilddatenkontextinformationen in einer linearen 1D-Reihenfolge, indem sie jeweils nur auf zuvor synthetisierte Bildpatches oberhalb oder links davon achten. Dieser einseitige, sequenzielle Aufmerksamkeitsbias ist für Bilder naturwidrig, da große Teile einer Szene erst verzögert berücksichtigt werden, bis die Synthese nahezu abgeschlossen ist. Zudem verarbeiten diese Modelle das gesamte Bild auf einer einzigen Skala und ignorieren damit globale Kontextinformationen bis hin zum übergeordneten Gesamteindruck der Szene. Als Gegenmaßnahme integrieren wir eine grob-zu-fein Hierarchie des Kontexts, indem wir die autoregressive Formulierung mit einem multinomialen Diffusionsprozess verbinden: Während ein mehrstufiger Diffusionsprozess schrittweise Informationen entfernt, um ein Bild zu vergröbern, trainieren wir eine (kurze) Markov-Kette, um diesen Prozess zu invertieren. In jeder Stufe integriert das resultierende autoregressive ImageBART-Modell kontextuelle Informationen aus vorherigen Stufen schrittweise in einer grob-zu-fein-Weise. Experimente zeigen eine deutlich verbesserte Fähigkeit zur Bildmodifikation im Vergleich zu rein autoregressiven Modellen, gleichzeitig erzielt das Verfahren hochfidele Bildgenerierung – beides ermöglicht durch eine effiziente Trainingsroutine im komprimierten Latentraum. Insbesondere kann unser Ansatz beliebige, vom Benutzer bereitgestellte Masken berücksichtigen, um lokale Bildbearbeitungen durchzuführen. Im Gegensatz zu rein autoregressiven Modellen ist somit die Lösung von freiformigen Bild-Inpainting-Aufgaben möglich, und bei bedingten Modellen lässt sich auch lokal, textgesteuerte Bildmodifikation durchführen, ohne dass maskenspezifisches Training erforderlich ist.