Command Palette
Search for a command to run...
Kompositionelle Transformers für die Szenenerzeugung
Kompositionelle Transformers für die Szenenerzeugung
Larry Zitnick Dor Arad Hudson
Zusammenfassung
Wir stellen das GANformer2-Modell vor, einen iterativen, objektorientierten Transformer, der für die Aufgabe der generativen Modellierung untersucht wurde. Das Netzwerk integriert starke und explizite strukturelle Vorkenntnisse, um die zusammengesetzte Natur visueller Szenen widerzuspiegeln, und synthetisiert Bilder durch einen sequenziellen Prozess. Es arbeitet in zwei Phasen: einer schnellen und leichtgewichtigen Planungsphase, in der eine hochwertige Szenenlayout entworfen wird, gefolgt von einer auf Aufmerksamkeit basierenden Ausführungsphase, in der das Layout verfeinert wird und sich zu einem detaillierten und reichhaltigen Bild entwickelt. Unser Modell verlässt sich von herkömmlichen, schwarzen-Box-GAN-Architekturen mit flachem und monolithischem Latentraum ab und setzt stattdessen auf ein transparentes Design, das Effizienz, Kontrollierbarkeit und Interpretierbarkeit fördert. Wir demonstrieren die Stärken und Eigenschaften von GANformer2 durch eine sorgfältige Bewertung an einer Vielzahl von Datensätzen – von mehrobjektigen CLEVR-Szenen bis hin zu anspruchsvollen COCO-Bildern – und zeigen, dass das Modell hervorragende Ergebnisse hinsichtlich visueller Qualität, Vielfalt und Konsistenz erzielt. Weitere Experimente belegen die Entkoppelungsfähigkeit des Modells und liefern tiefere Einblicke in seinen generativen Prozess, der schrittweise von einer groben ersten Skizze über ein detailliertes Layout, das Objekttiefe und Abhängigkeiten berücksichtigt, bis hin zu einer hochauflösenden Darstellung lebhafter und komplexer realer Szenen führt. Weitere Informationen zum Modell finden Sie unter https://github.com/dorarad/gansformer.