HyperAIHyperAI

Command Palette

Search for a command to run...

Kompositionelle Transformers für die Szenenerzeugung

Larry Zitnick Dor Arad Hudson

Zusammenfassung

Wir stellen das GANformer2-Modell vor, einen iterativen, objektorientierten Transformer, der für die Aufgabe der generativen Modellierung untersucht wurde. Das Netzwerk integriert starke und explizite strukturelle Vorkenntnisse, um die zusammengesetzte Natur visueller Szenen widerzuspiegeln, und synthetisiert Bilder durch einen sequenziellen Prozess. Es arbeitet in zwei Phasen: einer schnellen und leichtgewichtigen Planungsphase, in der eine hochwertige Szenenlayout entworfen wird, gefolgt von einer auf Aufmerksamkeit basierenden Ausführungsphase, in der das Layout verfeinert wird und sich zu einem detaillierten und reichhaltigen Bild entwickelt. Unser Modell verlässt sich von herkömmlichen, schwarzen-Box-GAN-Architekturen mit flachem und monolithischem Latentraum ab und setzt stattdessen auf ein transparentes Design, das Effizienz, Kontrollierbarkeit und Interpretierbarkeit fördert. Wir demonstrieren die Stärken und Eigenschaften von GANformer2 durch eine sorgfältige Bewertung an einer Vielzahl von Datensätzen – von mehrobjektigen CLEVR-Szenen bis hin zu anspruchsvollen COCO-Bildern – und zeigen, dass das Modell hervorragende Ergebnisse hinsichtlich visueller Qualität, Vielfalt und Konsistenz erzielt. Weitere Experimente belegen die Entkoppelungsfähigkeit des Modells und liefern tiefere Einblicke in seinen generativen Prozess, der schrittweise von einer groben ersten Skizze über ein detailliertes Layout, das Objekttiefe und Abhängigkeiten berücksichtigt, bis hin zu einer hochauflösenden Darstellung lebhafter und komplexer realer Szenen führt. Weitere Informationen zum Modell finden Sie unter https://github.com/dorarad/gansformer.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Kompositionelle Transformers für die Szenenerzeugung | Paper | HyperAI