HyperAIHyperAI

Command Palette

Search for a command to run...

Geometrie-freie Ansichtssynthese: Transformers und keine 3D-Vorwissen

Robin Rombach Patrick Esser Björn Ommer

Zusammenfassung

Ist ein geometrisches Modell zur Synthese neuer Ansichten aus einem einzigen Bild erforderlich? Da CNNs durch lokale Faltungen eingeschränkt sind, benötigen sie explizite 3D-Biase, um geometrische Transformationen zu modellieren. Im Gegensatz dazu zeigen wir, dass ein transformerbasiertes Modell neue Ansichten vollständig ohne handgebaute 3D-Biase synthetisieren kann. Dies wird erreicht durch (i) eine globale Aufmerksamkeitsmechanik, die langreichweitige 3D-Korrespondenzen zwischen Quell- und Zielansichten implizit lernt, sowie (ii) eine probabilistische Formulierung, die die inhärente Mehrdeutigkeit bei der Vorhersage neuer Ansichten aus einem einzigen Bild erfassen kann und somit die Beschränkungen früherer Ansätze überwindet, die lediglich relativ kleine Blickwinkeländerungen zuließen. Wir evaluieren verschiedene Ansätze zur Integration von 3D-Vorkenntnissen in eine Transformer-Architektur. Dennoch zeigen unsere Experimente, dass solche geometrischen Vorkenntnisse nicht erforderlich sind und dass der Transformer in der Lage ist, 3D-Beziehungen zwischen Bildern implizit zu lernen. Darüber hinaus übertrifft dieser Ansatz den Stand der Technik hinsichtlich der visuellen Qualität und deckt die gesamte Verteilung möglicher Realisierungen ab. Der Quellcode ist unter https://git.io/JOnwn verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp