vor 9 Tagen

Geometrie-freie Ansichtssynthese: Transformers und keine 3D-Vorwissen

Robin Rombach, Patrick Esser, Björn Ommer

Abstract

Ist ein geometrisches Modell zur Synthese neuer Ansichten aus einem einzigen Bild erforderlich? Da CNNs durch lokale Faltungen eingeschränkt sind, benötigen sie explizite 3D-Biase, um geometrische Transformationen zu modellieren. Im Gegensatz dazu zeigen wir, dass ein transformerbasiertes Modell neue Ansichten vollständig ohne handgebaute 3D-Biase synthetisieren kann. Dies wird erreicht durch (i) eine globale Aufmerksamkeitsmechanik, die langreichweitige 3D-Korrespondenzen zwischen Quell- und Zielansichten implizit lernt, sowie (ii) eine probabilistische Formulierung, die die inhärente Mehrdeutigkeit bei der Vorhersage neuer Ansichten aus einem einzigen Bild erfassen kann und somit die Beschränkungen früherer Ansätze überwindet, die lediglich relativ kleine Blickwinkeländerungen zuließen. Wir evaluieren verschiedene Ansätze zur Integration von 3D-Vorkenntnissen in eine Transformer-Architektur. Dennoch zeigen unsere Experimente, dass solche geometrischen Vorkenntnisse nicht erforderlich sind und dass der Transformer in der Lage ist, 3D-Beziehungen zwischen Bildern implizit zu lernen. Darüber hinaus übertrifft dieser Ansatz den Stand der Technik hinsichtlich der visuellen Qualität und deckt die gesamte Verteilung möglicher Realisierungen ab. Der Quellcode ist unter https://git.io/JOnwn verfügbar.