SceneDreamer: Unbegrenzte 3D-Szenenerzeugung aus 2D-Bildkollektionen

In dieser Arbeit präsentieren wir SceneDreamer, ein bedingungsloses generatives Modell für unbegrenzte 3D-Szenen, das großflächige 3D-Landschaften aus zufälligem Rauschen synthetisiert. Unser Framework wird ausschließlich aus in-the-wild 2D-Bildkollektionen gelernt, ohne jegliche 3D-Annotationen zu benötigen. Im Kern von SceneDreamer liegt ein konsistenter Lernparadigma, das aus drei Komponenten besteht: 1) einer effizienten und dennoch ausdrucksstarken 3D-Szenenrepräsentation, 2) einer generativen Parametrisierung der Szene und 3) einem effektiven Renderer, der das Wissen aus 2D-Bildern nutzt. Unser Ansatz beginnt mit einer effizienten Vogelperspektiven-(BEV-)Darstellung, die aus Simplex-Rauschen generiert wird und eine Höhenfeldkomponente für die Oberflächenhöhe sowie ein semantisches Feld für detaillierte Szenenbedeutung umfasst. Diese BEV-Szenenrepräsentation ermöglicht 1) die Darstellung einer 3D-Szene mit quadratischer Komplexität, 2) eine entkoppelte Geometrie- und Semantikdarstellung sowie 3) eine effiziente Trainingsdurchführung. Darüber hinaus schlagen wir ein neuartiges generatives neuronales Hash-Grid vor, das den Latentraum basierend auf 3D-Positionen und Szenensemantik parametrisiert und darauf abzielt, verallgemeinerbare Merkmale über verschiedene Szenen hinweg zu kodieren. Schließlich wird ein neuronales volumetrischer Renderer eingesetzt, der aus 2D-Bildkollektionen durch adversariales Training gelernt wird, um fotorealistische Bilder zu erzeugen. Umfangreiche Experimente belegen die Wirksamkeit von SceneDreamer und seine Überlegenheit gegenüber aktuellen State-of-the-Art-Methoden bei der Generierung lebendiger und vielfältiger unbegrenzter 3D-Welten.