GAUDI: Ein neuronales Architekturmodell für immersives 3D-Szenen-Generieren

Wir stellen GAUDI vor, ein generatives Modell, das die Verteilung komplexer und realistischer 3D-Szenen erfassen kann und die immersive Darstellung dieser Szenen aus einer sich bewegenden Kamera ermöglicht. Wir lösen dieses anspruchsvolle Problem mit einem skalierbaren, dennoch leistungsfähigen Ansatz, bei dem zunächst eine latente Darstellung optimiert wird, die Strahlungsfelder und Kameraposen entkoppelt. Diese latente Darstellung dient anschließend zur Lernung eines generativen Modells, das sowohl die unbedingte als auch die bedingte Generierung von 3D-Szenen ermöglicht. Unser Modell verallgemeinert frühere Ansätze, die sich auf einzelne Objekte konzentrieren, indem es die Annahme aufgibt, dass die Verteilung der Kameraposen über verschiedene Beispiele hinweg geteilt werden kann. Wir zeigen, dass GAUDI in der unbedingten generativen Einstellung auf mehreren Datensätzen den Stand der Technik erreicht und zudem die bedingte Generierung von 3D-Szenen unter Verwendung von Bedingungsvariablen wie spärlichen Bildbeobachtungen oder Textbeschreibungen der Szene erlaubt.