Matrix-3D: Omnidirektionale, erkundbare Generierung von 3D-Welten

Die Generierung erkundbarer 3D-Welten aus einer einzigen Bild- oder Texteingabe bildet eine zentrale Säule der räumlichen Intelligenz. Neuere Ansätze nutzen Videomodelle, um breit angelegte und allgemein verwendbare 3D-Welten zu generieren. Allerdings leiden bestehende Verfahren häufig an einer begrenzten Reichweite der generierten Szenen. In dieser Arbeit stellen wir Matrix-3D vor, einen Rahmen, der eine panoramische Darstellung nutzt, um umfassend abgedeckte, omnidirektionale, erkundbare 3D-Welten zu generieren, wobei bedingte Videogenerierung und panoramische 3D-Rekonstruktion kombiniert werden. Zunächst trainieren wir ein trajectoriengeleitetes panoramisches Video-Diffusionsmodell, das Szenen-Mesh-Darstellungen als Bedingung nutzt, um die Erzeugung hochwertiger und geometrisch konsistenter Szenen-Videos zu ermöglichen. Um das Panoramavideo der Szene in eine 3D-Welt zu transformieren, schlagen wir zwei getrennte Methoden vor: (1) ein feed-forward basiertes großflächiges Panorama-Rekonstruktionsmodell für eine schnelle 3D-Szenen-Rekonstruktion und (2) eine optimierungsorientierte Pipeline zur präzisen und detaillierten 3D-Szenen-Rekonstruktion. Um eine effektive Trainingsdurchführung zu ermöglichen, führen wir außerdem die Matrix-Pano-Datenbank ein, die erste großskalige synthetische Datensammlung mit 116.000 hochwertigen statischen Panoramavideos mit Tiefen- und Trajektorienannotationen. Umfangreiche Experimente zeigen, dass unser vorgeschlagener Rahmen die derzeit beste Leistung sowohl bei der Panoramavideogenerierung als auch bei der 3D-Welten-Generierung erzielt. Weitere Informationen unter https://matrix-3d.github.io.