SceneGen: Einzelbild-3D-Szenenerzeugung in einem Feedforward-Schritt

Die Generierung von 3D-Inhalten hat in letzter Zeit erhebliches Forschungsinteresse geweckt, vor allem aufgrund ihrer Anwendungen in VR/AR und embodied AI. In dieser Arbeit behandeln wir die anspruchsvolle Aufgabe der Synthese mehrerer 3D-Assets innerhalb eines einzigen Szenenbilds. Konkret leisten wir vier wesentliche Beiträge: (i) Wir stellen SceneGen vor, einen neuartigen Ansatz, der ein Szenenbild sowie entsprechende Objektmasken als Eingabe erhält und gleichzeitig mehrere 3D-Assets mit Geometrie und Textur generiert. Besonders hervorzuheben ist, dass SceneGen ohne Optimierung oder Asset-Abfrage arbeitet; (ii) Wir führen ein neuartiges Feature-Aggregation-Modul ein, das lokale und globale Szeneninformationen aus visuellen und geometrischen Encodern im Feature-Extraktionsmodul integriert. In Verbindung mit einem Positionskopf ermöglicht dies die Generierung von 3D-Assets und ihrer relativen räumlichen Positionen in einem einzigen Feedforward-Schritt; (iii) Wir zeigen die direkte Erweiterbarkeit von SceneGen auf Szenarien mit mehreren Bildern. Trotz der alleinigen Ausbildung auf Einzelbild-Eingaben ermöglicht unsere Architektur eine verbesserte Generierungsgenauigkeit bei mehreren Bildern; und (iv) Ausführliche quantitative und qualitative Evaluierungen bestätigen die Effizienz und Robustheit unserer Methode. Wir sind überzeugt, dass dieses Paradigma eine neue Lösung für die Erzeugung hochwertiger 3D-Inhalte darstellt und potenziell die praktischen Anwendungen in nachgeschalteten Aufgaben voranbringt. Der Quellcode und das Modell werden öffentlich unter folgender Adresse verfügbar sein: https://mengmouxu.github.io/SceneGen.