HyperAIHyperAI
vor 2 Monaten

MonoScene: Monokulare 3D-Semantische Szenevervollständigung

Cao, Anh-Quan ; de Charette, Raoul
MonoScene: Monokulare 3D-Semantische Szenevervollständigung
Abstract

MonoScene schlägt einen Framework für die 3D-Semantische Szenevervollständigung (SSC) vor, bei dem die dichte Geometrie und Semantik einer Szene aus einem einzelnen monokularen RGB-Bild abgeleitet werden. Im Gegensatz zur SSC-Literatur, die auf 2,5D- oder 3D-Eingaben basiert, lösen wir das komplexe Problem der 2D-zu-3D-Szenenrekonstruktion, während wir gleichzeitig ihre Semantik inferieren. Unser Framework basiert auf aufeinanderfolgenden 2D- und 3D-UNets, die durch eine neuartige 2D-3D-Features-Projektion verbunden sind, die sich von optischen Prinzipien ableitet, und führt ein 3D-Kontextbeziehungs-Prior ein, um räumliche und semantische Konsistenz zu gewährleisten. Neben architektonischen Beiträgen stellen wir neuartige globale Szenen- und lokale Frustumverlustfunktionen vor. Experimente zeigen, dass wir in allen Metriken und Datensätzen die Literatur übertrumpfen und plausibel erscheinende Szenen sogar jenseits des Kamerasichtfeldes generieren können. Unser Code und unsere trainierten Modelle sind unter https://github.com/cv-rits/MonoScene verfügbar.