Kaskadierter Kontextpyramide für die vollständige 3D semantische Szenevervollständigung

Semantische Szenevervollständigung (SSC) strebt danach, die Volumenbesetzung und die semantische Kategorie einer 3D-Szene gleichzeitig vorherzusagen. Sie hilft intelligenten Geräten, um ihre Umgebung zu verstehen und damit zu interagieren. Aufgrund der hohen Speicheranforderungen produzieren aktuelle Methoden nur Vorhersagen mit geringer Auflösung und verlieren in der Regel die Objektdetails. Zudem ignorieren sie auch die multi-skalierten räumlichen Kontexte, die für die 3D-Inferenz eine wichtige Rolle spielen. Um diese Probleme anzugehen, schlagen wir in dieser Arbeit ein neues tiefes Lernframework vor, das als Kaskadierter Kontextpyramiden-Netzwerk (CCPNet) bezeichnet wird, um die Besetzung und semantischen Labels eines volumnetrischen 3D-Szenen aus einem einzelnen Tiefenbild gemeinsam zu inferieren. Das vorgeschlagene CCPNet verbessert die Labelkohärenz durch eine kaskadierte Kontextpyramide. Gleichzeitig restauriert es auf Basis der niedrigstufigen Features schrittweise die feinen Strukturen von Objekten mit geführten Residuallistenfeinung (GRR)-Modulen. Unser vorgeschlagenes Framework hat drei herausragende Vorteile: (1) Es modelliert den 3D-räumlichen Kontext explizit zur Leistungssteigerung; (2) Volumina mit voller Auflösung werden mit strukturbehafteten Details erzeugt; (3) Leichtgewichtige Modelle mit geringen Speicheranforderungen werden durch gute Erweiterbarkeit erreicht. Ausführliche Experimente zeigen, dass unser vorgeschlagenes Framework trotz der Verwendung einer einzigen Sicht des Tiefenbilds hochwertige SSC-Ergebnisse erzeugt und sich sowohl an den synthetischen SUNCG- als auch an den realen NYU-Datensätzen gegenüber den bislang besten Ansätzen behauptet.