OccDepth: Eine tiefenbewusste Methode zur 3D-semantischen Szenen-Vervollständigung

3D-Semantische Szenen-Vervollständigung (Semantic Scene Completion, SSC) kann dichte geometrische und semantische Szenendarstellungen liefern, die in Bereichen wie autonomes Fahren und robotische Systeme eingesetzt werden können. Die Schätzung der vollständigen Geometrie und Semantik einer Szene allein auf Basis visueller Bilder ist herausfordernd, wobei präzise Tiefeninformationen entscheidend für die Wiederherstellung der 3D-Geometrie sind. In diesem Paper stellen wir erstmals einen Stereo-SSC-Ansatz namens OccDepth vor, der implizite Tiefeninformationen aus Stereo-Bildern (bzw. RGBD-Bildern) vollständig ausnutzt, um die Rekonstruktion 3D-geometrischer Strukturen zu unterstützen. Der Stereo-SFA-Modul (Stereo Soft Feature Assignment) wird vorgeschlagen, um 3D-tiefenbewusste Merkmale effizienter zu fusionieren, indem die implizite Korrelation zwischen Stereo-Bildern gelernt wird. Insbesondere kann bei Eingabebildern in Form von RGBD-Bildern ein virtuelles Stereo-Paar durch das ursprüngliche RGB-Bild und die Tiefenkarte generiert werden. Zudem wird der Occupancy Aware Depth (OAD)-Modul eingesetzt, um geometriebewusste 3D-Merkmale durch Knowledge Distillation mit vortrainierten Tiefenmodellen zu erzielen. Darüber hinaus wird in diesem Paper eine überarbeitete Version des TartanAir-Benchmarks, benannt als SemanticTartanAir, vorgestellt, um unsere OccDepth-Methode im SSC-Task weiter zu testen. Im Vergleich zu der aktuellen State-of-the-Art-Methode, die nur RGB-Bilder nutzt, zeigen umfangreiche Experimente auf SemanticKITTI, dass unsere OccDepth-Methode eine überlegene Leistung erzielt – mit einer Verbesserung von +4,82 % mIoU, wobei +2,49 % mIoU auf die Nutzung von Stereo-Bildern und +2,33 % mIoU auf unseren vorgeschlagenen tiefenbewussten Ansatz zurückzuführen sind. Unsere Quellcode-Implementierung und die trainierten Modelle sind unter https://github.com/megvii-research/OccDepth verfügbar.