3D-Instanzsegmentierung durch Mehrfachaufgaben-Metriklernen

Wir schlagen eine neuartige Methode für die Instanzlabel-Segmentierung dichter 3D-Voxel-Gitter vor. Unser Ziel sind volumetrische Szene-Darstellungen, die mit Tiefensensoren oder multiview Stereo-Methoden erfasst und mit semantischer 3D-Rekonstruktion oder Szene-Vervollständigungs-Methoden verarbeitet wurden. Die Hauptaufgabe besteht darin, Forminformationen einzelner Objektinstanzen zu lernen, um diese präzise voneinander zu trennen, einschließlich verbundener und unvollständig gescannter Objekte. Wir lösen das Problem der 3D-Instanzlabelung durch eine Strategie des Multi-Task-Learnings. Das erste Ziel ist es, eine abstrakte Merkmalsdarstellung zu lernen, die Voxel mit demselben Instanzlabel nahe beieinander gruppiert, während Clustern mit unterschiedlichen Instanzlabels voneinander getrennt werden. Das zweite Ziel besteht darin, Instanzinformationen durch dichte Schätzung der Richtungsinformation des Schwerpunkts jeder Instanz für jedes Voxel zu lernen. Dies ist besonders nützlich, um Instanzgrenzen im Clustering-Nachbearbeitungsschritt zu finden sowie zur Bewertung der Segmentierungsqualität für das erste Ziel. Sowohl synthetische als auch realweltliche Experimente zeigen die Machbarkeit und Vorzüge unseres Ansatzes. Tatsächlich erreicht er den Stand der Technik auf dem ScanNet 3D-Instanzsegmentierungs-Benchmark.