Gemeinsame 3D-Instanzsegmentierung und Objekterkennung für autonome Fahrzeuge

Derzeit betrachten die meisten Frameworks für die 3D-Objektdetektion im Bereich des autonomen Fahrens (AD), unabhängig davon, ob sie auf Anchors oder anchor-free Ansätzen basieren, die Detektion als ein Bounding Box (BBox)-Regression-Problem. Diese kompakte Darstellung reicht jedoch nicht aus, um alle Informationen über die Objekte vollständig zu erfassen. Um dieses Problem anzugehen, schlagen wir ein einfaches, aber praktikables Detektionsframework vor, das die gleichzeitige Vorhersage von 3D-BBox und Instanzsegmentierung ermöglicht. Für die Instanzsegmentierung führen wir eine Strategie basierend auf Spatial Embeddings (SEs) ein, um alle Hintergrundpunkte in deren jeweilige Objekzentren zu gruppieren. Auf Basis der SE-Ergebnisse können Objektvorschläge mittels einer einfachen Clustering-Strategie generiert werden, wobei für jede Cluster-Gruppe genau ein Vorschlag erzeugt wird. Dadurch entfällt hier die Notwendigkeit einer Non-Maximum-Suppression (NMS)-Schritt. Schließlich wird die BBox mittels eines von uns vorgeschlagenen, instanzbewussten ROI-Pooling-Verfahrens durch ein zweistufiges Netzwerk verfeinert. Experimentelle Ergebnisse auf dem öffentlichen KITTI-Datensatz zeigen, dass die vorgeschlagene SE-Strategie die Ergebnisse der Instanzsegmentierung im Vergleich zu anderen auf Feature-Embedding basierenden Methoden signifikant verbessert. Gleichzeitig erreicht das vorgeschlagene Verfahren auch eine überlegene Leistung gegenüber den meisten bestehenden 3D-Objektdetektoren im KITTI-Testbenchmark.