Lernen von Objektbegrenzungsboxen für die 3D-Instanzsegmentierung in Punktwolken

Wir schlagen einen neuartigen, konzeptuell einfachen und allgemeinen Ansatz für die Instanzsegmentierung in 3D-Punktwolken vor. Unsere Methode, 3D-BoNet genannt, folgt der einfachen Designphilosophie von punktweisen mehrschichtigen Perzeptronen (MLPs). Das Framework regressiert direkt 3D-Bounding-Boxen für alle Instanzen in einer Punktwolke und prognostiziert gleichzeitig ein punktbezogenes Maskierungsmodell für jede Instanz. Es besteht aus einem Backbone-Netzwerk, das von zwei parallelen Netzwerkzweigen gefolgt wird: 1) Regression von Bounding Boxen und 2) Vorhersage von Punktmasken. 3D-BoNet ist einstufig, ohne Ankerpunkte (anchor-free) und kann end-to-end trainiert werden. Darüber hinaus ist es bemerkenswert rechnerisch effizient, da es im Gegensatz zu bestehenden Ansätzen keine nachfolgenden Verarbeitungsschritte wie Non-Maximum-Suppression, Feature-Sampling, Clustering oder Voting erfordert. Umfangreiche Experimente zeigen, dass unser Ansatz sowohl auf den ScanNet- als auch auf den S3DIS-Datensätzen bestehende Arbeiten übertrifft und dabei etwa zehnmal rechnerisch effizienter ist. Detaillierte Abstraktionsstudien (Ablation studies) demonstrieren die Effektivität unserer Designentscheidungen.