Top-Down übertrifft Bottom-Up bei der 3D-Instanzsegmentierung

Die meisten Methoden zur 3D-Instanzsegmentierung nutzen eine bottom-up-Strategie, die typischerweise ressourcenintensive Nachverarbeitungsschritte beinhaltet. Bei der Punktgruppierung stützen sich bottom-up-Methoden auf vorherige Annahmen über die Objekte in Form von Hyperparametern, die domänenspezifisch sind und sorgfältig abgestimmt werden müssen. Im Gegensatz dazu behandeln wir die 3D-Instanzsegmentierung mit TD3D: dem ersten clusterfreien, vollständig konvolutionellen und ausschließlich datengetriebenen Ansatz, der end-to-end trainiert wird. Dies ist die erste top-down-Methode, die bottom-up-Ansätze im 3D-Bereich übertrifft. Dank ihres einfachen Arbeitsablaufs zeigt sie herausragende Genauigkeit und Generalisierungsfähigkeit auf den etablierten Indoor-Benchmarks ScanNet v2, seiner Erweiterung ScanNet200 sowie S3DIS, sowie auf dem luftgestützten STPLS3D-Datensatz. Zudem ist unsere Methode bei der Inferenz deutlich schneller als die derzeitigen state-of-the-art-Gruppierungsansätze: Unsere Hauptvariante ist 1,9-mal schneller als die präziseste bottom-up-Methode, während sie gleichzeitig genauer ist; unsere schnellere Variante erreicht state-of-the-art-Genauigkeit bei einer Geschwindigkeit, die 2,6-mal höher ist. Der Quellcode ist unter https://github.com/SamsungLabs/td3d verfügbar.