Hierarchische Aggregation für die 3D-Instanzsegmentierung

Die Instanzsegmentierung auf Punktwolken ist eine grundlegende Aufgabe in der 3D-Szenenwahrnehmung. In dieser Arbeit stellen wir einen kompakten, auf Clustering basierenden Ansatz namens HAIS vor, der die räumlichen Beziehungen zwischen Punkten und Punktgruppen optimal nutzt. Da auf Clustering basierende Methoden zu Über- oder Untersegmentierung führen können, führen wir eine hierarchische Aggregation ein, die schrittweise Instanzvorschläge erzeugt: Zunächst erfolgt die Punktaggregation zur vorläufigen Gruppierung von Punkten zu Mengen, gefolgt von der Mengenaggregation zur Generierung vollständiger Instanzen aus diesen Mengen. Sobald die vollständigen 3D-Instanzen ermittelt sind, wird ein Unternetzwerk zur intra-instanzbasierten Vorhersage eingesetzt, um Rauschpunkte zu filtern und die Maskenqualität zu bewerten. HAIS ist schnell (nur 410 ms pro Frame) und erfordert keine Non-Maximum-Suppression. Auf dem ScanNet v2-Benchmark erreicht HAIS die Spitzenposition mit einem AP50 von 69,9 %, wodurch es die bisherigen State-of-the-Art-Methoden erheblich übertrifft. Zudem bestätigen die SOTA-Ergebnisse auf dem S3DIS-Datensatz die hervorragende Verallgemeinerungsfähigkeit des Ansatzes. Der Quellcode wird unter https://github.com/hustvl/HAIS verfügbar sein.