Entkoppelte lokale Aggregation für das Lernen von Punktwolken

Die unstrukturierte Natur von Punktwolken erfordert, dass die lokale Aggregation sich an verschiedene lokale Strukturen anpasst. Vorherige Methoden erfüllen dies, indem sie räumliche Beziehungen in jeden Aggregationsprozess explizit einbetten. Obwohl dieser gekoppelte Ansatz als effektiv bei der Erzeugung klarer Semantiken nachgewiesen wurde, kann die Aggregation durch wiederholtes Relationserlernen und redundante Berechnungen zur Mischung von Richtungs- und Punkteigenschaften stark verlangsamt werden. In dieser Arbeit schlagen wir vor, das explizite Modellieren von räumlichen Beziehungen von der lokalen Aggregation zu trennen (decouple). Wir beweisen theoretisch, dass grundlegende Nachbarschaftspoolingoperationen auch ohne Verlust der Klarheit in der Merkmalsfusion funktionieren können, solange wesentliche räumliche Informationen in den Punkteigenschaften kodiert sind. Als Instanzierung der getrennten lokalen Aggregation präsentieren wir DeLA, ein leichtgewichtigtes Punktnetzwerk (lightweight point network), in dem in jeder Lernphase zunächst relative räumliche Kodierungen gebildet werden und dann nur punktweise Faltungen plus Kantennormierung (edge max-pooling) für die lokale Aggregation verwendet werden. Zudem wird ein Regularisierungsterm eingesetzt, um potenzielle Ambiguität durch die Vorhersage relativer Koordinaten zu reduzieren. Obwohl konzeptionell einfach, zeigen experimentelle Ergebnisse auf fünf klassischen Benchmarks, dass DeLA mit reduzierter oder vergleichbarer Latenz den aktuellen Stand der Technik erreicht. Insbesondere erreicht DeLA eine Gesamtgenauigkeit von über 90 % auf ScanObjectNN und einen mIoU-Wert von 74 % auf S3DIS Area 5. Unser Code ist unter https://github.com/Matrix-ASC/DeLA verfügbar.