SCF-Net: Lernen räumlicher Kontextmerkmale für die Segmentierung großer Punktwolken

Die Gewinnung effektiver Merkmale aus großskaligen Punktwolken für die semantische Segmentierung hat in den letzten Jahren zunehmend Aufmerksamkeit erhalten. Um dieses Problem anzugehen, stellen wir ein lernbares Modul vor, das räumliche Kontextmerkmale aus großskaligen Punktwolken lernt und in dieser Arbeit als SCF (Spatial Contextual Features) bezeichnet wird. Das vorgeschlagene Modul besteht hauptsächlich aus drei Blöcken: dem lokalen Polardarstellungsblock, dem Dual-Distanz-Attention-Pooling-Block und dem globalen Kontextmerkmalsblock. Für jeden 3D-Punkt wird zunächst der lokale Polardarstellungsblock genutzt, um eine räumliche Darstellung zu konstruieren, die invariant gegenüber Drehungen um die z-Achse ist. Anschließend wird der Dual-Distanz-Attention-Pooling-Block entworfen, um die Darstellungen benachbarter Punkte zu nutzen, um durch Berücksichtigung sowohl der geometrischen als auch der Merkmalsdistanzen zwischen ihnen differenziertere lokale Merkmale zu lernen. Schließlich wird der globale Kontextmerkmalsblock entwickelt, um für jeden 3D-Punkt einen globalen Kontext zu lernen, indem dessen räumliche Lage sowie das Volumenverhältnis der Nachbarschaft zur gesamten Punktwolke herangezogen werden. Das vorgeschlagene Modul lässt sich problemlos in verschiedene Netzarchitekturen zur Punktwolken-Segmentierung integrieren und führt natürlich zu einem neuen 3D-semantischen Segmentierungsnetzwerk mit einer Encoder-Decoder-Architektur, das in dieser Arbeit als SCF-Net bezeichnet wird. Umfangreiche Experimente auf zwei öffentlichen Datensätzen zeigen, dass das vorgeschlagene SCF-Net in den meisten Fällen die Leistung mehrerer state-of-the-art-Methoden übertrifft.