Lernen einer Multi-View-Aggregation in der Wildnis für die großskalige 3D-Semantische Segmentierung

Neuere Arbeiten zur 3D-Semantiksegmentierung schlagen vor, die Synergie zwischen Bildern und Punktwolken auszunutzen, indem jeweils ein spezialisierter Netzwerk für jede Modality eingesetzt und die gelernten 2D-Features auf 3D-Punkte projiziert werden. Die Fusion großer Punktwolken mit Bildern wirft mehrere Herausforderungen auf, darunter die Erstellung einer Abbildung zwischen Punkten und Pixeln sowie die Aggregation von Features über mehrere Ansichten hinweg. Aktuelle Methoden erfordern eine Mesh-Rekonstruktion oder spezialisierte Sensoren zur Wiederherstellung von Verdeckungen und nutzen Heuristiken zur Auswahl und Aggregation verfügbarer Bilder. Im Gegensatz dazu schlagen wir ein end-to-end trainierbares Mehransichts-Aggregationsmodell vor, das die Sichtbedingungen von 3D-Punkten nutzt, um Features aus Bildern aus beliebigen Positionen zu fusionieren. Unser Ansatz kann herkömmliche 2D- und 3D-Netzwerke kombinieren und übertrifft sowohl 3D-Modelle, die auf farbcodierten Punktwolken arbeiten, als auch hybride 2D/3D-Netzwerke – ohne dass eine Farbcodierung, Meshing oder echte Tiefenkarten erforderlich sind. Wir erreichen eine neue State-of-the-Art-Leistung für die großskalige Innen- und Außenraum-Semantiksegmentierung auf S3DIS (74,7 mIoU, 6-Fold) und KITTI-360 (58,3 mIoU). Unser vollständiger Pipeline ist unter https://github.com/drprojects/DeepViewAgg verfügbar und erfordert lediglich rohe 3D-Scans sowie eine Sammlung von Bildern und Pose-Informationen.