Mamba3D: Verbesserung lokaler Merkmale für die Analyse von 3D-Punktwolken durch ein Zustandsraummodell

Bestehende Transformer-basierte Modelle für die Analyse von Punktwolken leiden unter quadratischer Komplexität, was zu einer eingeschränkten Auflösung der Punktwolken und Informationsverlust führt. Im Gegensatz dazu übertrifft das neu vorgeschlagene Mamba-Modell, das auf Zustandsraummodellen (SSM) basiert, den Transformer in mehreren Bereichen bei nur linearer Komplexität. Allerdings erreicht eine direkte Anwendung des Mamba-Modells nicht zufriedenstellende Leistungen bei Aufgaben mit Punktwolken. In dieser Arbeit stellen wir Mamba3D vor, ein Zustandsraummodell, das speziell für das Lernen von Punktwolken optimiert ist, um die Extraktion lokaler Merkmale zu verbessern und damit eine überlegene Leistung, hohe Effizienz und Skalierbarkeitspotenzial zu erzielen. Insbesondere schlagen wir einen einfachen aber effektiven Lokalen Norm-Pooling-Block (LNP) vor, um lokale geometrische Merkmale zu extrahieren. Zudem, um bessere globale Merkmale zu erhalten, führen wir ein bidirektionales SSM (bi-SSM) ein, das sowohl ein Token-forward SSM als auch ein neues backward SSM auf dem Feature-Kanal verwendet. Ausführliche experimentelle Ergebnisse zeigen, dass Mamba3D in mehreren Aufgaben sowohl trainierte als auch untrainierte Transformer-basierte Konkurrenten und zeitgleich entwickelte Arbeiten übertrifft. Bemerkenswerterweise erreicht Mamba3D mehrere neue Standarts der Technik (SoTA), darunter eine Gesamtgenauigkeit von 92,6 % (ohne Vorabtraining) auf dem ScanObjectNN-Datensatz und 95,1 % (mit mono-modalem Vorabtraining) auf der Klassifikationsaufgabe von ModelNet40, wobei es nur lineare Komplexität aufweist. Unser Code und unsere Gewichte sind unter https://github.com/xhanxu/Mamba3D verfügbar.