vor 2 Monaten

Point Cloud Mamba: Lernen von Punktwolken durch Modellierung des Zustandsraums

Tao Zhang; Haobo Yuan; Lu Qi; Jiangning Zhang; Qianyu Zhou; Shunping Ji; Shuicheng Yan; Xiangtai Li

Abstract

Kürzlich haben Zustandsraummodelle starke globale Modellierungsfähigkeiten und eine lineare Rechenkomplexität im Vergleich zu Transformatoren gezeigt. Diese Forschung konzentriert sich darauf, solche Architekturen anzuwenden, um Punktewolken-Daten global mit linearer Rechenkomplexität effizienter und wirksamer zu modellieren. Insbesondere zeigen wir erstmals, dass Mamba-basierte Methoden für Punktewolken frühere Ansätze, die auf Transformatoren oder Multi-Layer-Perceptrons (MLPs) basieren, übertreffen können. Um Mamba die effektivere Verarbeitung von 3D-Punktewolken-Daten zu ermöglichen, schlagen wir eine neuartige Methode der konsistenten Durchlaufserialisierung (Consistent Traverse Serialization) vor, die Punktewolken in eindimensionale Punktfolgen umwandelt und dabei sicherstellt, dass benachbarte Punkte in der Folge auch räumlich angrenzend sind. Die konsistente Durchlaufserialisierung ergibt sechs Varianten durch das Vertauschen der Reihenfolge der \textit{x}, \textit{y} und \textit{z}-Koordinaten, und die synergetische Nutzung dieser Varianten unterstützt Mamba bei der umfassenden Beobachtung von Punktewolken-Daten. Darüber hinaus führen wir Punktprompts ein, um Mamba bei der effektiveren Verarbeitung von Punktfolgen mit unterschiedlicher Reihenfolge zu unterstützen und es über die Anordnungsregeln der Folge zu informieren. Schließlich schlagen wir eine positionale Kodierung basierend auf räumlicher Koordinatenabbildung vor, um positionale Informationen in Punktewolken-Folgen effektiver einzubringen. Point Cloud Mamba übertrifft den aktuellen Stand der Technik (SOTA) in punktbasierten Methoden wie PointNeXt und erreicht neue SOTA-Leistungen auf den Datensätzen ScanObjectNN, ModelNet40, ShapeNetPart und S3DIS. Es ist erwähnenswert, dass bei Verwendung eines leistungsfähigeren lokalen Merkmalsextraktionsmoduls unser PCM einen mIoU-Wert von 79,6 auf S3DIS erreicht, was die bisherigen SOTA-Modelle DeLA und PTv3 um 5,5 mIoU und 4,9 mIoU übertreffen kann.