Stratifizierter Transformer für die Segmentierung von 3D-Punktwolken

Die Segmentierung von 3D-Punktwolken hat in den letzten Jahren erhebliche Fortschritte gemacht. Die meisten aktuellen Methoden konzentrieren sich auf die Aggregation lokaler Merkmale, verfehlen jedoch die direkte Modellierung langstreckiger Abhängigkeiten. In diesem Artikel stellen wir den Stratified Transformer vor, der in der Lage ist, langstreckige Kontextinformationen zu erfassen und gleichzeitig eine starke Verallgemeinerungsfähigkeit sowie hohe Leistung zeigt. Konkret führen wir zunächst eine neuartige Schlüsselabtaststrategie ein. Für jeden Abfragepunkt werden benachbarte Punkte dicht und entfernte Punkte spärlich stratifiziert als Schlüssel abgetastet, wodurch das effektive Empfangsfeld erweitert wird und die Modellierung langstreckiger Kontexte mit geringem Rechenaufwand möglich wird. Zudem schlagen wir eine erste Schicht zur Punkt-Embedding-Integration vor, um lokale Informationen effektiv zu aggregieren, was die Konvergenz beschleunigt und die Leistung steigert. Außerdem verwenden wir eine kontextuelle relative Positionscodierung, um Positionsinformationen adaptiv zu erfassen. Schließlich wird eine speicher-effiziente Implementierung vorgestellt, um die Herausforderung unterschiedlicher Punktanzahlen innerhalb jedes Fensters zu bewältigen. Umfangreiche Experimente belegen die Wirksamkeit und Überlegenheit unserer Methode auf den Datensätzen S3DIS, ScanNetv2 und ShapeNetPart. Der Quellcode ist unter https://github.com/dvlab-research/Stratified-Transformer verfügbar.