ConDaFormer: Disassembled Transformer mit lokaler Strukturverbesserung für das Verständnis von 3D-Punktwolken

Transformers wurden kürzlich für die Verarbeitung von 3D-Punktwolken untersucht, wobei beeindruckende Fortschritte erzielt wurden. Die große Anzahl an Punkten – oft über 100.000 – macht die globale Self-Attention für Punktwolken-Daten jedoch unpraktikabel. Daher schlagen die meisten Methoden vor, den Transformer in lokalen Regionen, beispielsweise in sphärischen oder kubischen Fenstern, einzusetzen. Dennoch enthalten diese weiterhin eine große Anzahl von Query-Key-Paaren, was hohe Rechenkosten verursacht. Zudem lernen frühere Ansätze Query, Key und Value typischerweise mittels linearer Projektion, ohne die lokale 3D-Geometriestruktur explizit zu modellieren. In diesem Artikel entwickeln wir einen neuen Transformer-Block namens ConDaFormer, um die Rechenkosten zu senken und die lokale Geometrie zu berücksichtigen. Technisch zerlegt ConDaFormer das kubische Fenster in drei zueinander orthogonale 2D-Ebenen, wodurch bei vergleichbarer Aufmerksamkeitsreichweite weniger Punkte zu verarbeiten sind. Diese Zerlegung ermöglicht eine Erweiterung des Aufmerksamkeitsbereichs ohne zusätzlichen Rechenaufwand, ignoriert jedoch teilweise kontextuelle Informationen. Um dies zu kompensieren, entwickeln wir eine Strategie zur Verbesserung der lokalen Struktur, die eine separable Faltungsoperation vor und nach der Aufmerksamkeitsberechnung einführt. Diese Architektur kann zudem lokale geometrische Informationen effektiv erfassen. Durch die Kombination dieser Entwürfe erfasst ConDaFormer sowohl langreichweitige Kontextinformationen als auch lokale geometrische Vorkenntnisse. Die Wirksamkeit wird an mehreren etablierten Benchmarks für die 3D-Punktwolken-Verarbeitung nachgewiesen. Der Quellcode ist unter https://github.com/LHDuan/ConDaFormer verfügbar.