Point Transformer V2: Grouped Vector Attention und partitionsbasierte Pooling

Als eine wegweisende Arbeit zur Anwendung architektonischer Ansätze des Transformers auf die Verarbeitung von 3D-Punktwolken erzielt der Point Transformer beeindruckende Ergebnisse auf mehreren anspruchsvollen und hochkompetitiven Benchmarks. In dieser Arbeit analysieren wir die Limitierungen des ursprünglichen Point Transformer und stellen unser leistungsstarkes und effizientes Modell Point Transformer V2 vor, das durch neuartige Architekturen die Schwächen vorheriger Ansätze überwindet. Insbesondere führen wir zunächst die Gruppenvektor-Attention ein, die effektiver ist als die vorherige Version der Vektor-Attention. Unter der Erhaltung der Vorteile sowohl der lernbaren Gewichtscodierung als auch der Multi-Head-Attention präsentieren wir eine hochwirksame Implementierung der gruppierten Vektor-Attention mit einer neuartigen Gruppen-Gewichtscodierungsschicht. Zudem verstärken wir die Positionsinformationen für die Attention durch einen zusätzlichen Multiplikator für die Positionscodierung. Darüber hinaus entwickeln wir neuartige und leichtgewichtige, auf Partitionierung basierende Pooling-Methoden, die eine bessere räumliche Ausrichtung und effizientere Abtastung ermöglichen. Umfangreiche Experimente zeigen, dass unser Modell sowohl gegenüber seiner Vorgänger-Version eine bessere Leistung erzielt als auch state-of-the-art Ergebnisse auf mehreren anspruchsvollen Benchmarks zur 3D-Punktwolkenverarbeitung erzielt, darunter die 3D-Punktwolken-Segmentierung auf ScanNet v2 und S3DIS sowie die 3D-Punktwolken-Klassifikation auf ModelNet40. Der Quellcode wird unter https://github.com/Gofinge/PointTransformerV2 verfügbar sein.