SAT: Size-Aware Transformer für die semantische Segmentierung von 3D-Punktwolken

Transformer-Modelle haben vielversprechende Leistungen bei der Punktewolken-Segmentierung erzielt. Allerdings bieten die meisten existierenden Aufmerksamkeitsansätze für alle Punkte gleichermaßen dieselbe Merkmalslernparadigma und vernachlässigen die erheblichen Unterschiede in der Größe zwischen Objekten in Szenen. In diesem Artikel stellen wir den Size-Aware Transformer (SAT) vor, der effektive Empfindungsfelder für Objekte unterschiedlicher Größe anpassen kann. Unser SAT erreicht eine größenbewusste Lernstrategie in zwei Schritten: durch die Einbeziehung mehrskaliger Merkmale in jede Aufmerksamkeits-Schicht und durch die Erlaubnis, dass jeder Punkt seine Aufmerksamkeitsfelder adaptiv wählt. Der Ansatz basiert auf zwei zentralen Designelementen: dem Multi-Granularity Attention (MGA)-Schema und dem Re-Attention-Modul. Das MGA löst zwei Herausforderungen: die effiziente Aggregation von Tokens aus entfernten Bereichen und die Erhaltung mehrskaliger Merkmale innerhalb einer einzigen Aufmerksamkeits-Schicht. Konkret wird die Punkt-Voxel-Kreuz-Aufmerksamkeit vorgeschlagen, um die erste Herausforderung zu bewältigen, während eine geschaltete Strategie auf Basis der herkömmlichen Multi-Head-Self-Attention die zweite löst. Das Re-Attention-Modul passt dynamisch die Aufmerksamkeits-Scores für die fein- und grobkörnigen Merkmale an, die von MGA für jeden Punkt ausgegeben werden. Ausführliche experimentelle Ergebnisse zeigen, dass SAT state-of-the-art-Leistungen auf den Datensätzen S3DIS und ScanNetV2 erzielt. Zudem erreicht unser SAT die ausgewogenste Leistung über alle Kategorien im Vergleich zu allen referenzierten Methoden, was die Überlegenheit des Modellierens von Objekten unterschiedlicher Größen unterstreicht. Der Quellcode und das Modell werden nach der Akzeptanz dieses Artikels veröffentlicht.