PatchFormer: Ein effizienter Point Transformer mit Patch-Attention

Die Gemeinschaft des Point Cloud Learning erlebt einen Modellierungswechsel von CNNs hin zu Transformers, wobei reine Transformer-Architekturen die höchste Genauigkeit auf den wichtigsten Lernbenchmarks erzielt haben. Allerdings sind bestehende Point Transformers rechenintensiv, da sie eine große Aufmerksamkeitskarte generieren müssen, die eine quadratische Komplexität (sowohl in Raum als auch in Zeit) bezüglich der Eingabegröße aufweist. Um diesen Nachteil zu beheben, führen wir Patch ATtention (PAT) ein, das adaptiv eine viel kleinere Menge an Basiselementen lernt, auf deren Grundlage die Aufmerksamkeitskarten berechnet werden. Durch eine gewichtete Summation dieser Basiselemente erfasst PAT nicht nur den globalen Formkontext, sondern erreicht zudem eine lineare Komplexität bezüglich der Eingabegröße. Darüber hinaus schlagen wir einen leichtgewichtigen Multi-Scale aTtention (MST)-Block vor, der Aufmerksamkeit zwischen Merkmalen verschiedener Skalen ermöglicht und dem Modell damit multiskalare Merkmale verleiht. Mit der Kombination von PAT und MST konstruieren wir unsere neuronale Architektur PatchFormer, die beide Module in einem gemeinsamen Rahmen für das Point Cloud Learning integriert. Umfangreiche Experimente zeigen, dass unser Netzwerk bei allgemeinen Aufgaben im Bereich des Point Cloud Learning eine vergleichbare Genauigkeit erreicht, jedoch eine 9,2-fache Beschleunigung im Vergleich zu früheren Point Transformers bietet.