Punktewolke-Klassifizierung mittels clustergestützter, inhaltsbasierter Transformer im Merkmalsraum

Kürzlich wurden einige Versuche unternommen, Transformer in der Klassifizierung von 3D-Punktwolken einzusetzen. Um die Berechnungen zu reduzieren, konzentrieren sich die meisten existierenden Methoden auf lokale räumliche Aufmerksamkeit, ignorieren jedoch deren Inhalt und schaffen es nicht, Beziehungen zwischen entfernten, aber relevanten Punkten herzustellen. Um die Einschränkungen der lokalen räumlichen Aufmerksamkeit zu überwinden, schlagen wir eine punktbasierte Transformer-Architektur vor, kurz PointConT genannt. Diese nutzt die Lokalität der Punkte im Merkmalsraum (inhaltsbasiert), indem sie die abgetasteten Punkte mit ähnlichen Merkmalen in dieselbe Klasse gruppieren und die Selbstaufmerksamkeit innerhalb jeder Klasse berechnen. Dies ermöglicht einen effektiven Kompromiss zwischen der Erfassung langer Abhängigkeiten und der rechnerischen Komplexität. Wir führen zudem einen Inception-Merkmalsaggregator für die Klassifizierung von Punktwolken ein, der parallele Strukturen verwendet, um in jeder Ast hochfrequente und niedrigfrequente Informationen separat zu aggregieren. Ausführliche Experimente zeigen, dass unser PointConT-Modell eine bemerkenswerte Leistung bei der Formklassifizierung von Punktwolken erzielt. Insbesondere erreicht unsere Methode eine Top-1-Genauigkeit von 90,3 % bei der schwierigsten Einstellung des ScanObjectNN-Datensatzes. Der Quellcode dieses Papers ist unter https://github.com/yahuiliu99/PointConT verfügbar.