PointNeXt: Eine erneute Betrachtung von PointNet++ mit verbesserten Trainings- und Skalierungsstrategien

PointNet++ ist eine der einflussreichsten neuronalen Architekturen für die Verarbeitung von Punktwolken. Obwohl die Genauigkeit von PointNet++ weitgehend von aktuellen Netzwerken wie PointMLP und Point Transformer übertroffen wurde, haben wir festgestellt, dass ein großer Teil des Leistungsfortschritts auf verbesserte Trainingsstrategien, d.h. Datenverstärkung und Optimierungstechniken, sowie größere Modellgrößen zurückzuführen ist, anstatt auf architektonische Innovationen. Daher ist das volle Potenzial von PointNet++ noch nicht vollständig erschlossen. In dieser Arbeit untersuchen wir die klassische PointNet++ systematisch durch eine Studie der Trainings- und Skalierungsstrategien und leisten zwei wesentliche Beiträge. Erstens schlagen wir eine Reihe von verbesserten Trainingsstrategien vor, die die Leistung von PointNet++ erheblich steigern. Zum Beispiel zeigen wir, dass ohne jede Änderung der Architektur die Gesamtgenauigkeit (Overall Accuracy, OA) von PointNet++ bei der Objektklassifikation mit ScanObjectNN von 77,9 % auf 86,1 % gesteigert werden kann, was sogar den neuesten Stand der Technik in Form von PointMLP übertrifft. Zweitens integrieren wir ein invertiertes Residual-Flaschenhalsdesign und trennbare MLPs (Multi-Layer Perceptrons) in PointNet++, um effizientes und effektives Modellskalieren zu ermöglichen, und stellen PointNeXt vor – die nächste Generation der PointNets. PointNeXt kann flexibel skaliert werden und übertrifft den aktuellen Stand der Technik sowohl bei 3D-Klassifikations- als auch bei Segmentierungsaufgaben. Bei der Klassifikation erreicht PointNeXt eine Gesamtgenauigkeit von 87,7 % auf ScanObjectNN, was 2,3 % mehr als PointMLP ist und gleichzeitig zehnmal schneller im Inferenzprozess ist. Bei der semantischen Segmentierung etabliert PointNeXt einen neuen Stand der Technik mit einem mittleren IoU (Intersection over Union) von 74,9 % auf S3DIS (6-fach Kreuzvalidierung), wobei es dem jüngsten Point Transformer überlegen ist. Der Code und die Modelle sind unter https://github.com/guochengqian/pointnext verfügbar.