HyperAIHyperAI
vor 2 Monaten

Point-M2AE: Mehrskalige maskierte Autoencoder für hierarchische Punktwolken-Prätraining

Zhang, Renrui ; Guo, Ziyu ; Fang, Rongyao ; Zhao, Bin ; Wang, Dong ; Qiao, Yu ; Li, Hongsheng ; Gao, Peng
Point-M2AE: Mehrskalige maskierte Autoencoder für hierarchische Punktwolken-Prätraining
Abstract

Masked Autoencoders (MAE) haben großes Potenzial in der selbstüberwachten Vortrainung für Sprach- und 2D-Bild-Transformer gezeigt. Allerdings bleibt die Frage offen, wie man maskierte Autoencoding zur Lernung von 3D-Repräsentationen unregelmäßiger Punktwolken nutzen kann. In dieser Arbeit schlagen wir Point-M2AE vor, ein leistungsfähiges Mehrskalen-MAE-Vortrainierungsframework für hierarchisches selbstüberwachtes Lernen von 3D-Punktwolken. Im Gegensatz zum Standard-Transformer in MAE modifizieren wir den Encoder und den Decoder zu Pyramidenarchitekturen, um räumliche Geometrien schrittweise zu modellieren und sowohl feingranuläre als auch hochrangige Semantiken von 3D-Formen zu erfassen. Für den Encoder, der die Punkttoken in Stufen abtastet, entwickeln wir eine mehrskalige Maskierungsstrategie, um konsistente sichtbare Bereiche über die Skalen hinweg zu generieren, und verwenden während des Feinabstimmens einen lokalen räumlichen Selbst-Aufmerksamkeitsmechanismus (Self-Attention Mechanism), um sich auf benachbarte Muster zu konzentrieren. Durch die mehrskalige Tokenverbreitung upsampliert der leichtgewichtige Decoder die Punkttoken allmählich mit komplementären Skip-Verbindungen vom Encoder, was die Rekonstruktion aus einer global-zu-lokalen Perspektive weiter fördert.Ausführliche Experimente zeigen die Spitzenleistung von Point-M2AE bei der Lernung von 3D-Repräsentationen. Mit einem nach der Vortrainierung gefrorenen Encoder erreicht Point-M2AE eine Genauigkeit von 92,9 % bei der linearen SVM auf ModelNet40, was sogar einige vollständig trainierte Methoden übertrifft. Durch das Feinabstimmen an Downstream-Aufgaben erreicht Point-M2AE eine Genauigkeit von 86,43 % auf ScanObjectNN, was +3,36 % gegenüber dem zweitbesten Ergebnis ist und das hierarchische Vortrainierungsschema stark fördernd für Few-Shot-Klassifikation, Segmentierung von Teilen und 3D-Objekterkennung ist. Der Quellcode ist unter https://github.com/ZrrSkywalker/Point-M2AE verfügbar.

Point-M2AE: Mehrskalige maskierte Autoencoder für hierarchische Punktwolken-Prätraining | Neueste Forschungsarbeiten | HyperAI