HyperAIHyperAI
vor 2 Monaten

Zu kompakten 3D-Darstellungen durch punktbezogene Merkmalsverstärkung und maskeierte Autoencoder

Zha, Yaohua ; Ji, Huizhen ; Li, Jinmin ; Li, Rongsheng ; Dai, Tao ; Chen, Bin ; Wang, Zhi ; Xia, Shu-Tao
Zu kompakten 3D-Darstellungen durch punktbezogene Merkmalsverstärkung und maskeierte Autoencoder
Abstract

Das Lernen von 3D-Repräsentationen spielt eine entscheidende Rolle bei maskebasierten Autoencoder-Methoden (MAE) für Punktwolken, einschließlich einmodaler und multimodaler MAE-Methoden. Insbesondere lernen multimodale MAE-Methoden durch die Unterstützung anderer modaler Wissensquellen starke 3D-Repräsentationen, leiden jedoch oft unter hohen Rechenlasten und sind stark auf große Mengen multimodaler Datensätze angewiesen, die in der Praxis häufig nicht verfügbar sind. Dies behindert ihre praktische Anwendung. Stattdessen werden einmodale Methoden, die ausschließlich Punktwolken als Eingabe verwenden, aufgrund ihrer Einfachheit und Effizienz in realen Anwendungen bevorzugt. Allerdings neigen solche Methoden dazu, bei der Verwendung globaler zufälliger Maskeneingaben begrenzte 3D-Repräsentationen zu erzeugen. Um kompakte 3D-Repräsentationen zu lernen, schlagen wir einen einfachen, aber effektiven Ansatz vor: Point Feature Enhancement Masked Autoencoders (Point-FEMAE). Dieses Modell besteht hauptsächlich aus einem globalen Ast und einem lokalen Ast zur Erfassung latenter semantischer Merkmale. Genauer gesagt wird ein Transformer-Codierer mit geteilten Parametern eingeführt, um Punkteigenschaften aus den global unmaskierten und lokal blockmaskierten Patchs zu extrahieren, die durch globale zufällige und lokale Blockmaskierungsstrategien erhalten werden. Dies wird von einem spezifischen Dekoder gefolgt, der die Rekonstruktion durchführt. Gleichzeitig schlagen wir zum weiteren Verbessern der Merkmale im lokalen Ast ein Lokales Erweiterungsmodul (Local Enhancement Module) vor, das lokale Patch-Konvolution verwendet, um feinkörnige lokale Kontexte in größeren Skalen wahrzunehmen. Unsere Methode verbessert die Effizienz des Vortrainings signifikant im Vergleich zu multimodal alternativen Ansätzen. Ausführliche Downstream-Experimente unterstreichen die Stand-of-the-Art-Effektivität unserer Methode, insbesondere übertreffen wir unseren Baseline (Point-MAE) um 5,16 %, 5,00 % und 5,04 % in drei Varianten von ScanObjectNN. Der Quellcode ist unter https://github.com/zyh16143998882/AAAI24-PointFEMAE verfügbar.