HyperAIHyperAI

Command Palette

Search for a command to run...

Zu kompakten 3D-Darstellungen durch punktbezogene Merkmalsverstärkung und maskeierte Autoencoder

Zha Yaohua ; Ji Huizhen ; Li Jinmin ; Li Rongsheng ; Dai Tao ; Chen Bin ; Wang Zhi ; Xia Shu-Tao

Zusammenfassung

Das Lernen von 3D-Repräsentationen spielt eine entscheidende Rolle bei maskebasierten Autoencoder-Methoden (MAE) für Punktwolken, einschließlich einmodaler und multimodaler MAE-Methoden. Insbesondere lernen multimodale MAE-Methoden durch die Unterstützung anderer modaler Wissensquellen starke 3D-Repräsentationen, leiden jedoch oft unter hohen Rechenlasten und sind stark auf große Mengen multimodaler Datensätze angewiesen, die in der Praxis häufig nicht verfügbar sind. Dies behindert ihre praktische Anwendung. Stattdessen werden einmodale Methoden, die ausschließlich Punktwolken als Eingabe verwenden, aufgrund ihrer Einfachheit und Effizienz in realen Anwendungen bevorzugt. Allerdings neigen solche Methoden dazu, bei der Verwendung globaler zufälliger Maskeneingaben begrenzte 3D-Repräsentationen zu erzeugen. Um kompakte 3D-Repräsentationen zu lernen, schlagen wir einen einfachen, aber effektiven Ansatz vor: Point Feature Enhancement Masked Autoencoders (Point-FEMAE). Dieses Modell besteht hauptsächlich aus einem globalen Ast und einem lokalen Ast zur Erfassung latenter semantischer Merkmale. Genauer gesagt wird ein Transformer-Codierer mit geteilten Parametern eingeführt, um Punkteigenschaften aus den global unmaskierten und lokal blockmaskierten Patchs zu extrahieren, die durch globale zufällige und lokale Blockmaskierungsstrategien erhalten werden. Dies wird von einem spezifischen Dekoder gefolgt, der die Rekonstruktion durchführt. Gleichzeitig schlagen wir zum weiteren Verbessern der Merkmale im lokalen Ast ein Lokales Erweiterungsmodul (Local Enhancement Module) vor, das lokale Patch-Konvolution verwendet, um feinkörnige lokale Kontexte in größeren Skalen wahrzunehmen. Unsere Methode verbessert die Effizienz des Vortrainings signifikant im Vergleich zu multimodal alternativen Ansätzen. Ausführliche Downstream-Experimente unterstreichen die Stand-of-the-Art-Effektivität unserer Methode, insbesondere übertreffen wir unseren Baseline (Point-MAE) um 5,16 %, 5,00 % und 5,04 % in drei Varianten von ScanObjectNN. Der Quellcode ist unter https://github.com/zyh16143998882/AAAI24-PointFEMAE verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Zu kompakten 3D-Darstellungen durch punktbezogene Merkmalsverstärkung und maskeierte Autoencoder | Paper | HyperAI