HyperAIHyperAI
vor 2 Monaten

Lernen von 3D-Darstellungen aus 2D-vorgefertigten Modellen durch Bild-zu-Punkt-Maskierte Autoencoder

Zhang, Renrui ; Wang, Liuhui ; Qiao, Yu ; Gao, Peng ; Li, Hongsheng
Lernen von 3D-Darstellungen aus 2D-vorgefertigten Modellen durch
Bild-zu-Punkt-Maskierte Autoencoder
Abstract

Die Vortraining mit zahlreichen Bilddaten ist inzwischen zum Standard für robuste 2D-Darstellungen geworden. Im Gegensatz dazu behindert der teure Datenerwerb und die Annotation die Lernprozesse für hochwertige 3D-Features erheblich, da es an umfangreichen 3D-Datensätzen mangelt. In dieser Arbeit schlagen wir eine Alternative vor, um überlegene 3D-Darstellungen aus 2D-vortrainierten Modellen durch Image-to-Point Masked Autoencoders (I2P-MAE) zu erzielen. Durch selbstüberwachtes Vortraining nutzen wir das gut erlernte 2D-Wissen, um die 3D-maskierte Autoencoding zu leiten, welche die maskierten Punkttoken mit einer Encoder-Decoder-Architektur rekonstruiert. Insbesondere verwenden wir zunächst standardisierte 2D-Modelle, um die multiview-basierten visuellen Features des Eingabe-Punktwolkenmodells zu extrahieren, und führen dann zwei Arten von Bild-zu-Punkt-Lernverfahren durch. Zum einen führen wir eine 2D-gesteuerte Maskierungsstrategie ein, die semantisch wichtige Punkttoken sichtbar für den Encoder hält. Im Vergleich zur zufälligen Maskierung kann das Netzwerk sich besser auf signifikante 3D-Strukturen konzentrieren und die maskierten Token aus wesentlichen räumlichen Hinweisen wiederherstellen. Zum anderen zwingen wir diese sichtbaren Token, nach dem Decoder die entsprechenden multiview-basierten 2D-Features zu rekonstruieren. Dies ermöglicht es dem Netzwerk, effektiv hochwertige 2D-Semantiken von reichhaltigen Bilddaten für diskriminative 3D-Modellierung zu übernehmen. Mit Unterstützung unseres Bild-zu-Punkt-Vortrainings erreicht das gefrorene I2P-MAE ohne weitere Feinabstimmung eine Genauigkeit von 93,4 % bei der linearen SVM auf ModelNet40, was vergleichbar mit den vollständig trainierten Ergebnissen bestehender Methoden ist. Durch zusätzliche Feinabstimmung auf der schwierigsten Aufteilung von ScanObjectNN erreicht I2P-MAE eine Stand-of-the-Art-Genauigkeit von 90,11 %, was +3,68 % gegenüber dem zweitbesten Ergebnis darstellt und seine überlegene Transferkapazität unter Beweis stellt. Der Code wird unter https://github.com/ZrrSkywalker/I2P-MAE zur Verfügung gestellt.