HyperAIHyperAI

Command Palette

Search for a command to run...

Lernen von 3D-Darstellungen aus 2D-vorgefertigten Modellen durch Bild-zu-Punkt-Maskierte Autoencoder

Zhang Renrui ; Wang Liuhui ; Qiao Yu ; Gao Peng ; Li Hongsheng

Zusammenfassung

Die Vortraining mit zahlreichen Bilddaten ist inzwischen zum Standard für robuste 2D-Darstellungen geworden. Im Gegensatz dazu behindert der teure Datenerwerb und die Annotation die Lernprozesse für hochwertige 3D-Features erheblich, da es an umfangreichen 3D-Datensätzen mangelt. In dieser Arbeit schlagen wir eine Alternative vor, um überlegene 3D-Darstellungen aus 2D-vortrainierten Modellen durch Image-to-Point Masked Autoencoders (I2P-MAE) zu erzielen. Durch selbstüberwachtes Vortraining nutzen wir das gut erlernte 2D-Wissen, um die 3D-maskierte Autoencoding zu leiten, welche die maskierten Punkttoken mit einer Encoder-Decoder-Architektur rekonstruiert. Insbesondere verwenden wir zunächst standardisierte 2D-Modelle, um die multiview-basierten visuellen Features des Eingabe-Punktwolkenmodells zu extrahieren, und führen dann zwei Arten von Bild-zu-Punkt-Lernverfahren durch. Zum einen führen wir eine 2D-gesteuerte Maskierungsstrategie ein, die semantisch wichtige Punkttoken sichtbar für den Encoder hält. Im Vergleich zur zufälligen Maskierung kann das Netzwerk sich besser auf signifikante 3D-Strukturen konzentrieren und die maskierten Token aus wesentlichen räumlichen Hinweisen wiederherstellen. Zum anderen zwingen wir diese sichtbaren Token, nach dem Decoder die entsprechenden multiview-basierten 2D-Features zu rekonstruieren. Dies ermöglicht es dem Netzwerk, effektiv hochwertige 2D-Semantiken von reichhaltigen Bilddaten für diskriminative 3D-Modellierung zu übernehmen. Mit Unterstützung unseres Bild-zu-Punkt-Vortrainings erreicht das gefrorene I2P-MAE ohne weitere Feinabstimmung eine Genauigkeit von 93,4 % bei der linearen SVM auf ModelNet40, was vergleichbar mit den vollständig trainierten Ergebnissen bestehender Methoden ist. Durch zusätzliche Feinabstimmung auf der schwierigsten Aufteilung von ScanObjectNN erreicht I2P-MAE eine Stand-of-the-Art-Genauigkeit von 90,11 %, was +3,68 % gegenüber dem zweitbesten Ergebnis darstellt und seine überlegene Transferkapazität unter Beweis stellt. Der Code wird unter https://github.com/ZrrSkywalker/I2P-MAE zur Verfügung gestellt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp