HyperAIHyperAI

Command Palette

Search for a command to run...

Autoencoder als Kreuzmodale Lehrer: Können vortrainierte 2D-Bild-Transformer das 3D-Darstellungslernen unterstützen?

Runpei Dong Zekun Qi Linfeng Zhang Junbo Zhang Jianjian Sun Zheng Ge Li Yi Kaisheng Ma

Zusammenfassung

Der Erfolg des Deep Learnings hängt stark von großen Datenmengen mit umfassenden Labels ab, die im 3D-Bereich teurer und zeitaufwendiger zu beschaffen sind als bei 2D-Bildern oder natürlichen Sprachen. Dies fördert das Potenzial der Nutzung von Modellen, die mit mehr als 3D-Daten vortrainiert wurden, als Lehrer für die übermodale Wissensübertragung. In dieser Arbeit untersuchen wir maskiertes Modellieren in einem vereinheitlichten Ansatz der Wissensdistillierung und zeigen, dass grundlegende Transformer, die mit 2D-Bildern oder natürlichen Sprachen vortrainiert wurden, durch das Training von Autoencodern als übermodale Lehrer (ACT) dem selbstüberwachten Lernen von 3D-Repräsentationen helfen können. Die vortrainierten Transformer werden mittels diskreter Variationsautoencoder-Selbstüberwachung als übermodale 3D-Lehrer transferiert, wobei die Transformer durch Prompt-Tuning eingefroren werden, um eine bessere Wissensvererbung zu gewährleisten. Die latente Merkmalsdarstellung, die durch die 3D-Lehrer kodiert wird, dient als Ziel für das maskierte Punktemodellieren, wobei das implizite Wissen an die 3D-Transformer-Schüler destilliert wird, um ein grundlegendes geometrisches Verständnis zu erlangen. Unser ACT-vortrainierter 3D-Lerner erreicht den aktuellen Stand der Technik in Bezug auf Generalisierungsfähigkeit bei verschiedenen Downstream-Benchmarks, z.B. eine Gesamtgenauigkeit von 88,21 % auf ScanObjectNN. Der Quellcode wurde veröffentlicht unter https://github.com/RunpeiDong/ACT.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Autoencoder als Kreuzmodale Lehrer: Können vortrainierte 2D-Bild-Transformer das 3D-Darstellungslernen unterstützen? | Paper | HyperAI