Command Palette
Search for a command to run...
Autoencoder als Kreuzmodale Lehrer: Können vortrainierte 2D-Bild-Transformer das 3D-Darstellungslernen unterstützen?
Autoencoder als Kreuzmodale Lehrer: Können vortrainierte 2D-Bild-Transformer das 3D-Darstellungslernen unterstützen?
Runpei Dong Zekun Qi Linfeng Zhang Junbo Zhang Jianjian Sun Zheng Ge Li Yi Kaisheng Ma
Zusammenfassung
Der Erfolg des Deep Learnings hängt stark von großen Datenmengen mit umfassenden Labels ab, die im 3D-Bereich teurer und zeitaufwendiger zu beschaffen sind als bei 2D-Bildern oder natürlichen Sprachen. Dies fördert das Potenzial der Nutzung von Modellen, die mit mehr als 3D-Daten vortrainiert wurden, als Lehrer für die übermodale Wissensübertragung. In dieser Arbeit untersuchen wir maskiertes Modellieren in einem vereinheitlichten Ansatz der Wissensdistillierung und zeigen, dass grundlegende Transformer, die mit 2D-Bildern oder natürlichen Sprachen vortrainiert wurden, durch das Training von Autoencodern als übermodale Lehrer (ACT) dem selbstüberwachten Lernen von 3D-Repräsentationen helfen können. Die vortrainierten Transformer werden mittels diskreter Variationsautoencoder-Selbstüberwachung als übermodale 3D-Lehrer transferiert, wobei die Transformer durch Prompt-Tuning eingefroren werden, um eine bessere Wissensvererbung zu gewährleisten. Die latente Merkmalsdarstellung, die durch die 3D-Lehrer kodiert wird, dient als Ziel für das maskierte Punktemodellieren, wobei das implizite Wissen an die 3D-Transformer-Schüler destilliert wird, um ein grundlegendes geometrisches Verständnis zu erlangen. Unser ACT-vortrainierter 3D-Lerner erreicht den aktuellen Stand der Technik in Bezug auf Generalisierungsfähigkeit bei verschiedenen Downstream-Benchmarks, z.B. eine Gesamtgenauigkeit von 88,21 % auf ScanObjectNN. Der Quellcode wurde veröffentlicht unter https://github.com/RunpeiDong/ACT.