Autoencoder als Kreuzmodale Lehrer: Können vortrainierte 2D-Bild-Transformer das 3D-Darstellungslernen unterstützen?

Der Erfolg des Deep Learnings hängt stark von großen Datenmengen mit umfassenden Labels ab, die im 3D-Bereich teurer und zeitaufwendiger zu beschaffen sind als bei 2D-Bildern oder natürlichen Sprachen. Dies fördert das Potenzial der Nutzung von Modellen, die mit mehr als 3D-Daten vortrainiert wurden, als Lehrer für die übermodale Wissensübertragung. In dieser Arbeit untersuchen wir maskiertes Modellieren in einem vereinheitlichten Ansatz der Wissensdistillierung und zeigen, dass grundlegende Transformer, die mit 2D-Bildern oder natürlichen Sprachen vortrainiert wurden, durch das Training von Autoencodern als übermodale Lehrer (ACT) dem selbstüberwachten Lernen von 3D-Repräsentationen helfen können. Die vortrainierten Transformer werden mittels diskreter Variationsautoencoder-Selbstüberwachung als übermodale 3D-Lehrer transferiert, wobei die Transformer durch Prompt-Tuning eingefroren werden, um eine bessere Wissensvererbung zu gewährleisten. Die latente Merkmalsdarstellung, die durch die 3D-Lehrer kodiert wird, dient als Ziel für das maskierte Punktemodellieren, wobei das implizite Wissen an die 3D-Transformer-Schüler destilliert wird, um ein grundlegendes geometrisches Verständnis zu erlangen. Unser ACT-vortrainierter 3D-Lerner erreicht den aktuellen Stand der Technik in Bezug auf Generalisierungsfähigkeit bei verschiedenen Downstream-Benchmarks, z.B. eine Gesamtgenauigkeit von 88,21 % auf ScanObjectNN. Der Quellcode wurde veröffentlicht unter https://github.com/RunpeiDong/ACT.