HyperAIHyperAI
vor 2 Monaten

ViT-Lens: Initiiierung der omni-modalen Exploration durch 3D-Einblicke

Lei, Weixian ; Ge, Yixiao ; Zhang, Jianfeng ; Sun, Dylan ; Yi, Kun ; Shan, Ying ; Shou, Mike Zheng
ViT-Lens: Initiiierung der omni-modalen Exploration durch 3D-Einblicke
Abstract

Obwohl die Erfolge von CLIP-basierten Trainingsrezepten in visuellen Sprachmodellen, ist ihre Skalierbarkeit auf weitere Modalitäten (z.B. 3D, Audio usw.) auf große Datenmengen begrenzt, die teuer oder sogar für seltene Modalitäten nicht anwendbar sind. In dieser Arbeit stellen wir ViT-Lens vor, das effizientes omnimodales Repräsentationslernen durch die Wahrnehmung neuer Modalitäten mit einem vortrainierten ViT und deren Anpassung an einen vordefinierten Raum erleichtert. Insbesondere wird der modalitätsspezifische Lens so angepasst, dass er multimodale Signale in den gemeinsamen Einbettungsraum projiziert, wo sie dann von einem starken ViT verarbeitet werden, der vortrainierte Bildkenntnisse trägt. Die kodierten multimodalen Repräsentationen werden optimiert, um sich mit dem modalitätsunabhängigen Raum auszurichten, der durch fertige Grundmodelle vordefiniert ist. Ein gut trainierter Lens mit ViT-Backbone hat das Potenzial, als eines dieser Grundmodelle zu dienen und das Lernen nachfolgender Modalitäten zu überwachen. ViT-Lens bietet eine einheitliche Lösung für das Repräsentationslernen wachsender Modalitäten mit zwei attraktiven Vorteilen: (i) Effektives Nutzen des vortrainierten ViTs über verschiedene Aufgaben und Domains hinweg bei einer effizienten Datennutzung; (ii) Aufgrund des modalitätsausrichtungsraums werden emergente Downstream-Fähigkeiten neuer Modalitäten demonstriert. Wir evaluieren ViT-Lens im Kontext von 3D als erste Verifizierung. Bei der zero-shot 3D-Klassifikation erreicht ViT-Lens erhebliche Verbesserungen gegenüber früheren Stand der Technik und zeigt eine Genauigkeit von 52,0 % auf Objaverse-LVIS, 87,4 % auf ModelNet40 und 60,6 % auf ScanObjectNN. Darüber hinaus ermöglichen wir zero-shot 3D-Fragebeantwortung durch einfache Integration des trainierten 3D-Lenses in das InstructBLIP-Modell ohne jede Anpassung. Wir werden in absehbarer Zeit die Ergebnisse von ViT-Lens auf weiteren Modalitäten veröffentlichen.

ViT-Lens: Initiiierung der omni-modalen Exploration durch 3D-Einblicke | Neueste Forschungsarbeiten | HyperAI