ULIP-2: Hin zu einer skalierbaren multimodalen Vortrainierung für die 3D-Verarbeitung

Neuere Fortschritte im multimodalen Vortrainieren haben vielversprechende Wirksamkeit bei der 3D-Darstellungslernung gezeigt, indem multimodale Merkmale über 3D-Formen, ihre 2D-Entsprechungen und Sprachbeschreibungen ausgerichtet werden. Allerdings sind die Methoden, die bestehende Frameworks zur Beschaffung solcher multimodaler Daten – insbesondere Sprachbeschreibungen für 3D-Formen – verwenden, nicht skalierbar, und die gesammelten Sprachbeschreibungen sind nicht vielfältig. Um dieses Problem zu lösen, stellen wir ULIP-2 vor, einen einfachen, aber effektiven tri-modalen Vortrainierungsansatz, der große multimodale Modelle nutzt, um automatisch umfassende Sprachbeschreibungen für 3D-Formen zu generieren. Es benötigt lediglich 3D-Daten als Eingabe und verzichtet damit vollständig auf manuelle 3D-Anmerkungen, wodurch es skalierbar auf große Datensätze wird. ULIP-2 ist zudem mit vergrößerten Backbone-Modellen ausgestattet, die eine verbesserte multimodale Darstellungslernung ermöglichen. Wir führen Experimente auf zwei großen 3D-Datensätzen, Objaverse und ShapeNet, durch und ergänzen diese um tri-modale Datensätze aus 3D-Punktwolken, Bildern und Sprache zur Schulung von ULIP-2. Die Experimente zeigen, dass ULIP-2 erhebliche Vorteile in drei nachgeschalteten Aufgaben erzielt: zero-shot 3D-Klassifikation, standardmäßige 3D-Klassifikation mit Feinabstimmung und 3D-Captioning (3D-zu-Sprache-Generierung). Es erreicht eine neue SOTA von 50,6 % (Top-1) auf Objaverse-LVIS und 84,7 % (Top-1) auf ModelNet40 bei der zero-shot-Klassifikation. Im ScanObjectNN-Benchmark für die standardmäßige Feinabstimmung erreicht ULIP-2 eine Gesamtgenauigkeit von 91,5 % mit einem kompakten Modell von nur 1,4 Millionen Parametern. ULIP-2 eröffnet einen neuen Ansatz für skalierbare multimodale 3D-Darstellungslernung ohne menschliche Annotationen und zeigt signifikante Verbesserungen gegenüber bestehenden Baselines. Der Quellcode und die Datensätze sind unter https://github.com/salesforce/ULIP veröffentlicht.