HyperAIHyperAI

Command Palette

Search for a command to run...

ULIP-2: Hin zu einer skalierbaren multimodalen Vortrainierung für die 3D-Verarbeitung

Zusammenfassung

Neuere Fortschritte im multimodalen Vortrainieren haben vielversprechende Wirksamkeit bei der 3D-Darstellungslernung gezeigt, indem multimodale Merkmale über 3D-Formen, ihre 2D-Entsprechungen und Sprachbeschreibungen ausgerichtet werden. Allerdings sind die Methoden, die bestehende Frameworks zur Beschaffung solcher multimodaler Daten – insbesondere Sprachbeschreibungen für 3D-Formen – verwenden, nicht skalierbar, und die gesammelten Sprachbeschreibungen sind nicht vielfältig. Um dieses Problem zu lösen, stellen wir ULIP-2 vor, einen einfachen, aber effektiven tri-modalen Vortrainierungsansatz, der große multimodale Modelle nutzt, um automatisch umfassende Sprachbeschreibungen für 3D-Formen zu generieren. Es benötigt lediglich 3D-Daten als Eingabe und verzichtet damit vollständig auf manuelle 3D-Anmerkungen, wodurch es skalierbar auf große Datensätze wird. ULIP-2 ist zudem mit vergrößerten Backbone-Modellen ausgestattet, die eine verbesserte multimodale Darstellungslernung ermöglichen. Wir führen Experimente auf zwei großen 3D-Datensätzen, Objaverse und ShapeNet, durch und ergänzen diese um tri-modale Datensätze aus 3D-Punktwolken, Bildern und Sprache zur Schulung von ULIP-2. Die Experimente zeigen, dass ULIP-2 erhebliche Vorteile in drei nachgeschalteten Aufgaben erzielt: zero-shot 3D-Klassifikation, standardmäßige 3D-Klassifikation mit Feinabstimmung und 3D-Captioning (3D-zu-Sprache-Generierung). Es erreicht eine neue SOTA von 50,6 % (Top-1) auf Objaverse-LVIS und 84,7 % (Top-1) auf ModelNet40 bei der zero-shot-Klassifikation. Im ScanObjectNN-Benchmark für die standardmäßige Feinabstimmung erreicht ULIP-2 eine Gesamtgenauigkeit von 91,5 % mit einem kompakten Modell von nur 1,4 Millionen Parametern. ULIP-2 eröffnet einen neuen Ansatz für skalierbare multimodale 3D-Darstellungslernung ohne menschliche Annotationen und zeigt signifikante Verbesserungen gegenüber bestehenden Baselines. Der Quellcode und die Datensätze sind unter https://github.com/salesforce/ULIP veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ULIP-2: Hin zu einer skalierbaren multimodalen Vortrainierung für die 3D-Verarbeitung | Paper | HyperAI