HyperAIHyperAI

Command Palette

Search for a command to run...

OpenShape: Skalierung der 3D-Formdarstellung für ein offenes Weltverständnis

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

Wir stellen OpenShape vor, eine Methode zur Lernung multimodaler gemeinsamer Repräsentationen von Text, Bild und Punktwolken. Wir verwenden den üblichen multimodalen kontrastiven Lernrahmen für die Ausrichtung der Repräsentationen, legen jedoch besonderen Wert auf das Skalieren von 3D-Repräsentationen, um ein offenes Verständnis von 3D-Formen zu ermöglichen. Um dies zu erreichen, erweitern wir die Trainingsdaten durch das Ensemble mehrerer 3D-Datensätze und schlagen mehrere Strategien vor, um textuelle Beschreibungen automatisch zu filtern und zu bereichern. Zudem untersuchen und vergleichen wir Strategien zur Skalierung von 3D-Backbone-Netzwerken und führen ein neuartiges Modul zur Selektion schwerer negativer Beispiele (hard negative mining) ein, um das Training effizienter zu gestalten. Wir bewerten OpenShape anhand von Benchmarks für zero-shot 3D-Klassifikation und zeigen seine überlegenen Fähigkeiten im offenen Weltverständnis. Insbesondere erreicht OpenShape eine zero-shot-Akkuratesse von 46,8 % beim Objaverse-LVIS-Benchmark mit 1.156 Kategorien, im Vergleich zu weniger als 10 % bei existierenden Methoden. OpenShape erzielt auch eine Akkuratesse von 85,3 % bei ModelNet40 und übertrifft dabei frühere zero-shot-Baseline-Methoden um 20 % sowie leistet sich vergleichbar gut wie einige vollständig überwachte Methoden. Darüber hinaus zeigen wir, dass unsere gelernten Einbettungen (embeddings) eine breite Palette visueller und semantischer Konzepte (z.B. Subkategorien, Farbe, Form, Stil) kodieren und feingranulare Interaktionen zwischen Text-3D und Bild-3D erleichtern. Aufgrund ihrer Ausrichtung mit CLIP-Einbettungen können unsere gelernten Formrepräsentationen auch in etablierte CLIP-basierte Modelle integriert werden, um verschiedene Anwendungen wie die Beschriftung von Punktwolken (point cloud captioning) und die Generierung von Bildern unter Berücksichtigung von Punktwolken (point cloud-conditioned image generation) zu unterstützen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp