vor 10 Monaten

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

Wir stellen OpenShape vor, eine Methode zur Lernung multimodaler gemeinsamer Repräsentationen von Text, Bild und Punktwolken. Wir verwenden den üblichen multimodalen kontrastiven Lernrahmen für die Ausrichtung der Repräsentationen, legen jedoch besonderen Wert auf das Skalieren von 3D-Repräsentationen, um ein offenes Verständnis von 3D-Formen zu ermöglichen. Um dies zu erreichen, erweitern wir die Trainingsdaten durch das Ensemble mehrerer 3D-Datensätze und schlagen mehrere Strategien vor, um textuelle Beschreibungen automatisch zu filtern und zu bereichern. Zudem untersuchen und vergleichen wir Strategien zur Skalierung von 3D-Backbone-Netzwerken und führen ein neuartiges Modul zur Selektion schwerer negativer Beispiele (hard negative mining) ein, um das Training effizienter zu gestalten. Wir bewerten OpenShape anhand von Benchmarks für zero-shot 3D-Klassifikation und zeigen seine überlegenen Fähigkeiten im offenen Weltverständnis. Insbesondere erreicht OpenShape eine zero-shot-Akkuratesse von 46,8 % beim Objaverse-LVIS-Benchmark mit 1.156 Kategorien, im Vergleich zu weniger als 10 % bei existierenden Methoden. OpenShape erzielt auch eine Akkuratesse von 85,3 % bei ModelNet40 und übertrifft dabei frühere zero-shot-Baseline-Methoden um 20 % sowie leistet sich vergleichbar gut wie einige vollständig überwachte Methoden. Darüber hinaus zeigen wir, dass unsere gelernten Einbettungen (embeddings) eine breite Palette visueller und semantischer Konzepte (z.B. Subkategorien, Farbe, Form, Stil) kodieren und feingranulare Interaktionen zwischen Text-3D und Bild-3D erleichtern. Aufgrund ihrer Ausrichtung mit CLIP-Einbettungen können unsere gelernten Formrepräsentationen auch in etablierte CLIP-basierte Modelle integriert werden, um verschiedene Anwendungen wie die Beschriftung von Punktwolken (point cloud captioning) und die Generierung von Bildern unter Berücksichtigung von Punktwolken (point cloud-conditioned image generation) zu unterstützen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 10 Monaten

Multimodal

Multimodale Darstellung

3D-Modell

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 10 Monaten

Multimodal

Multimodale Darstellung

3D-Modell

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

OpenShape: Skalierung der 3D-Formdarstellung für ein offenes Weltverständnis

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OpenShape: Skalierung der 3D-Formdarstellung für ein offenes Weltverständnis

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

OpenShape: Skalierung der 3D-Formdarstellung für ein offenes Weltverständnis

Liu Minghua ; Shi Ruoxi ; Kuang Kaiming ; Zhu Yinhao ; Li Xuanlin ; Han Shizhong ; Cai Hong ; Porikli Fatih ; Su Hao

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters