vor 8 Monaten

Zusammenfassung

Die Offen-Vokabular-Szenenverstehensmethode (open-vocabulary scene understanding) strebt danach, unbekannte Kategorien außerhalb des annotierten Labelraums zu lokalisieren und zu erkennen. Der jüngste Durchbruch im Bereich der 2D-Offen-Vokabular-Wahrnehmung (2D open-vocabulary perception) wird weitgehend durch internetbasierte Bild-Text-Daten mit reichhaltigen Vokabelkonzepten getrieben. Allerdings kann dieser Erfolg aufgrund der Unzugänglichkeit von groß angelegten 3D-Text-Paaren nicht direkt auf 3D-Szenarien übertragen werden. Zu diesem Zweck schlagen wir vor, Wissen, das in vorgefertigten visuellen-sprachlichen (VL) Grundmodellen kodiert ist, durch die Beschreibung mehrerer Ansichten einer 3D-Szene abzuleiten. Dies ermöglicht es, 3D-Szenen und semantikreiche Beschriftungen explizit miteinander in Verbindung zu bringen. Weiterhin entwerfen wir hierarchische 3D-Beschriftungs-Paare, um das Lernen von grob-zu-feinen visuell-semantischen Repräsentationen aus den Beschriftungen zu fördern. Dabei nutzen wir geometrische Restriktionen zwischen 3D-Szenen und mehreren Ansichten.Schließlich ermöglicht das Anwenden kontrastiven Lernens dem Modell, sprachbewusste Einbettungen (language-aware embeddings) zu erlernen, die 3D und Text für Offen-Vokabular-Aufgaben verbinden. Unsere Methode übertrifft Baseline-Methoden nicht nur deutlich um 25,8 % bis 44,7 % hIoU und 14,5 % bis 50,4 % hAP $_{50}$ bei Offen-Vokabular-Semantik- und Instanzsegmentierung, sondern zeigt auch eine robuste Übertragbarkeit bei anspruchsvollen Aufgaben zur Nullschuss-Domänenübertragung (zero-shot domain transfer tasks).Weitere Informationen finden Sie auf der Projektwebsite unter https://dingry.github.io/projects/PLA.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodale Darstellung

Semantische Segmentierung

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodale Darstellung

Semantische Segmentierung

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità | Paper | HyperAI

Command Palette

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters