HyperAIHyperAI

Command Palette

Search for a command to run...

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità

Ding Runyu ; Yang Jihan ; Xue Chuhui ; Zhang Wenqing ; Bai Song ; Qi Xiaojuan

Zusammenfassung

Die Offen-Vokabular-Szenenverstehensmethode (open-vocabulary scene understanding) strebt danach, unbekannte Kategorien außerhalb des annotierten Labelraums zu lokalisieren und zu erkennen. Der jüngste Durchbruch im Bereich der 2D-Offen-Vokabular-Wahrnehmung (2D open-vocabulary perception) wird weitgehend durch internetbasierte Bild-Text-Daten mit reichhaltigen Vokabelkonzepten getrieben. Allerdings kann dieser Erfolg aufgrund der Unzugänglichkeit von groß angelegten 3D-Text-Paaren nicht direkt auf 3D-Szenarien übertragen werden. Zu diesem Zweck schlagen wir vor, Wissen, das in vorgefertigten visuellen-sprachlichen (VL) Grundmodellen kodiert ist, durch die Beschreibung mehrerer Ansichten einer 3D-Szene abzuleiten. Dies ermöglicht es, 3D-Szenen und semantikreiche Beschriftungen explizit miteinander in Verbindung zu bringen. Weiterhin entwerfen wir hierarchische 3D-Beschriftungs-Paare, um das Lernen von grob-zu-feinen visuell-semantischen Repräsentationen aus den Beschriftungen zu fördern. Dabei nutzen wir geometrische Restriktionen zwischen 3D-Szenen und mehreren Ansichten.Schließlich ermöglicht das Anwenden kontrastiven Lernens dem Modell, sprachbewusste Einbettungen (language-aware embeddings) zu erlernen, die 3D und Text für Offen-Vokabular-Aufgaben verbinden. Unsere Methode übertrifft Baseline-Methoden nicht nur deutlich um 25,8 % bis 44,7 % hIoU und 14,5 % bis 50,4 % hAP50_{50}50 bei Offen-Vokabular-Semantik- und Instanzsegmentierung, sondern zeigt auch eine robuste Übertragbarkeit bei anspruchsvollen Aufgaben zur Nullschuss-Domänenübertragung (zero-shot domain transfer tasks).Weitere Informationen finden Sie auf der Projektwebsite unter https://dingry.github.io/projects/PLA.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità | Paper | HyperAI