HyperAIHyperAI
vor 2 Monaten

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità

Ding, Runyu ; Yang, Jihan ; Xue, Chuhui ; Zhang, Wenqing ; Bai, Song ; Qi, Xiaojuan
PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità
Abstract

Die Offen-Vokabular-Szenenverstehensmethode (open-vocabulary scene understanding) strebt danach, unbekannte Kategorien außerhalb des annotierten Labelraums zu lokalisieren und zu erkennen. Der jüngste Durchbruch im Bereich der 2D-Offen-Vokabular-Wahrnehmung (2D open-vocabulary perception) wird weitgehend durch internetbasierte Bild-Text-Daten mit reichhaltigen Vokabelkonzepten getrieben. Allerdings kann dieser Erfolg aufgrund der Unzugänglichkeit von groß angelegten 3D-Text-Paaren nicht direkt auf 3D-Szenarien übertragen werden. Zu diesem Zweck schlagen wir vor, Wissen, das in vorgefertigten visuellen-sprachlichen (VL) Grundmodellen kodiert ist, durch die Beschreibung mehrerer Ansichten einer 3D-Szene abzuleiten. Dies ermöglicht es, 3D-Szenen und semantikreiche Beschriftungen explizit miteinander in Verbindung zu bringen. Weiterhin entwerfen wir hierarchische 3D-Beschriftungs-Paare, um das Lernen von grob-zu-feinen visuell-semantischen Repräsentationen aus den Beschriftungen zu fördern. Dabei nutzen wir geometrische Restriktionen zwischen 3D-Szenen und mehreren Ansichten.Schließlich ermöglicht das Anwenden kontrastiven Lernens dem Modell, sprachbewusste Einbettungen (language-aware embeddings) zu erlernen, die 3D und Text für Offen-Vokabular-Aufgaben verbinden. Unsere Methode übertrifft Baseline-Methoden nicht nur deutlich um 25,8 % bis 44,7 % hIoU und 14,5 % bis 50,4 % hAP$_{50}$ bei Offen-Vokabular-Semantik- und Instanzsegmentierung, sondern zeigt auch eine robuste Übertragbarkeit bei anspruchsvollen Aufgaben zur Nullschuss-Domänenübertragung (zero-shot domain transfer tasks).Weitere Informationen finden Sie auf der Projektwebsite unter https://dingry.github.io/projects/PLA.

PLA: Sprachgesteuertes Offenes Vokabular für die 3D-Szeneverstehens capacità | Neueste Forschungsarbeiten | HyperAI