HyperAIHyperAI

Command Palette

Search for a command to run...

Situational Awareness ist von Bedeutung für die 3D-Vision-Sprach-Reasoning

Yunze Man Liang-Yan Gui Yu-Xiong Wang

Zusammenfassung

Die Fähigkeit, komplexe visuell-sprachliche Schlussfolgerungen in dreidimensionalem Raum durchzuführen, stellt einen bedeutenden Meilenstein bei der Entwicklung von Haushaltsrobotern und menschenzentriertem körperlichem künstlichem Intelligenz (embodied AI) dar. In dieser Arbeit zeigen wir, dass eine entscheidende und charakteristische Herausforderung im Bereich der 3D-visuell-sprachlichen Schlussfolgerung die situative Wahrnehmung ist, die zwei zentrale Komponenten umfasst: (1) Der autonome Agent bestimmt seine eigene Position aufgrund einer Sprachanweisung. (2) Der Agent beantwortet offene Fragen aus der Perspektive seiner berechneten Position heraus. Um diese Herausforderung anzugehen, führen wir SIG3D ein – ein end-to-end-Modell für situativ fundierte 3D-visuell-sprachliche Schlussfolgerung. Wir tokenisieren die 3D-Szene in eine spärliche Voxel-Darstellung und schlagen einen sprachbasierten Situationsabschätzer vor, gefolgt von einem modularen Fragebeantwortungssystem, das situative Kontexte berücksichtigt. Experimente auf den Datensätzen SQA3D und ScanQA zeigen, dass SIG3D state-of-the-art-Modelle in der Situationsabschätzung und Fragebeantwortung deutlich übertrifft (beispielsweise eine Steigerung der Genauigkeit bei der Situationsabschätzung um über 30 %). Eine nachfolgende Analyse bestätigt unsere architektonischen Entwurfsentscheidungen, untersucht die unterschiedlichen Funktionen visueller und textueller Tokens und unterstreicht die entscheidende Bedeutung der situativen Wahrnehmung im Bereich der 3D-Fragebeantwortung.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp