vor 17 Tagen

Situational Awareness ist von Bedeutung für die 3D-Vision-Sprach-Reasoning

Yunze Man, Liang-Yan Gui, Yu-Xiong Wang

Abstract

Die Fähigkeit, komplexe visuell-sprachliche Schlussfolgerungen in dreidimensionalem Raum durchzuführen, stellt einen bedeutenden Meilenstein bei der Entwicklung von Haushaltsrobotern und menschenzentriertem körperlichem künstlichem Intelligenz (embodied AI) dar. In dieser Arbeit zeigen wir, dass eine entscheidende und charakteristische Herausforderung im Bereich der 3D-visuell-sprachlichen Schlussfolgerung die situative Wahrnehmung ist, die zwei zentrale Komponenten umfasst: (1) Der autonome Agent bestimmt seine eigene Position aufgrund einer Sprachanweisung. (2) Der Agent beantwortet offene Fragen aus der Perspektive seiner berechneten Position heraus. Um diese Herausforderung anzugehen, führen wir SIG3D ein – ein end-to-end-Modell für situativ fundierte 3D-visuell-sprachliche Schlussfolgerung. Wir tokenisieren die 3D-Szene in eine spärliche Voxel-Darstellung und schlagen einen sprachbasierten Situationsabschätzer vor, gefolgt von einem modularen Fragebeantwortungssystem, das situative Kontexte berücksichtigt. Experimente auf den Datensätzen SQA3D und ScanQA zeigen, dass SIG3D state-of-the-art-Modelle in der Situationsabschätzung und Fragebeantwortung deutlich übertrifft (beispielsweise eine Steigerung der Genauigkeit bei der Situationsabschätzung um über 30 %). Eine nachfolgende Analyse bestätigt unsere architektonischen Entwurfsentscheidungen, untersucht die unterschiedlichen Funktionen visueller und textueller Tokens und unterstreicht die entscheidende Bedeutung der situativen Wahrnehmung im Bereich der 3D-Fragebeantwortung.