HyperAIHyperAI
il y a 17 jours

L'awareness situationnelle est cruciale dans le raisonnement vision-langage 3D

Yunze Man, Liang-Yan Gui, Yu-Xiong Wang
L'awareness situationnelle est cruciale dans le raisonnement vision-langage 3D
Résumé

La capacité à effectuer des tâches complexes de raisonnement vision-langage dans l’espace 3D constitue une étape majeure dans le développement de robots domestiques et d’intelligence artificielle incarnée centrée sur l’humain. Dans ce travail, nous démontrons qu’un défi critique et distinctif dans le raisonnement vision-langage 3D réside dans la conscience situationnelle, qui comporte deux composants essentiels : (1) l’agent autonome localise sa propre position à partir d’un prompt linguistique ; (2) l’agent répond à des questions ouvertes depuis la perspective de sa position calculée. Pour relever ce défi, nous introduisons SIG3D, un modèle end-to-end fondé sur la situation pour le raisonnement vision-langage 3D. Nous représentons la scène 3D sous forme de voxels épars, proposons un estimateur de situation fondé sur le langage, suivi d’un module de réponse à des questions situées. Des expérimentations sur les jeux de données SQA3D et ScanQA montrent que SIG3D surpasse de manière significative les modèles de pointe en matière d’estimation de situation et de réponse aux questions (par exemple, une amélioration de plus de 30 % en précision d’estimation de situation). Une analyse ultérieure confirme nos choix architecturaux, explore les fonctions distinctes des tokens visuels et textuels, et met en évidence l’importance cruciale de la conscience situationnelle dans le domaine de la question-réponse 3D.

L'awareness situationnelle est cruciale dans le raisonnement vision-langage 3D | Articles de recherche récents | HyperAI