il y a 11 jours

SQA3D : Réponse à des questions situées dans des scènes 3D

Xiaojian Ma, Silong Yong, Zilong Zheng, Qing Li, Yitao Liang, Song-Chun Zhu, Siyuan Huang

Résumé

Nous proposons une nouvelle tâche pour évaluer la compréhension de scènes par les agents incarnés : la Question-Réponse Située dans des Scènes 3D (SQA3D). Étant donné un contexte scénique (par exemple, un scan 3D), la tâche SQA3D exige que l’agent testé comprenne d’abord sa situation (position, orientation, etc.) dans la scène 3D, telle qu’elle est décrite par un texte, puis raisonne sur son environnement immédiat afin de répondre à une question dans ce contexte. À partir de 650 scènes provenant de ScanNet, nous fournissons un jeu de données centré sur 6 800 situations uniques, accompagné de 20 400 descriptions et de 33 400 questions de raisonnement diversifiées pour ces situations. Ces questions évaluent un large éventail de capacités de raisonnement pour un agent intelligent, allant de la compréhension des relations spatiales à la compréhension du sens commun, à la navigation et au raisonnement à plusieurs étapes. La tâche SQA3D pose un défi considérable aux modèles multimodaux actuels, en particulier aux modèles de raisonnement 3D. Nous évaluons diverses approches de pointe et constatons que le meilleur modèle atteint un score global de seulement 47,20 %, tandis que des participants humains amateurs atteignent un taux de 90,06 %. Nous pensons que SQA3D pourra stimuler de futures recherches en intelligence artificielle incarnée, en renforçant la capacité des agents à comprendre leur situation et à raisonner efficacement.