ScanQA : Réponses aux questions 3D pour la compréhension des scènes spatiales

Nous proposons une nouvelle tâche de compréhension spatiale 3D, appelée 3D Question Answering (3D-QA). Dans la tâche 3D-QA, les modèles reçoivent des informations visuelles provenant de l'ensemble de la scène 3D d'un scan intérieur riche en RGB-D et répondent aux questions textuelles données sur cette scène 3D. Contrairement à la tâche de question-réponse 2D (VQA), les modèles conventionnels de 2D-QA souffrent de problèmes liés à la compréhension spatiale de l'alignement et des directions des objets, et échouent dans l'identification des objets à partir des questions textuelles en 3D-QA. Nous proposons un modèle de référence pour la tâche 3D-QA, nommé ScanQA, où le modèle apprend un descripteur fusionné à partir de propositions d'objets 3D et d'embeddings de phrases encodés. Ce descripteur appris corrèle les expressions linguistiques avec les caractéristiques géométriques sous-jacentes du scan 3D et facilite la régression des boîtes englobantes 3D pour déterminer les objets décrits dans les questions textuelles, produisant ainsi des réponses correctes. Nous avons collecté des paires question-réponse éditées par des humains avec des réponses libres ancrées dans les objets 3D de chaque scène 3D. Notre nouveau jeu de données ScanQA contient plus de 40 000 paires question-réponse issues des 800 scènes intérieures du jeu de données ScanNet. Selon nos connaissances, la tâche 3D-QA proposée est la première initiative à grande échelle visant à effectuer un questionnement ancré sur les objets dans des environnements 3D.