HyperAIHyperAI

Command Palette

Search for a command to run...

ScanQA : Réponses aux questions 3D pour la compréhension des scènes spatiales

Azuma Daichi ; Miyanishi Taiki ; Kurita Shuhei ; Kawanabe Motoaki

Résumé

Nous proposons une nouvelle tâche de compréhension spatiale 3D, appelée 3D Question Answering (3D-QA). Dans la tâche 3D-QA, les modèles reçoivent des informations visuelles provenant de l'ensemble de la scène 3D d'un scan intérieur riche en RGB-D et répondent aux questions textuelles données sur cette scène 3D. Contrairement à la tâche de question-réponse 2D (VQA), les modèles conventionnels de 2D-QA souffrent de problèmes liés à la compréhension spatiale de l'alignement et des directions des objets, et échouent dans l'identification des objets à partir des questions textuelles en 3D-QA. Nous proposons un modèle de référence pour la tâche 3D-QA, nommé ScanQA, où le modèle apprend un descripteur fusionné à partir de propositions d'objets 3D et d'embeddings de phrases encodés. Ce descripteur appris corrèle les expressions linguistiques avec les caractéristiques géométriques sous-jacentes du scan 3D et facilite la régression des boîtes englobantes 3D pour déterminer les objets décrits dans les questions textuelles, produisant ainsi des réponses correctes. Nous avons collecté des paires question-réponse éditées par des humains avec des réponses libres ancrées dans les objets 3D de chaque scène 3D. Notre nouveau jeu de données ScanQA contient plus de 40 000 paires question-réponse issues des 800 scènes intérieures du jeu de données ScanNet. Selon nos connaissances, la tâche 3D-QA proposée est la première initiative à grande échelle visant à effectuer un questionnement ancré sur les objets dans des environnements 3D.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp