HyperAIHyperAI
il y a 2 mois

Pont entre la 2D et la 3D dans le domaine de la réponse visuelle aux questions : Une approche de fusion pour la VQA 3D

Mo, Wentao ; Liu, Yang
Pont entre la 2D et la 3D dans le domaine de la réponse visuelle aux questions : Une approche de fusion pour la VQA 3D
Résumé

Dans le domaine de la réponse visuelle en 3D (3D VQA), la pénurie de données entièrement annotées et la diversité limitée du contenu visuel entravent la généralisation à de nouvelles scènes et concepts 3D (par exemple, seules environ 800 scènes sont utilisées dans les jeux de données ScanQA et SQA). Les approches actuelles recourent à l'ajout d'informations 2D pour compléter le raisonnement 3D. Cependant, ces méthodes font face à des défis : soit elles utilisent des vues 2D en plan qui introduisent des indices visuels excessivement complexes et parfois non pertinents pour la question, soit elles s'appuient sur des représentations agrégées au niveau global de la scène ou de l'image issues des modèles multimodaux 2D (VLMs), ce qui entraîne une perte des corrélations fines entre vision et langage. Pour surmonter ces limitations, notre approche utilise une procédure de sélection conditionnelle des vues 2D basée sur la question, permettant d'identifier les entrées 2D sémantiquement pertinentes pour les indices visuels cruciaux. Nous intégrons ensuite cette connaissance 2D dans le système 3D-VQA grâce à une structure Transformer à deux branches. Cette structure, dotée d'un design Twin-Transformer, combine efficacement les modalités 2D et 3D et capture les corrélations fines entre ces modalités, leur permettant ainsi de se renforcer mutuellement. En intégrant les mécanismes proposés ci-dessus, nous présentons BridgeQA, qui offre une nouvelle perspective sur les architectures basées sur les Transformers multimodaux pour la réponse visuelle en 3D (3D-VQA). Les expérimentations montrent que BridgeQA atteint l'état de l'art sur les jeux de données 3D-VQA et dépasse considérablement les solutions existantes. Le code est disponible à l'adresse $\href{https://github.com/matthewdm0816/BridgeQA}{\text{ce lien}}$.

Pont entre la 2D et la 3D dans le domaine de la réponse visuelle aux questions : Une approche de fusion pour la VQA 3D | Articles de recherche récents | HyperAI