HyperAIHyperAI
il y a 17 jours

Lexicon3D : Exploration des Modèles Fondamentaux Visuels pour la Compréhension de Scènes 3D Complexes

Man, Yunze, Zheng, Shuhong, Bao, Zhipeng, Hebert, Martial, Gui, Liang-Yan, Wang, Yu-Xiong
Lexicon3D : Exploration des Modèles Fondamentaux Visuels pour la Compréhension de Scènes 3D Complexes
Résumé

La compréhension complexe des scènes en 3D a suscité un intérêt croissant, les stratégies d’encodage des scènes jouant un rôle crucial dans ce succès. Toutefois, les stratégies d’encodage optimales pour divers scénarios restent encore mal définies, en particulier par rapport à leurs homologues basées sur les images. Pour répondre à cette problématique, nous présentons une étude approfondie qui examine divers modèles d’encodage visuel pour la compréhension des scènes en 3D, en identifiant les forces et les limites de chaque modèle selon les contextes. Notre évaluation couvre sept encodeurs fondamentaux en vision, incluant des modèles basés sur les images, les vidéos et les données 3D. Ces modèles sont évalués sur quatre tâches : raisonnement scénique multimodal (vision-langage), ancrage visuel, segmentation et alignement (registration), chacune mettant en lumière un aspect différent de la compréhension de scène. Nos résultats révèlent des observations clés : DINOv2 se distingue par des performances supérieures, les modèles vidéo se montrent particulièrement efficaces pour les tâches au niveau des objets, les modèles à diffusion apportent des bénéfices significatifs aux tâches géométriques, tandis que les modèles pré-entraînés sur le langage révèlent des limites inattendues dans les tâches liées au langage. Ces découvertes remettent en question certaines croyances établies, offrent de nouvelles perspectives sur l’exploitation des modèles fondamentaux visuels, et soulignent la nécessité d’une sélection plus flexible des encodeurs dans les tâches futures de vision-langage et de compréhension de scènes. Code : https://github.com/YunzeMan/Lexicon3D

Lexicon3D : Exploration des Modèles Fondamentaux Visuels pour la Compréhension de Scènes 3D Complexes | Articles de recherche récents | HyperAI