SpatialVLM : Doter les modèles vision-langage de capacités de raisonnement spatial

Comprendre et raisonner sur les relations spatiales constitue une capacité fondamentale pour les systèmes de réponse aux questions visuelles (Visual Question Answering, VQA) et pour la robotique. Bien que les modèles vision-langage (Vision Language Models, VLM) aient démontré des performances remarquables sur certaines évaluations de VQA, ils demeurent limités dans le raisonnement spatial 3D, notamment dans la reconnaissance de relations quantitatives entre objets physiques, telles que les distances ou les différences de taille. Nous supposons que la capacité limitée des VLM à raisonner spatialement s’explique par l’absence de connaissances spatiales 3D dans les données d’entraînement, et nous proposons de résoudre ce problème en entraînant les VLM à l’aide de données à grande échelle issues d’Internet, spécifiquement conçues pour le raisonnement spatial 3D. À cette fin, nous présentons un système permettant de mettre en œuvre cette approche. Nous avons d’abord développé un cadre automatisé de génération de données VQA spatiales 3D, capable de produire jusqu’à 2 milliards d’exemples de VQA à partir de 10 millions d’images du monde réel. Nous avons ensuite étudié divers facteurs influant sur le processus d’entraînement, notamment la qualité des données, le pipeline d’entraînement et l’architecture des VLM. Ce travail introduit le premier jeu de données à grande échelle (internet-scale) dédié au raisonnement spatial 3D dans un espace métrique. En entraînant un VLM sur ces données, nous améliorons de manière significative sa capacité à traiter à la fois les questions de VQA spatiale qualitative et quantitative. Enfin, nous démontrons que ce VLM ouvre la voie à de nouvelles applications en aval, notamment en raisonnement en chaîne de pensée spatial et en robotique, grâce à sa capacité à effectuer des estimations quantitatives. Site du projet : https://spatial-vlm.github.io/