COOPER : Un modèle unifié pour la perception coopérative et le raisonnement en intelligence spatiale
COOPER : Un modèle unifié pour la perception coopérative et le raisonnement en intelligence spatiale

Résumé
Le raisonnement visuo-spatial est essentiel pour permettre aux modèles linguistiques à grande échelle multimodaux (MLLM) de comprendre les propriétés des objets et les relations spatiales, mais les modèles actuels peinent encore à raisonner de manière 3D-consciente. Les approches existantes améliorent généralement soit la perception, en enrichissant les entrées RGB avec des modalités auxiliaires telles que la profondeur ou la segmentation, soit le raisonnement, en entraînant sur des jeux de données de questions-réponses spatiales (spatial VQA) et en appliquant l’apprentissage par renforcement, traitant ainsi ces deux aspects de manière isolée. Dans ce travail, nous explorons si un MLLM unifié peut développer une capacité intrinsèque à améliorer la perception spatiale et, grâce à un raisonnement adaptatif et entrelacé, atteindre une intelligence spatiale renforcée. Nous proposons COOPER, un MLLM unifié qui utilise la profondeur et la segmentation comme modalités auxiliaires, et qui est entraîné en deux étapes afin d’acquérir des capacités de génération de modalités auxiliaires et de raisonnement adaptatif entrelacé. COOPER obtient une amélioration moyenne de 6,91 % dans le raisonnement spatial tout en maintenant des performances générales stables. De plus, une variante entraînée uniquement à la génération de modalités auxiliaires atteint une amélioration de 7,92 % pour l’estimation de distance et de taille, ce qui suggère que l’apprentissage de la génération de modalités auxiliaires aide à internaliser les connaissances spatiales et à renforcer la compréhension spatiale.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.