HyperAIHyperAI
il y a 2 mois

Une approche de paradigme cognitif pour sonder l'interface perception-raisonnement dans les VLMs

Vaishnav, Mohit ; Tammet, Tanel
Une approche de paradigme cognitif pour sonder l'interface perception-raisonnement dans les VLMs
Résumé

Un défi fondamental en intelligence artificielle concerne la compréhension des mécanismes cognitifs sous-jacents au raisonnement visuel dans des modèles sophistiqués tels que les Modèles Vision-Langage (VLMs). Comment ces modèles intègrent-ils la perception visuelle avec la pensée abstraite, en particulier lorsqu'ils doivent raisonner sur plusieurs images ou nécessitent une compréhension compositionnelle fine ? Inspirés par la science cognitive, cet article introduit un cadre d'évaluation structuré utilisant diverses tâches de raisonnement visuel : les Problèmes de Bongard (BPs) et le Winoground, pour disséquer l'interface perception-raisonnement dans les VLMs. Nous proposons trois paradigmes d'évaluation distincts, reflétant les stratégies de résolution de problèmes humaines : Apprentissage Direct de Règles Visuelles (DVRL ; traitement holistique), Apprentissage Déductif de Règles (DRL ; extraction et application de règles), et Analyse Composante (CA ; décomposition analytique via des descriptions textuelles indépendantes de la tâche). Ces paradigmes varient systématiquement la charge cognitive et sondent les étapes de traitement. Notamment, le CA permet l'évaluation du raisonnement multi-image même pour des architectures mono-image et isole le raisonnement de la perception en opérant sur des descriptions textuelles. En appliquant ce cadre, nous montrons que le CA, en exploitant des modèles linguistiques puissants pour le raisonnement sur des descriptions riches et générées indépendamment, atteint de nouvelles performances d'état de l'art (SOTA) sur des benchmarks difficiles comme Bongard-OpenWorld, Bongard-HOI et Winoground. Les études d'ablation confirment que le raisonnement s'améliore considérablement lorsque les défis perceptuels sont atténués, révélant une bouteille d'étranglement critique en perception. Notre cadre fournit un outil diagnostique précieux et suggère que la dissociation entre perception (via des descriptions riches indépendantes de la tâche) et raisonnement est une direction prometteuse pour une intelligence visuelle robuste et générale.

Une approche de paradigme cognitif pour sonder l'interface perception-raisonnement dans les VLMs | Articles de recherche récents | HyperAI