Command Palette
Search for a command to run...
Raisonnement physique interprétable et taxonomie des performances dans les modèles vision-langage
Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

Résumé
À mesure que les modèles vision-langage (VLM) gagnent en sophistication, leur capacité à raisonner fait l’objet d’une surveillance croissante. Bien qu’ils excellent dans de nombreuses tâches, leur compréhension des principes scientifiques fondamentaux, tels que la physique, reste une frontière peu explorée. Pour refléter les progrès réalisés dans ces capacités, nous introduisons un cadre novateur et accessible, conçu pour évaluer rigoureusement les VLM sur leur compréhension de la physique en deux dimensions. Ce cadre met en œuvre un générateur de scénarios pragmatiques, capable de produire une base d’évaluation diversifiée comprenant plus de 400 problèmes répartis sur quatre domaines clés : le mouvement des projectiles, la dynamique des collisions, la mécanique et la dynamique des fluides. Grâce à une évaluation approfondie de quatre VLM d’avant-garde, nous démontrons une forte corrélation entre l’échelle du modèle et sa capacité de raisonnement, notre meilleur modèle, Qwen2.5-VL-7B, atteignant un score global de 0,815. Nous constatons que si les modèles se montrent particulièrement performants sur des problèmes formels, ils peinent considérablement dans les domaines exigeant un raisonnement spatial abstrait. En concevant ce cadre, nous visons à démocratiser l’étude du raisonnement scientifique dans les VLM et à favoriser une compréhension plus profonde de leurs capacités et de leurs limites.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.