HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 2 mois

Raisonnement physique interprétable et taxonomie des performances dans les modèles vision-langage

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

Raisonnement physique interprétable et taxonomie des performances dans les modèles vision-langage

Résumé

À mesure que les modèles vision-langage (VLM) gagnent en sophistication, leur capacité à raisonner fait l’objet d’une surveillance croissante. Bien qu’ils excellent dans de nombreuses tâches, leur compréhension des principes scientifiques fondamentaux, tels que la physique, reste une frontière peu explorée. Pour refléter les progrès réalisés dans ces capacités, nous introduisons un cadre novateur et accessible, conçu pour évaluer rigoureusement les VLM sur leur compréhension de la physique en deux dimensions. Ce cadre met en œuvre un générateur de scénarios pragmatiques, capable de produire une base d’évaluation diversifiée comprenant plus de 400 problèmes répartis sur quatre domaines clés : le mouvement des projectiles, la dynamique des collisions, la mécanique et la dynamique des fluides. Grâce à une évaluation approfondie de quatre VLM d’avant-garde, nous démontrons une forte corrélation entre l’échelle du modèle et sa capacité de raisonnement, notre meilleur modèle, Qwen2.5-VL-7B, atteignant un score global de 0,815. Nous constatons que si les modèles se montrent particulièrement performants sur des problèmes formels, ils peinent considérablement dans les domaines exigeant un raisonnement spatial abstrait. En concevant ce cadre, nous visons à démocratiser l’étude du raisonnement scientifique dans les VLM et à favoriser une compréhension plus profonde de leurs capacités et de leurs limites.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Raisonnement physique interprétable et taxonomie des performances dans les modèles vision-langage | Articles de recherche | HyperAI