Command Palette
Search for a command to run...
Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen
Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

Abstract
Mit der zunehmenden Komplexität von Vision-Sprache-Modellen (VLMs) nimmt die Aufmerksamkeit für ihre Fähigkeit zur Schlussfolgerung kontinuierlich zu. Obwohl diese Modelle in vielen Aufgaben hervorragend abschneiden, bleibt ihr Verständnis grundlegender wissenschaftlicher Prinzipien – beispielsweise der Physik – ein bisher wenig erforschtes Gebiet. Um die Fortschritte in diesen Fähigkeiten angemessen zu reflektieren, stellen wir einen neuartigen und zugänglichen Rahmen vor, der eine rigorose Evaluation des physikalischen Verständnisses von VLMs im Bereich der zweidimensionalen Physik ermöglicht. Unser Rahmen verfügt über einen praktikablen Szenario-Generator, der eine vielfältige Testumgebung mit über 400 Aufgaben aus vier zentralen Domänen erstellt: Wurfparabeln, Kollisionsdynamik, Mechanik und Fluiddynamik. Durch eine umfassende Bewertung vier führender VLMs zeigen wir eine starke Korrelation zwischen Modellgröße und Schlussfolgerungsfähigkeit; das bestperformende Modell, Qwen2.5-VL-7B, erreicht dabei eine Gesamtpunktzahl von 0,815. Wir stellen fest, dass die Modelle zwar bei formelbasierten Aufgaben hervorragend abschneiden, jedoch erhebliche Schwierigkeiten bei Domänen mit abstrakter räumlicher Schlussfolgerung aufweisen. Durch die Entwicklung dieses Rahmens streben wir an, die Erforschung wissenschaftlicher Schlussfolgerungen in VLMs zu demokratisieren und tiefere Einblicke in deren Stärken und Grenzen zu ermöglichen.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.