HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen

Pranav Pawar Kavish Shah Akshat Bhalani Komal Kasat Dev Mittal Hadi Gala Deepali Patil Nikita Raichada Monali Deshmukh

Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen

Abstract

Mit der zunehmenden Komplexität von Vision-Sprache-Modellen (VLMs) nimmt die Aufmerksamkeit für ihre Fähigkeit zur Schlussfolgerung kontinuierlich zu. Obwohl diese Modelle in vielen Aufgaben hervorragend abschneiden, bleibt ihr Verständnis grundlegender wissenschaftlicher Prinzipien – beispielsweise der Physik – ein bisher wenig erforschtes Gebiet. Um die Fortschritte in diesen Fähigkeiten angemessen zu reflektieren, stellen wir einen neuartigen und zugänglichen Rahmen vor, der eine rigorose Evaluation des physikalischen Verständnisses von VLMs im Bereich der zweidimensionalen Physik ermöglicht. Unser Rahmen verfügt über einen praktikablen Szenario-Generator, der eine vielfältige Testumgebung mit über 400 Aufgaben aus vier zentralen Domänen erstellt: Wurfparabeln, Kollisionsdynamik, Mechanik und Fluiddynamik. Durch eine umfassende Bewertung vier führender VLMs zeigen wir eine starke Korrelation zwischen Modellgröße und Schlussfolgerungsfähigkeit; das bestperformende Modell, Qwen2.5-VL-7B, erreicht dabei eine Gesamtpunktzahl von 0,815. Wir stellen fest, dass die Modelle zwar bei formelbasierten Aufgaben hervorragend abschneiden, jedoch erhebliche Schwierigkeiten bei Domänen mit abstrakter räumlicher Schlussfolgerung aufweisen. Durch die Entwicklung dieses Rahmens streben wir an, die Erforschung wissenschaftlicher Schlussfolgerungen in VLMs zu demokratisieren und tiefere Einblicke in deren Stärken und Grenzen zu ermöglichen.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Interpretierbares physikalisches Schlussfolgern und Leistungstaxonomie in visuellsprachlichen Modellen | Forschungsarbeiten | HyperAI