HyperAIHyperAI

Command Palette

Search for a command to run...

DeepPHY: Benchmarking agenter VLMs im Bereich der physikalischen Schlussfolgerung

Xinrun Xu Pi Bu Ye Wang Börje F. Karlsson Ziming Wang Tengtao Song Qi Zhu Jun Song Zhiming Ding Bo Zheng

Zusammenfassung

Obwohl Vision-Language-Modelle (VLMs) über starke Wahrnehmungsfähigkeiten und beeindruckende visuelle Schlussfolgerungskapazitäten verfügen, leiden sie unter mangelnder Aufmerksamkeit für Details und präzises Handlungsplanen in komplexen, dynamischen Umgebungen, was zu suboptimalen Leistungen führt. In der Praxis erfordern Aufgaben typischerweise komplexe Interaktionen, fortgeschrittene räumliche Schlussfolgerung, langfristige Planung sowie kontinuierliche Strategieoptimierung, was gewöhnlich ein tiefes Verständnis der physikalischen Gesetzmäßigkeiten der jeweiligen Szenario erfordert. Die Bewertung dieser Fähigkeiten in realen Umgebungen ist jedoch oft prohibitiv kostspielig. Um diese Lücke zu schließen, stellen wir DeepPHY vor – einen neuartigen Benchmark-Framework, der systematisch die Fähigkeit von VLMs zur Verständnis und Schlussfolgerung grundlegender physikalischer Prinzipien anhand einer Reihe herausfordernder simulierter Umgebungen bewertet. DeepPHY integriert physische Schlussfolgerungsumgebungen unterschiedlicher Schwierigkeitsgrade und berücksichtigt fein abgestimmte Bewertungsmetriken. Unsere Evaluation zeigt, dass selbst state-of-the-art VLMs Schwierigkeiten haben, beschreibendes physikalisches Wissen in präzise, vorhersagbare Steuerung umzusetzen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp