Command Palette
Search for a command to run...
DeepPHY: Benchmarking agenter VLMs im Bereich der physikalischen Schlussfolgerung
DeepPHY: Benchmarking agenter VLMs im Bereich der physikalischen Schlussfolgerung
Xinrun Xu Pi Bu Ye Wang Börje F. Karlsson Ziming Wang Tengtao Song Qi Zhu Jun Song Zhiming Ding Bo Zheng
Zusammenfassung
Obwohl Vision-Language-Modelle (VLMs) über starke Wahrnehmungsfähigkeiten und beeindruckende visuelle Schlussfolgerungskapazitäten verfügen, leiden sie unter mangelnder Aufmerksamkeit für Details und präzises Handlungsplanen in komplexen, dynamischen Umgebungen, was zu suboptimalen Leistungen führt. In der Praxis erfordern Aufgaben typischerweise komplexe Interaktionen, fortgeschrittene räumliche Schlussfolgerung, langfristige Planung sowie kontinuierliche Strategieoptimierung, was gewöhnlich ein tiefes Verständnis der physikalischen Gesetzmäßigkeiten der jeweiligen Szenario erfordert. Die Bewertung dieser Fähigkeiten in realen Umgebungen ist jedoch oft prohibitiv kostspielig. Um diese Lücke zu schließen, stellen wir DeepPHY vor – einen neuartigen Benchmark-Framework, der systematisch die Fähigkeit von VLMs zur Verständnis und Schlussfolgerung grundlegender physikalischer Prinzipien anhand einer Reihe herausfordernder simulierter Umgebungen bewertet. DeepPHY integriert physische Schlussfolgerungsumgebungen unterschiedlicher Schwierigkeitsgrade und berücksichtigt fein abgestimmte Bewertungsmetriken. Unsere Evaluation zeigt, dass selbst state-of-the-art VLMs Schwierigkeiten haben, beschreibendes physikalisches Wissen in präzise, vorhersagbare Steuerung umzusetzen.