DeepPHY: Benchmarking agenter VLMs im Bereich der physikalischen Schlussfolgerung

Obwohl Vision-Language-Modelle (VLMs) über starke Wahrnehmungsfähigkeiten und beeindruckende visuelle Schlussfolgerungskapazitäten verfügen, leiden sie unter mangelnder Aufmerksamkeit für Details und präzises Handlungsplanen in komplexen, dynamischen Umgebungen, was zu suboptimalen Leistungen führt. In der Praxis erfordern Aufgaben typischerweise komplexe Interaktionen, fortgeschrittene räumliche Schlussfolgerung, langfristige Planung sowie kontinuierliche Strategieoptimierung, was gewöhnlich ein tiefes Verständnis der physikalischen Gesetzmäßigkeiten der jeweiligen Szenario erfordert. Die Bewertung dieser Fähigkeiten in realen Umgebungen ist jedoch oft prohibitiv kostspielig. Um diese Lücke zu schließen, stellen wir DeepPHY vor – einen neuartigen Benchmark-Framework, der systematisch die Fähigkeit von VLMs zur Verständnis und Schlussfolgerung grundlegender physikalischer Prinzipien anhand einer Reihe herausfordernder simulierter Umgebungen bewertet. DeepPHY integriert physische Schlussfolgerungsumgebungen unterschiedlicher Schwierigkeitsgrade und berücksichtigt fein abgestimmte Bewertungsmetriken. Unsere Evaluation zeigt, dass selbst state-of-the-art VLMs Schwierigkeiten haben, beschreibendes physikalisches Wissen in präzise, vorhersagbare Steuerung umzusetzen.