vor 14 Tagen

DeepPHY: Benchmarking agenter VLMs im Bereich der physikalischen Schlussfolgerung

Xinrun Xu, Pi Bu, Ye Wang, Börje F. Karlsson, Ziming Wang, Tengtao Song, Qi Zhu, Jun Song, Zhiming Ding, Bo Zheng

Details der Forschungsarbeit anzeigen View Code

DeepPHY: Benchmarking agenter VLMs im Bereich der physikalischen Schlussfolgerung

Abstract

Obwohl Vision-Language-Modelle (VLMs) über starke Wahrnehmungsfähigkeiten und beeindruckende visuelle Schlussfolgerungskapazitäten verfügen, leiden sie unter mangelnder Aufmerksamkeit für Details und präzises Handlungsplanen in komplexen, dynamischen Umgebungen, was zu suboptimalen Leistungen führt. In der Praxis erfordern Aufgaben typischerweise komplexe Interaktionen, fortgeschrittene räumliche Schlussfolgerung, langfristige Planung sowie kontinuierliche Strategieoptimierung, was gewöhnlich ein tiefes Verständnis der physikalischen Gesetzmäßigkeiten der jeweiligen Szenario erfordert. Die Bewertung dieser Fähigkeiten in realen Umgebungen ist jedoch oft prohibitiv kostspielig. Um diese Lücke zu schließen, stellen wir DeepPHY vor – einen neuartigen Benchmark-Framework, der systematisch die Fähigkeit von VLMs zur Verständnis und Schlussfolgerung grundlegender physikalischer Prinzipien anhand einer Reihe herausfordernder simulierter Umgebungen bewertet. DeepPHY integriert physische Schlussfolgerungsumgebungen unterschiedlicher Schwierigkeitsgrade und berücksichtigt fein abgestimmte Bewertungsmetriken. Unsere Evaluation zeigt, dass selbst state-of-the-art VLMs Schwierigkeiten haben, beschreibendes physikalisches Wissen in präzise, vorhersagbare Steuerung umzusetzen.