PhysToolBench: Benchmarking der Verständnisfähigkeit physischer Werkzeuge für MLLMs
Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

Abstract
Die Fähigkeit, Werkzeuge zu nutzen, zu verstehen und zu erschaffen, ist ein Kennzeichen menschlicher Intelligenz und ermöglicht eine komplexe Interaktion mit der physischen Welt. Für ein allgemein einsetzbares intelligentes Agens, das echte Vielseitigkeit erreichen soll, müssen diese grundlegenden Fähigkeiten ebenfalls beherrscht werden. Obwohl moderne Multimodale große Sprachmodelle (MLLMs) ihr umfangreiches Allgemeinwissen für hochrangige Planung im Bereich embodied AI sowie in nachgeschalteten Vision-Language-Action-(VLA)-Modellen nutzen, bleibt der Grad ihres tatsächlichen Verständnisses physischer Werkzeuge bisher unquantifiziert. Um diese Lücke zu schließen, stellen wir PhysToolBench vor – die erste Benchmark, die speziell darauf abzielt, das Verständnis physischer Werkzeuge durch MLLMs zu bewerten. Unsere Benchmark ist als Visual Question Answering (VQA)-Datensatz strukturiert und umfasst über 1.000 Bild-Text-Paare. Sie erfasst Fähigkeiten auf drei unterschiedlichen Schwierigkeitsstufen: (1) Werkzeugerkennung: Erfordert die Identifizierung der primären Funktion eines Werkzeugs. (2) Werkzeugverständnis: Prüft die Fähigkeit, die zugrundeliegenden Funktionsprinzipien eines Werkzeugs zu erfassen. (3) Werkzeugerstellung: Fordert das Modell heraus, ein neues Werkzeug aus umgebenden Objekten zu konstruieren, wenn herkömmliche Optionen nicht verfügbar sind. Unsere umfassende Bewertung von 32 MLLMs – darunter proprietäre, Open-Source-, spezialisierte embodied-Modelle sowie Basisarchitekturen für VLA-Modelle – offenbart eine erhebliche Defizit im Bereich des Werkzeugverständnisses. Zudem bieten wir eine detaillierte Analyse und diskutieren erste Ansätze zur Verbesserung. Der Quellcode und das Datenset sind öffentlich zugänglich.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.