HyperAI

Die Fähigkeit, Werkzeuge zu nutzen, zu verstehen und zu erschaffen, ist ein Kennzeichen menschlicher Intelligenz und ermöglicht eine komplexe Interaktion mit der physischen Welt. Für ein allgemein einsetzbares intelligentes Agens, das echte Vielseitigkeit erreichen soll, müssen diese grundlegenden Fähigkeiten ebenfalls beherrscht werden. Obwohl moderne Multimodale große Sprachmodelle (MLLMs) ihr umfangreiches Allgemeinwissen für hochrangige Planung im Bereich embodied AI sowie in nachgeschalteten Vision-Language-Action-(VLA)-Modellen nutzen, bleibt der Grad ihres tatsächlichen Verständnisses physischer Werkzeuge bisher unquantifiziert. Um diese Lücke zu schließen, stellen wir PhysToolBench vor – die erste Benchmark, die speziell darauf abzielt, das Verständnis physischer Werkzeuge durch MLLMs zu bewerten. Unsere Benchmark ist als Visual Question Answering (VQA)-Datensatz strukturiert und umfasst über 1.000 Bild-Text-Paare. Sie erfasst Fähigkeiten auf drei unterschiedlichen Schwierigkeitsstufen: (1) Werkzeugerkennung: Erfordert die Identifizierung der primären Funktion eines Werkzeugs. (2) Werkzeugverständnis: Prüft die Fähigkeit, die zugrundeliegenden Funktionsprinzipien eines Werkzeugs zu erfassen. (3) Werkzeugerstellung: Fordert das Modell heraus, ein neues Werkzeug aus umgebenden Objekten zu konstruieren, wenn herkömmliche Optionen nicht verfügbar sind. Unsere umfassende Bewertung von 32 MLLMs – darunter proprietäre, Open-Source-, spezialisierte embodied-Modelle sowie Basisarchitekturen für VLA-Modelle – offenbart eine erhebliche Defizit im Bereich des Werkzeugverständnisses. Zudem bieten wir eine detaillierte Analyse und diskutieren erste Ansätze zur Verbesserung. Der Quellcode und das Datenset sind öffentlich zugänglich.

PhysToolBench: Benchmarking der Verständnisfähigkeit physischer Werkzeuge für MLLMs

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

Abstract

KI mit KI entwickeln

Hyper Newsletters

Command Palette

PhysToolBench: Benchmarking der Verständnisfähigkeit physischer Werkzeuge für MLLMs

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

Abstract

KI mit KI entwickeln

Hyper Newsletters