HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag

PhysToolBench: Benchmarking der Verständnisfähigkeit physischer Werkzeuge für MLLMs

Zixin Zhang Kanghao Chen Xingwang Lin Lutao Jiang Xu Zheng Yuanhuiyi Lyu Litao Guo Yinchuan Li Ying-Cong Chen

PhysToolBench: Benchmarking der Verständnisfähigkeit physischer Werkzeuge für MLLMs

Abstract

Die Fähigkeit, Werkzeuge zu nutzen, zu verstehen und zu erschaffen, ist ein Kennzeichen menschlicher Intelligenz und ermöglicht eine komplexe Interaktion mit der physischen Welt. Für ein allgemein einsetzbares intelligentes Agens, das echte Vielseitigkeit erreichen soll, müssen diese grundlegenden Fähigkeiten ebenfalls beherrscht werden. Obwohl moderne Multimodale große Sprachmodelle (MLLMs) ihr umfangreiches Allgemeinwissen für hochrangige Planung im Bereich embodied AI sowie in nachgeschalteten Vision-Language-Action-(VLA)-Modellen nutzen, bleibt der Grad ihres tatsächlichen Verständnisses physischer Werkzeuge bisher unquantifiziert. Um diese Lücke zu schließen, stellen wir PhysToolBench vor – die erste Benchmark, die speziell darauf abzielt, das Verständnis physischer Werkzeuge durch MLLMs zu bewerten. Unsere Benchmark ist als Visual Question Answering (VQA)-Datensatz strukturiert und umfasst über 1.000 Bild-Text-Paare. Sie erfasst Fähigkeiten auf drei unterschiedlichen Schwierigkeitsstufen: (1) Werkzeugerkennung: Erfordert die Identifizierung der primären Funktion eines Werkzeugs. (2) Werkzeugverständnis: Prüft die Fähigkeit, die zugrundeliegenden Funktionsprinzipien eines Werkzeugs zu erfassen. (3) Werkzeugerstellung: Fordert das Modell heraus, ein neues Werkzeug aus umgebenden Objekten zu konstruieren, wenn herkömmliche Optionen nicht verfügbar sind. Unsere umfassende Bewertung von 32 MLLMs – darunter proprietäre, Open-Source-, spezialisierte embodied-Modelle sowie Basisarchitekturen für VLA-Modelle – offenbart eine erhebliche Defizit im Bereich des Werkzeugverständnisses. Zudem bieten wir eine detaillierte Analyse und diskutieren erste Ansätze zur Verbesserung. Der Quellcode und das Datenset sind öffentlich zugänglich.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp