HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive

Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive

Abstract

Visuelle räumliche Schlussfolgerung (Visual Spatial Reasoning, VSR) ist eine zentrale kognitive Fähigkeit des Menschen und eine entscheidende Voraussetzung für den Fortschritt von embodied Intelligence und autonomen Systemen. Trotz der jüngsten Fortschritte in Vision-Language-Modellen (VLMs) bleibt die Erreichung menschlicher Leistungsfähigkeit im Bereich der VSR aufgrund der Komplexität der Darstellung und Schlussfolgerung im dreidimensionalen Raum weiterhin äußerst herausfordernd. In diesem Paper präsentieren wir eine systematische Untersuchung der VSR in VLMs, die eine Übersicht über bestehende Methoden in Bezug auf Eingabemodalitäten, Modellarchitekturen, Trainingsstrategien und Schlussfolgerungsmechanismen umfasst. Zudem gliedern wir räumliche Intelligenz in drei Leistungsebenen: grundlegende Wahrnehmung, räumliches Verständnis und räumliche Planung. Wir stellen SIBench, einen Benchmark für räumliche Intelligenz, vor, der nahezu 20 Open-Source-Datensätze in 23 unterschiedlichen Aufgabenstellungen umfasst. Experimente mit aktuellen State-of-the-Art-VLMs offenbaren eine deutliche Lücke zwischen Wahrnehmung und Schlussfolgerung: Die Modelle zeigen Kompetenz bei grundlegenden wahrnehmenden Aufgaben, erzielen jedoch konstant schlechtere Ergebnisse bei Aufgaben des Verständnisses und der Planung – insbesondere bei der numerischen Schätzung, der mehransichtigen Schlussfolgerung, der zeitlichen Dynamik und der räumlichen Vorstellungskraft. Diese Ergebnisse unterstreichen die erheblichen Herausforderungen, die noch vor der Realisierung echter räumlicher Intelligenz stehen, und liefern gleichzeitig einen systematischen Forschungspfad sowie einen umfassenden Benchmark, um zukünftige Arbeiten in diesem Bereich voranzutreiben. Die damit verbundenen Ressourcen sind unter https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/ zugänglich.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Wie weit sind VLMs von visueller räumlicher Intelligenz entfernt? Eine benchmarkgetriebene Perspektive | Forschungsarbeiten | HyperAI