HyperAIHyperAI

Command Palette

Search for a command to run...

OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen

Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al

Zusammenfassung

Raumliches Schließen ist ein zentrales Element der kognitiven Psychologie und stellt weiterhin eine wesentliche Herausforderung für aktuelle Vision-Sprache-Modelle (VLMs) dar. Während umfangreiche Forschungsarbeiten darauf abzielen, das Verständnis von VLMs für grundlegende räumliche Beziehungen – wie die Unterscheidung von links und rechts, nahe und fern sowie die Objektzählung – zu bewerten oder zu verbessern, repräsentieren diese Aufgaben lediglich die elementarsten Stufen des räumlichen Schließens. In dieser Arbeit stellen wir OmniSpatial vor, einen umfassenden und anspruchsvollen Benchmark für räumliches Schließen, der auf der kognitiven Psychologie basiert. OmniSpatial umfasst vier Hauptkategorien: dynamisches Schließen, komplexe räumliche Logik, räumliche Interaktion und Perspektivenwechsel, verteilt auf 50 fein abgestufte Untergruppen. Durch Datenabruf aus dem Internet und sorgfältige manuelle Annotation haben wir über 1.500 Frage-Antwort-Paare erstellt. Ausführliche Experimente zeigen, dass sowohl offene als auch geschlossene VLMs sowie bestehende Schließ- und räumliche Verständnismodelle erhebliche Grenzen im umfassenden räumlichen Verständnis aufweisen. Wir analysieren zudem Fehlerfälle und skizzieren mögliche Forschungsrichtungen für zukünftige Arbeiten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp