Command Palette
Search for a command to run...
OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen
OmniSpatial: Ein umfassender Benchmark für räumliches Schließen bei visuellen Sprachmodellen
Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al
Zusammenfassung
Raumliches Schließen ist ein zentrales Element der kognitiven Psychologie und stellt weiterhin eine wesentliche Herausforderung für aktuelle Vision-Sprache-Modelle (VLMs) dar. Während umfangreiche Forschungsarbeiten darauf abzielen, das Verständnis von VLMs für grundlegende räumliche Beziehungen – wie die Unterscheidung von links und rechts, nahe und fern sowie die Objektzählung – zu bewerten oder zu verbessern, repräsentieren diese Aufgaben lediglich die elementarsten Stufen des räumlichen Schließens. In dieser Arbeit stellen wir OmniSpatial vor, einen umfassenden und anspruchsvollen Benchmark für räumliches Schließen, der auf der kognitiven Psychologie basiert. OmniSpatial umfasst vier Hauptkategorien: dynamisches Schließen, komplexe räumliche Logik, räumliche Interaktion und Perspektivenwechsel, verteilt auf 50 fein abgestufte Untergruppen. Durch Datenabruf aus dem Internet und sorgfältige manuelle Annotation haben wir über 1.500 Frage-Antwort-Paare erstellt. Ausführliche Experimente zeigen, dass sowohl offene als auch geschlossene VLMs sowie bestehende Schließ- und räumliche Verständnismodelle erhebliche Grenzen im umfassenden räumlichen Verständnis aufweisen. Wir analysieren zudem Fehlerfälle und skizzieren mögliche Forschungsrichtungen für zukünftige Arbeiten.