Command Palette
Search for a command to run...
Visuelle räumliche Reasoning
Visuelle räumliche Reasoning
Fangyu Liu Guy Emerson Nigel Collier
Zusammenfassung
Raumliche Beziehungen sind ein grundlegender Bestandteil der menschlichen Kognition. Dennoch werden sie in natürlicher Sprache auf vielfältige Weise ausgedrückt, und frühere Studien haben darauf hingewiesen, dass gegenwärtige Vision-und-Sprache-Modelle (VLMs) Schwierigkeiten haben, relationale Informationen adäquat zu erfassen. In diesem Paper stellen wir Visual Spatial Reasoning (VSR) vor, einen Datensatz mit mehr als 10.000 Paaren aus natürlichen Texten und Bildern, die 66 Arten räumlicher Beziehungen auf Englisch enthalten (z. B. „unter“, „vor“, „gegenüber“). Obwohl die Annotationsschemata scheinbar einfach erscheinen, zeigen wir, dass der Datensatz herausfordernde sprachliche Phänomene beinhaltet, wie beispielsweise variierende Bezugssysteme. Wir belegen eine erhebliche Leistungslücke zwischen Menschen und Modellen: Die menschliche Leistungsgrenze liegt über 95 %, während state-of-the-art-Modelle lediglich etwa 70 % erreichen. Zudem stellen wir fest, dass die Leistung von VLMs pro Relation kaum mit der Anzahl der Trainingsbeispiele korreliert und dass die getesteten Modelle im Allgemeinen nicht in der Lage sind, Beziehungen zu Objektorientierungen zu erkennen.