HyperAIHyperAI

Command Palette

Search for a command to run...

Visuelle räumliche Reasoning

Fangyu Liu Guy Emerson Nigel Collier

Zusammenfassung

Raumliche Beziehungen sind ein grundlegender Bestandteil der menschlichen Kognition. Dennoch werden sie in natürlicher Sprache auf vielfältige Weise ausgedrückt, und frühere Studien haben darauf hingewiesen, dass gegenwärtige Vision-und-Sprache-Modelle (VLMs) Schwierigkeiten haben, relationale Informationen adäquat zu erfassen. In diesem Paper stellen wir Visual Spatial Reasoning (VSR) vor, einen Datensatz mit mehr als 10.000 Paaren aus natürlichen Texten und Bildern, die 66 Arten räumlicher Beziehungen auf Englisch enthalten (z. B. „unter“, „vor“, „gegenüber“). Obwohl die Annotationsschemata scheinbar einfach erscheinen, zeigen wir, dass der Datensatz herausfordernde sprachliche Phänomene beinhaltet, wie beispielsweise variierende Bezugssysteme. Wir belegen eine erhebliche Leistungslücke zwischen Menschen und Modellen: Die menschliche Leistungsgrenze liegt über 95 %, während state-of-the-art-Modelle lediglich etwa 70 % erreichen. Zudem stellen wir fest, dass die Leistung von VLMs pro Relation kaum mit der Anzahl der Trainingsbeispiele korreliert und dass die getesteten Modelle im Allgemeinen nicht in der Lage sind, Beziehungen zu Objektorientierungen zu erkennen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp