vor 6 Monaten

Zusammenfassung

Raumliche Beziehungen sind ein grundlegender Bestandteil der menschlichen Kognition. Dennoch werden sie in natürlicher Sprache auf vielfältige Weise ausgedrückt, und frühere Studien haben darauf hingewiesen, dass gegenwärtige Vision-und-Sprache-Modelle (VLMs) Schwierigkeiten haben, relationale Informationen adäquat zu erfassen. In diesem Paper stellen wir Visual Spatial Reasoning (VSR) vor, einen Datensatz mit mehr als 10.000 Paaren aus natürlichen Texten und Bildern, die 66 Arten räumlicher Beziehungen auf Englisch enthalten (z. B. „unter“, „vor“, „gegenüber“). Obwohl die Annotationsschemata scheinbar einfach erscheinen, zeigen wir, dass der Datensatz herausfordernde sprachliche Phänomene beinhaltet, wie beispielsweise variierende Bezugssysteme. Wir belegen eine erhebliche Leistungslücke zwischen Menschen und Modellen: Die menschliche Leistungsgrenze liegt über 95 %, während state-of-the-art-Modelle lediglich etwa 70 % erreichen. Zudem stellen wir fest, dass die Leistung von VLMs pro Relation kaum mit der Anzahl der Trainingsbeispiele korreliert und dass die getesteten Modelle im Allgemeinen nicht in der Lage sind, Beziehungen zu Objektorientierungen zu erkennen.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Bildverstehen

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Fangyu Liu Guy Emerson Nigel Collier

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Bildverstehen

Natürliche Sprachverarbeitung

Multimodal

Computervision

Aufgabe

Fangyu Liu Guy Emerson Nigel Collier

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Visuelle räumliche Reasoning | Paper | HyperAI

Command Palette

Visuelle räumliche Reasoning

Fangyu Liu Guy Emerson Nigel Collier

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Visuelle räumliche Reasoning

Fangyu Liu Guy Emerson Nigel Collier

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Visuelle räumliche Reasoning

Fangyu Liu Guy Emerson Nigel Collier

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters