HyperAIHyperAI

Command Palette

Search for a command to run...

IRFL: Bilderkennung figurativer Sprache

Ron Yosef Yonatan Bitton Dafna Shahaf

Zusammenfassung

Metaphern, Vergleiche und Redewendungen sind wesentliche Bestandteile der menschlichen Kommunikation. Sie sind in vielen Diskursformen allgegenwärtig und ermöglichen es Menschen, komplexe, abstrakte Ideen zu vermitteln und Emotionen hervorzurufen. Da figürliche Ausdrücke oft über mehrere Modalitäten hinweg vermittelt werden (z. B. sowohl textuell als auch visuell), stellt das Verständnis multimodaler figürlicher Sprache eine zentrale Herausforderung für KI dar, die tiefgreifendes Sehen, Sprachverstehen, Alltagswissen und kulturelles Wissen integriert. In dieser Arbeit entwickeln wir den Image Recognition of Figurative Language (IRFL)-Datensatz. Wir nutzen menschliche Annotationen sowie eine von uns erstellte automatisierte Pipeline, um einen multimodalen Datensatz zu generieren, und stellen zwei neuartige Aufgaben als Benchmark für das Verständnis multimodaler figürlicher Sprache vor. Wir testeten state-of-the-art-Modelle aus den Bereichen Vision und Sprachverarbeitung und stellten fest, dass das beste Modell (22 %) deutlich schlechter abschneidet als Menschen (97 %). Wir veröffentlichen unseren Datensatz, den Benchmark sowie den Quellcode, um die Entwicklung von Modellen voranzutreiben, die figürliche Sprache besser verstehen können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp