vor 6 Monaten

Zusammenfassung

Metaphern, Vergleiche und Redewendungen sind wesentliche Bestandteile der menschlichen Kommunikation. Sie sind in vielen Diskursformen allgegenwärtig und ermöglichen es Menschen, komplexe, abstrakte Ideen zu vermitteln und Emotionen hervorzurufen. Da figürliche Ausdrücke oft über mehrere Modalitäten hinweg vermittelt werden (z. B. sowohl textuell als auch visuell), stellt das Verständnis multimodaler figürlicher Sprache eine zentrale Herausforderung für KI dar, die tiefgreifendes Sehen, Sprachverstehen, Alltagswissen und kulturelles Wissen integriert. In dieser Arbeit entwickeln wir den Image Recognition of Figurative Language (IRFL)-Datensatz. Wir nutzen menschliche Annotationen sowie eine von uns erstellte automatisierte Pipeline, um einen multimodalen Datensatz zu generieren, und stellen zwei neuartige Aufgaben als Benchmark für das Verständnis multimodaler figürlicher Sprache vor. Wir testeten state-of-the-art-Modelle aus den Bereichen Vision und Sprachverarbeitung und stellten fest, dass das beste Modell (22 %) deutlich schlechter abschneidet als Menschen (97 %). Wir veröffentlichen unseren Datensatz, den Benchmark sowie den Quellcode, um die Entwicklung von Modellen voranzutreiben, die figürliche Sprache besser verstehen können.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Bilderkennung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Ron Yosef Yonatan Bitton Dafna Shahaf

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodal

Bilderkennung

Multimodale Darstellung

Multimodal

Computervision

Aufgabe

Ron Yosef Yonatan Bitton Dafna Shahaf

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

IRFL: Bilderkennung figurativer Sprache | Paper | HyperAI

Command Palette

IRFL: Bilderkennung figurativer Sprache

Ron Yosef Yonatan Bitton Dafna Shahaf

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

IRFL: Bilderkennung figurativer Sprache

Ron Yosef Yonatan Bitton Dafna Shahaf

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

IRFL: Bilderkennung figurativer Sprache

Ron Yosef Yonatan Bitton Dafna Shahaf

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters