IRFL: Bilderkennung figurativer Sprache

Metaphern, Vergleiche und Redewendungen sind wesentliche Bestandteile der menschlichen Kommunikation. Sie sind in vielen Diskursformen allgegenwärtig und ermöglichen es Menschen, komplexe, abstrakte Ideen zu vermitteln und Emotionen hervorzurufen. Da figürliche Ausdrücke oft über mehrere Modalitäten hinweg vermittelt werden (z. B. sowohl textuell als auch visuell), stellt das Verständnis multimodaler figürlicher Sprache eine zentrale Herausforderung für KI dar, die tiefgreifendes Sehen, Sprachverstehen, Alltagswissen und kulturelles Wissen integriert. In dieser Arbeit entwickeln wir den Image Recognition of Figurative Language (IRFL)-Datensatz. Wir nutzen menschliche Annotationen sowie eine von uns erstellte automatisierte Pipeline, um einen multimodalen Datensatz zu generieren, und stellen zwei neuartige Aufgaben als Benchmark für das Verständnis multimodaler figürlicher Sprache vor. Wir testeten state-of-the-art-Modelle aus den Bereichen Vision und Sprachverarbeitung und stellten fest, dass das beste Modell (22 %) deutlich schlechter abschneidet als Menschen (97 %). Wir veröffentlichen unseren Datensatz, den Benchmark sowie den Quellcode, um die Entwicklung von Modellen voranzutreiben, die figürliche Sprache besser verstehen können.