IRFL : Reconnaissance d'images du langage figuré

Les figures de style telles que les métaphores, les comparaisons et les expressions idiomatiques constituent des éléments essentiels de la communication humaine. Elles sont omniprésentes dans de nombreux types de discours, permettant aux individus de transmettre des idées complexes et abstraites tout en suscitant des émotions. Étant donné que ces formes figuratives sont souvent véhiculées à travers plusieurs modalités (par exemple, texte et images simultanément), la compréhension du langage figuré multimodal représente un défi majeur pour l’intelligence artificielle, intégrant profondément des connaissances en vision par ordinateur, en traitement du langage, en raisonnement courant et en culture. Dans ce travail, nous proposons le jeu de données Image Recognition of Figurative Language (IRFL). Nous exploitons des annotations humaines ainsi qu’un pipeline automatique que nous avons conçu pour générer un ensemble de données multimodal, et introduisons deux nouvelles tâches afin de constituer une référence (benchmark) pour la compréhension du langage figuré multimodal. Nous avons testé des modèles d’état de l’art en vision et langage, et constaté que le meilleur modèle atteignait seulement 22 % de performance, soit une performance nettement inférieure à celle des humains (97 %). Nous mettons à disposition notre jeu de données, notre benchmark et le code source, dans l’espoir de stimuler le développement de modèles capables de mieux comprendre le langage figuré.