Cartographie des Mèmes aux Mots pour la Classification Multimodale des Mèmes Haineux

Les mémos multimodaux image-texte sont omniprésents sur Internet, servant de forme unique de communication qui combine des éléments visuels et textuels pour transmettre l'humour, les idées ou les émotions. Cependant, certains mémos prennent une tournure malveillante, en promouvant du contenu haineux et en perpétuant la discrimination. La détection de ces mémos haineux dans ce contexte multimodal est une tâche complexe qui nécessite une compréhension de la signification entremêlée du texte et des images. Dans cette étude, nous abordons cette problématique en proposant une nouvelle approche nommée ISSUES pour la classification des mémos haineux multimodaux. ISSUES utilise un modèle pré-entraîné CLIP (vision-langage) et la technique d'inversion textuelle pour capturer efficacement le contenu sémantique multimodal des mémos. Les expériences montrent que notre méthode obtient des résultats à l'état de l'art sur les jeux de données Hateful Memes Challenge et HarMeme. Le code source et les modèles pré-entraînés sont librement accessibles à l'adresse suivante : https://github.com/miccunifi/ISSUES.