MemeCLIP : Exploitation des représentations CLIP pour la classification multimodale des memes

La complexité des images intégrées au texte représente un défi considérable en apprentissage automatique, étant donné la nécessité de comprendre de manière multimodale les multiples aspects d'expression qu'elles véhiculent. Bien que les recherches précédentes en analyse multimodale se soient principalement concentrées sur des aspects individuels tels que le discours de haine et ses sous-classes, cette étude élargit cette perspective pour inclure plusieurs aspects linguistiques : la haine, les cibles de la haine, l'attitude (stance) et l'humour. Nous présentons un nouveau jeu de données nommé PrideMM composé de 5 063 images intégrées au texte liées au mouvement LGBTQ+ Pride, ainsi abordant une lacune importante dans les ressources existantes. Nous menons des expériences approfondies sur PrideMM en utilisant des méthodes baselines unimodales et multimodales pour établir des références pour chaque tâche. De plus, nous proposons un cadre novateur appelé MemeCLIP permettant un apprentissage downstream efficace tout en préservant les connaissances du modèle CLIP pré-entraîné. Les résultats de nos expériences montrent que MemeCLIP obtient des performances supérieures par rapport aux cadres proposés précédemment sur deux jeux de données réels. Nous comparons également les performances de MemeCLIP et de GPT-4 en zero-shot sur la tâche de classification de la haine. Enfin, nous discutons des limites de notre modèle en analysant qualitativement les échantillons mal classifiés. Notre code et notre jeu de données sont disponibles publiquement à l'adresse suivante : https://github.com/SiddhantBikram/MemeCLIP.