Hate-CLIPper : Classification multimodale des mémos haineux basée sur l'interaction transmodale des caractéristiques CLIP

Les mémos haineux constituent une menace croissante sur les réseaux sociaux. Bien que l'image et le texte correspondant d'un mémo soient liés, ils ne transmettent pas nécessairement la même signification lorsqu'ils sont examinés individuellement. Par conséquent, la détection des mémos haineux nécessite une attention particulière aux informations visuelles et textuelles. Le pré-entraînement multimodal peut être bénéfique pour cette tâche car il capture efficacement la relation entre l'image et le texte en les représentant dans un espace de caractéristiques similaire. De plus, il est essentiel de modéliser les interactions entre les caractéristiques visuelles et textuelles par le biais d'une fusion intermédiaire. La plupart des méthodes existantes utilisent soit le pré-entraînement multimodal, soit la fusion intermédiaire, mais rarement les deux. Dans ce travail, nous proposons l'architecture Hate-CLIPper, qui modélise explicitement les interactions inter-modales entre les représentations d'images et de textes obtenues à l'aide des encodeurs de Pré-entraînement Contraste Langage-Image (CLIP) par le biais d'une matrice d'interaction de caractéristiques (FIM). Un classificateur simple basé sur la représentation FIM est capable d'atteindre des performances de pointe sur l'ensemble de données du Défi des Mémos Haineux (HMC) avec un AUROC de 85,8, surpassant même la performance humaine de 82,65. Des expériences menées sur d'autres ensembles de données de mémos, tels que Propaganda Memes et TamilMemes, montrent également la généralisabilité de notre approche proposée. Enfin, nous analysons l'interprétabilité de la représentation FIM et montrons que les interactions inter-modales peuvent effectivement faciliter l'apprentissage de concepts pertinents. Le code pour ce travail est disponible à l'adresse https://github.com/gokulkarthik/hateclipper.