Vers une détection explicite des memes nuisibles grâce à un débat multimodal entre des grands modèles linguistiques

L’ère des réseaux sociaux est inondée de memes Internet, ce qui rend indispensable une compréhension claire et une identification efficace des contenus nuisibles. Ce défi est particulièrement élevé en raison du sens implicite inscrit dans les memes, qui n’est pas directement exprimé par le texte ou l’image superficiels. Or, les méthodes existantes de détection des memes nuisibles ne fournissent pas d’explications lisibles capables d’élucider ce sens implicite afin de justifier leurs décisions de détection. Dans cet article, nous proposons une approche explicable pour la détection des memes nuisibles, fondée sur un raisonnement portant sur des arguments contradictoires issus de positions innocentes et nuisibles. Plus précisément, inspirés par la puissante capacité des grands modèles linguistiques (LLM) en génération de texte et en raisonnement, nous initions d’abord un débat multimodal entre LLM afin de générer des explications issues d’arguments contradictoires. Ensuite, nous proposons de fine-tuner un petit modèle linguistique pour agir comme juge du débat, chargé d’inférer la nocivité, afin de faciliter la fusion multimodale entre les raisonnements sur la nocivité et les informations multimodales intrinsèques aux memes. Ainsi, notre modèle est capable d’effectuer un raisonnement dialectique sur des motifs complexes et implicites indiquant une nocivité, en exploitant des explications multimodales issues à la fois des arguments innocents et des arguments nuisibles. Des expérimentations étendues sur trois jeux de données publics de memes montrent que notre approche de détection des memes nuisibles atteint des performances nettement supérieures à celles des méthodes de pointe, tout en présentant une capacité exceptionnelle à expliquer la nocivité des memes dans les prédictions du modèle.