Pro-Cap : Exploiter un modèle vision-langage gelé pour la détection de mémoes haineux

La détection des mémoes haineux constitue une tâche multimodale complexe, exigeant une compréhension à la fois visuelle et linguistique, ainsi qu'une interaction efficace entre les modalités. Des études récentes ont tenté d’adapter des modèles pré-entraînés vision-langage (PVLM) à cette tâche. Toutefois, avec la croissance continue de la taille des modèles, il devient crucial d’exploiter ces PVLM puissants de manière plus efficace, plutôt que de simplement les adapter par fine-tuning. Récemment, des chercheurs ont proposé de transformer les images de mémoes en légendes textuelles, puis d’utiliser ces légendes pour alimenter des modèles linguistiques afin de réaliser des prédictions. Cette approche a montré de bonnes performances, mais souffre de légendes d’images peu informatives. En tenant compte des deux limites mentionnées ci-dessus, nous proposons une méthode de génération de légendes basée sur une enquête (probing), visant à exploiter les PVLM de manière zéro-shot dans le cadre d’une réponse à des questions visuelles (VQA). Plus précisément, nous sollicitons un PVLM figé en lui posant des questions liées au contenu haineux, puis utilisons les réponses obtenues comme légendes d’image (que nous appelons Pro-Cap), de façon à ce que ces légendes contiennent des informations critiques pour la détection du contenu haineux. La performance élevée des modèles utilisant Pro-Cap sur trois benchmarks valide l’efficacité et la généralisation de la méthode proposée.