HyperAIHyperAI
il y a 11 jours

Vers un cadre robuste pour la détection multimodale de haine : une étude comparative entre contenus vidéo et images

Girish A. Koushik, Diptesh Kanojia, Helen Treharne
Vers un cadre robuste pour la détection multimodale de haine : une étude comparative entre contenus vidéo et images
Résumé

Les plateformes de médias sociaux permettent la propagation de contenus haineux à travers différentes modalités, telles que le texte, l’audio et l’image, ce qui rend nécessaire le développement de méthodes efficaces de détection. Bien que les approches récentes aient montré un potentiel prometteur dans la gestion de modalités individuelles, leur efficacité face à différentes combinaisons de modalités reste encore inexplorée. Ce papier présente une analyse systématique des approches fondées sur la fusion pour la détection de la haine multimodale, en se concentrant sur leurs performances sur des contenus vidéo et image. Notre évaluation approfondie révèle des limites spécifiques à chaque modalité : bien que la fusion simple d’embeddings atteigne des performances de pointe sur les contenus vidéo (jeu de données HateMM), avec une amélioration de 9,9 points du score F1, elle peine à modéliser les relations complexes entre texte et image présentes dans les memes (jeu de données Hateful Memes). Grâce à des études d’ablation détaillées et une analyse des erreurs, nous démontrons que les approches actuelles de fusion échouent à capturer des interactions inter-modales subtiles, en particulier dans les cas impliquant des confondeurs bénins. Nos résultats fournissent des insights cruciaux pour le développement de systèmes de détection de la haine plus robustes et soulignent la nécessité de considérations architecturales spécifiques à chaque modalité. Le code est disponible à l’adresse suivante : https://github.com/gak97/Video-vs-Meme-Hate.

Vers un cadre robuste pour la détection multimodale de haine : une étude comparative entre contenus vidéo et images | Articles de recherche récents | HyperAI