HateMM : Un jeu de données multi-modale pour la classification des vidéos haineuses

La haine en ligne est devenue l’un des enjeux les plus importants de la société moderne, avec des répercussions tant dans le monde numérique qu’offline. À la suite de cela, la recherche sur la haine en ligne a récemment connu un essor considérable. Toutefois, la majeure partie des travaux s’est concentrée principalement sur les médias textuels, tandis que très peu d’efforts ont été consacrés aux images, et encore moins aux vidéos. Ainsi, il est urgent de développer des techniques automatisées précoces de modération vidéo afin de traiter les contenus vidéo publiés, afin de garantir la sécurité et la santé des plateformes. Dans cette optique, notre travail se concentre sur la détection de vidéos haineuses en exploitant une approche multi-modale. À cet effet, nous avons collecté environ 43 heures de vidéos provenant de BitChute, que nous avons annotées manuellement comme « haineuses » ou « non haineuses », tout en indiquant les intervalles de trames pouvant justifier chaque étiquette. Pour identifier les vidéos pertinentes, nous avons utilisé des mots-clés extraits de lexiques de haine. Nous avons observé divers indices présents dans les images et l’audio des vidéos haineuses. Par la suite, nous avons conçu des modèles d’apprentissage profond multi-modaux afin de classifier ces vidéos. Nos résultats montrent qu’en combinant toutes les modalités vidéo, la performance globale de détection de la haine s’améliore de près de 5,7 % en termes de score F1 macro par rapport au meilleur modèle unimodal (précision = 0,798, score F1 macro = 0,790). En résumé, notre travail constitue une première étape essentielle vers la compréhension et la modélisation des vidéos haineuses sur les plateformes de partage vidéo telles que BitChute.