HyperAIHyperAI
il y a 11 jours

ETHOS : un jeu de données pour la détection en ligne de discours de haine

Ioannis Mollas, Zoe Chrysopoulou, Stamatis Karlos, Grigorios Tsoumakas
ETHOS : un jeu de données pour la détection en ligne de discours de haine
Résumé

Le discours de haine en ligne est un problème récent de notre société, en progression constante, exploitant les failles des régimes correspondants qui caractérisent la plupart des plateformes de médias sociaux. Ce phénomène est principalement alimenté par des commentaires offensifs, qu’ils soient échangés lors des interactions utilisateur ou publiés dans un contexte multimédia. Aujourd’hui, de grandes entreprises possèdent des plateformes où des millions d’utilisateurs se connectent quotidiennement, et la protection contre l’exposition à de tels phénomènes apparaît nécessaire afin de se conformer aux législations pertinentes et de maintenir un haut niveau de qualité du service. Un système robuste et fiable de détection et de prévention du téléchargement de contenus pertinents aurait un impact significatif sur notre société fortement interconnectée numériquement. Plusieurs aspects de notre vie quotidienne sont indéniablement liés à nos profils sociaux, nous rendant vulnérables aux comportements abusifs. En conséquence, l’absence de mécanismes précis de détection du discours de haine dégraderait gravement l’expérience globale des utilisateurs, tandis que son fonctionnement erroné soulèverait de nombreuses préoccupations éthiques. Dans cet article, nous présentons « ETHOS », un jeu de données textuelles comprenant deux variantes : binaire et multi-label, basé sur des commentaires provenant de YouTube et de Reddit, validés via la plateforme de crowdsourcing Figure-Eight. Par ailleurs, nous détaillons le protocole d’annotation utilisé pour créer ce jeu de données : une procédure d’échantillonnage actif visant à équilibrer les données selon les différents aspects définis. Notre hypothèse centrale est que, même en obtenant une petite quantité de données étiquetées issues d’un processus aussi chronophage, nous pouvons garantir la présence de discours de haine dans les matériaux examinés.

ETHOS : un jeu de données pour la détection en ligne de discours de haine | Articles de recherche récents | HyperAI