HyperAIHyperAI
il y a 16 jours

HateXplain : Un ensemble de données de référence pour la détection explicative de la haine en ligne

Binny Mathew, Punyajoy Saha, Seid Muhie Yimam, Chris Biemann, Pawan Goyal, Animesh Mukherjee
HateXplain : Un ensemble de données de référence pour la détection explicative de la haine en ligne
Résumé

La haine en ligne constitue un enjeu complexe qui affecte profondément les réseaux sociaux numériques. Bien que des modèles améliorés pour la détection de la haine soient continuellement développés, peu de recherches se concentrent sur les aspects de biais et d’interprétabilité liés à cette problématique. Dans cet article, nous introduisons HateXplain, le premier ensemble de données (benchmark) dédié à la détection de la haine, couvrant plusieurs dimensions de ce problème. Chaque message de notre ensemble de données est annoté selon trois perspectives différentes : une classification de base en trois catégories couramment utilisées (haine, offensant ou normal), la communauté cible (c’est-à-dire la communauté visée par la haine ou l’offense dans le message), ainsi que les raisonnements (rationales), c’est-à-dire les parties du message sur lesquelles repose la décision d’annotation (haine, offensant ou normal). Nous avons utilisé des modèles d’état de l’art existants et observé que même les modèles qui obtiennent de très bons résultats en classification ne se distinguent pas par de hautes performances sur des métriques d’explicabilité telles que la plausibilité du modèle ou sa fidélité. Nous avons également constaté que les modèles qui intègrent les raisonnements fournis par les humains lors de leur entraînement réduisent mieux les biais involontaires envers les communautés cibles. Nous avons rendu notre code et notre ensemble de données accessibles au public à l’adresse suivante : https://github.com/punyajoy/HateXplain