Pourquoi s'agit-il de discours de haine ? Prédiction de la justification masquée pour une détection explicite des discours de haine

Dans un modèle de détection de discours de haine, deux aspects cruciaux doivent être pris en compte en plus de la performance de détection : le biais et l'explicabilité. Le discours de haine ne peut pas être identifié uniquement à partir de la présence de mots spécifiques : le modèle doit être capable de raisonner comme un humain et d’être explicite. Afin d’améliorer la performance sur ces deux dimensions, nous proposons une tâche intermédiaire appelée Prédiction Masquée des Rationnelles (Masked Rationale Prediction, MRP). Cette tâche consiste à prédire les rationnelles humaines masquées — des extraits de phrase servant de fondement au jugement humain — en se basant sur les jetons environnants ainsi que sur les rationnelles non masquées. En apprenant ainsi sa capacité de raisonnement à partir des rationnelles grâce à la MRP, le modèle parvient à effectuer la détection de discours de haine de manière robuste en termes de biais et d’explicabilité. La méthode proposée atteint généralement des performances de pointe dans diverses métriques, démontrant ainsi son efficacité pour la détection de discours de haine.