il y a 11 jours

HateBERT : Réentraînement de BERT pour la détection de langage abusif en anglais

Tommaso Caselli, Valerio Basile, Jelena Mitrović, Michael Granitzer

Résumé

Dans cet article, nous introduisons HateBERT, un modèle BERT réentraîné destiné à la détection du langage abusif en anglais. Le modèle a été entraîné sur RAL-E, un grand ensemble de données de commentaires Reddit en anglais provenant de communautés interdites pour comportements offensifs, abusifs ou haineux, que nous avons collectés et mis à disposition du public. Nous présentons les résultats d'une comparaison détaillée entre un modèle linguistique pré-entraîné général et sa version orientée vers le langage abusif, obtenue par réentraînement à l'aide de publications provenant des communautés interdites, sur trois ensembles de données en anglais pour les tâches de détection du langage offensif, abusif et haineux. Sur tous les ensembles de données, HateBERT surpasse le modèle BERT général correspondant. Nous discutons également d'une série d'expériences comparant la portabilité du modèle linguistique pré-entraîné général et de sa version spécifique au langage abusif à travers les différents ensembles de données, indiquant que la portabilité est influencée par la compatibilité des phénomènes annotés.