HyperAIHyperAI

Command Palette

Search for a command to run...

HateBERT : Réentraînement de BERT pour la détection de langage abusif en anglais

Tommaso Caselli Valerio Basile Jelena Mitrović Michael Granitzer

Résumé

Dans cet article, nous introduisons HateBERT, un modèle BERT réentraîné destiné à la détection du langage abusif en anglais. Le modèle a été entraîné sur RAL-E, un grand ensemble de données de commentaires Reddit en anglais provenant de communautés interdites pour comportements offensifs, abusifs ou haineux, que nous avons collectés et mis à disposition du public. Nous présentons les résultats d'une comparaison détaillée entre un modèle linguistique pré-entraîné général et sa version orientée vers le langage abusif, obtenue par réentraînement à l'aide de publications provenant des communautés interdites, sur trois ensembles de données en anglais pour les tâches de détection du langage offensif, abusif et haineux. Sur tous les ensembles de données, HateBERT surpasse le modèle BERT général correspondant. Nous discutons également d'une série d'expériences comparant la portabilité du modèle linguistique pré-entraîné général et de sa version spécifique au langage abusif à travers les différents ensembles de données, indiquant que la portabilité est influencée par la compatibilité des phénomènes annotés.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp