HyperAIHyperAI

Command Palette

Search for a command to run...

Une référence pour la classification des commentaires toxiques dans le jeu de données Civil Comments

Corentin Duchêne Henri Jamet Pierre Guillaume Réda Dehak

Résumé

La détection de commentaires toxiques sur les réseaux sociaux s'est avérée essentielle pour la modération des contenus. Cet article compare un large éventail de modèles différents sur un jeu de données multietiquettes de discours haineux fortement déséquilibré. Nous prenons en compte le temps d'inférence et plusieurs métriques pour mesurer les performances et les biais dans notre comparaison. Nous montrons que toutes les variantes de BERT présentent des performances similaires, indépendamment de la taille, des optimisations ou de la langue utilisée pour pré-entraîner les modèles. Les RNN sont beaucoup plus rapides à l'inférence que n'importe quelle variante de BERT. Le BiLSTM reste un bon compromis entre performance et temps d'inférence. RoBERTa avec une perte focale offre les meilleures performances en termes de biais et d'AUC-ROC (AUROC). Cependant, DistilBERT combine à la fois une bonne AUC-ROC et un temps d'inférence faible. Tous les modèles sont affectés par le biais d'association des identités. BERT, RNN et XLNet sont moins sensibles que le CNN et les transformateurs convolutionnels compacts (Compact Convolutional Transformers).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Une référence pour la classification des commentaires toxiques dans le jeu de données Civil Comments | Articles | HyperAI