HyperAIHyperAI

Command Palette

Search for a command to run...

Détection du langage toxique sur les réseaux sociaux en portugais brésilien : Nouveau jeu de données et analyse multilingue

João A. Leite Diego F. Silva Kalina Bontcheva Carolina Scarton

Résumé

Les discours de haine et les commentaires toxiques constituent une préoccupation courante parmi les utilisateurs des plateformes de médias sociaux. Bien que ces commentaires représentent malheureusement une minorité sur ces plateformes, ils restent capables de causer des préjudices. Il est donc essentiel de les identifier pour étudier et prévenir la propagation de la toxicité sur les réseaux sociaux. Les travaux antérieurs sur la détection automatique de commentaires toxiques se sont principalement concentrés sur la langue anglaise, avec très peu d’études portant sur des langues comme le portugais brésilien. Dans cet article, nous proposons un nouveau jeu de données à grande échelle pour le portugais brésilien, comprenant des tweets annotés comme toxiques ou non toxiques, ou encore classifiés selon différents types de toxicité. Nous détaillons notre processus de collecte et d’annotation, en nous efforçant de sélectionner des candidats couvrant plusieurs groupes démographiques. Des modèles BERT de pointe ont atteint un score macro-F1 de 76 % en utilisant uniquement des données monolingues dans le cas binaire. Nous montrons également que des données monolingues à grande échelle restent nécessaires pour développer des modèles plus précis, malgré les progrès récents des approches multilingues. Une analyse des erreurs et des expériences menées avec une classification multi-étiquettes mettent en évidence la difficulté de classifier certains types de commentaires toxiques qui apparaissent plus rarement dans nos données, soulignant ainsi la nécessité de concevoir des modèles capables de distinguer les différentes catégories de toxicité.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Détection du langage toxique sur les réseaux sociaux en portugais brésilien : Nouveau jeu de données et analyse multilingue | Articles | HyperAI