Détection du langage toxique sur les réseaux sociaux en portugais brésilien : Nouveau jeu de données et analyse multilingue

Les discours de haine et les commentaires toxiques constituent une préoccupation courante parmi les utilisateurs des plateformes de médias sociaux. Bien que ces commentaires représentent malheureusement une minorité sur ces plateformes, ils restent capables de causer des préjudices. Il est donc essentiel de les identifier pour étudier et prévenir la propagation de la toxicité sur les réseaux sociaux. Les travaux antérieurs sur la détection automatique de commentaires toxiques se sont principalement concentrés sur la langue anglaise, avec très peu d’études portant sur des langues comme le portugais brésilien. Dans cet article, nous proposons un nouveau jeu de données à grande échelle pour le portugais brésilien, comprenant des tweets annotés comme toxiques ou non toxiques, ou encore classifiés selon différents types de toxicité. Nous détaillons notre processus de collecte et d’annotation, en nous efforçant de sélectionner des candidats couvrant plusieurs groupes démographiques. Des modèles BERT de pointe ont atteint un score macro-F1 de 76 % en utilisant uniquement des données monolingues dans le cas binaire. Nous montrons également que des données monolingues à grande échelle restent nécessaires pour développer des modèles plus précis, malgré les progrès récents des approches multilingues. Une analyse des erreurs et des expériences menées avec une classification multi-étiquettes mettent en évidence la difficulté de classifier certains types de commentaires toxiques qui apparaissent plus rarement dans nos données, soulignant ainsi la nécessité de concevoir des modèles capables de distinguer les différentes catégories de toxicité.