HyperAIHyperAI

Command Palette

Search for a command to run...

Entraînement auto-supervisé bruité avec des augmentations de données pour les tâches de détection de discours offensifs et de haine

João A. Leite Carolina Scarton Diego F. Silva

Résumé

Les réseaux sociaux en ligne regorgent de commentaires offensifs et haineux, ce qui soulève la nécessité d’une détection automatique de tels contenus, compte tenu du volume colossale de publications générées chaque seconde. La création de jeux de données étiquetés par des humains de haute qualité pour cette tâche s’avère difficile et coûteuse, en particulier parce que les publications non offensives sont nettement plus fréquentes que les publications offensives. Toutefois, les données non étiquetées sont abondantes, plus faciles et moins coûteuses à obtenir. Dans ce contexte, les méthodes d’auto-entraînement, qui utilisent des exemples étiquetés de manière faible pour augmenter la quantité de données d’entraînement, peuvent être mises en œuvre. Les approches récentes d’auto-entraînement « bruyantes » intègrent des techniques d’augmentation de données afin d’assurer la cohérence des prédictions et d’améliorer la robustesse face aux données bruyantes et aux attaques adversariales. Dans cet article, nous expérimentons avec des méthodes d’auto-entraînement par défaut et bruyantes, en combinant trois techniques différentes d’augmentation textuelle sur cinq architectures pré-entraînées BERT de tailles variées. Nous évaluons nos expérimentations sur deux jeux de données d’offensivité et de discours haineux, et démontrons que (i) l’auto-entraînement améliore de manière cohérente les performances, quelle que soit la taille du modèle, avec une augmentation maximale de +1,5 % en F1-macro sur les deux jeux de données, et (ii) l’auto-entraînement bruyant combiné à des augmentations textuelles, bien qu’il ait été efficacement appliqué dans des contextes similaires, conduit à une baisse des performances dans les domaines de l’offensivité et du discours haineux par rapport à la méthode par défaut, même lorsqu’on utilise des techniques d’augmentation de pointe telles que la traduction par retour (backtranslation).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Entraînement auto-supervisé bruité avec des augmentations de données pour les tâches de détection de discours offensifs et de haine | Articles | HyperAI