Entraînement auto-supervisé bruité avec des augmentations de données pour les tâches de détection de discours offensifs et de haine

Les réseaux sociaux en ligne regorgent de commentaires offensifs et haineux, ce qui soulève la nécessité d’une détection automatique de tels contenus, compte tenu du volume colossale de publications générées chaque seconde. La création de jeux de données étiquetés par des humains de haute qualité pour cette tâche s’avère difficile et coûteuse, en particulier parce que les publications non offensives sont nettement plus fréquentes que les publications offensives. Toutefois, les données non étiquetées sont abondantes, plus faciles et moins coûteuses à obtenir. Dans ce contexte, les méthodes d’auto-entraînement, qui utilisent des exemples étiquetés de manière faible pour augmenter la quantité de données d’entraînement, peuvent être mises en œuvre. Les approches récentes d’auto-entraînement « bruyantes » intègrent des techniques d’augmentation de données afin d’assurer la cohérence des prédictions et d’améliorer la robustesse face aux données bruyantes et aux attaques adversariales. Dans cet article, nous expérimentons avec des méthodes d’auto-entraînement par défaut et bruyantes, en combinant trois techniques différentes d’augmentation textuelle sur cinq architectures pré-entraînées BERT de tailles variées. Nous évaluons nos expérimentations sur deux jeux de données d’offensivité et de discours haineux, et démontrons que (i) l’auto-entraînement améliore de manière cohérente les performances, quelle que soit la taille du modèle, avec une augmentation maximale de +1,5 % en F1-macro sur les deux jeux de données, et (ii) l’auto-entraînement bruyant combiné à des augmentations textuelles, bien qu’il ait été efficacement appliqué dans des contextes similaires, conduit à une baisse des performances dans les domaines de l’offensivité et du discours haineux par rapport à la méthode par défaut, même lorsqu’on utilise des techniques d’augmentation de pointe telles que la traduction par retour (backtranslation).