Détection traditionnelle et spécifique au contexte du spam dans des environnements à faibles ressources
Les données provenant des médias sociaux combinent des contenus de haute et de basse qualité. Une forme couramment étudiée de contenu de faible qualité est le spam. La plupart des études supposent que le spam est neutre par rapport au contexte. Nous montrons, à partir de différentes collections de données Twitter, l’existence de spam spécifique au contexte, qui est identifiable. Nous comparons ensuite plusieurs modèles classiques d’apprentissage automatique à un modèle à réseau de neurones utilisant un modèle linguistique pré-entraîné BERT afin de capturer des caractéristiques contextuelles pour détecter à la fois le spam traditionnel et le spam spécifique au contexte, en ne s’appuyant que sur des caractéristiques basées sur le contenu. Le modèle à réseau de neurones obtient de meilleurs résultats que les modèles classiques, avec un score F1 de 0,91. Étant donné que les jeux de données d’entraînement au spam sont notoirement déséquilibrés, nous examinons également l’impact de ce déséquilibre et montrons que les modèles simples basés sur le « sac de mots » se révèlent les meilleurs dans des cas d’extrême déséquilibre, mais qu’un modèle neuronal qui utilise un fine-tuning à partir de modèles linguistiques provenant d’autres domaines améliore significativement le score F1, bien que sans atteindre les performances des modèles neuronaux spécifiques au domaine. Cela suggère que la stratégie à adopter peut varier selon le degré de déséquilibre du jeu de données, la quantité de données disponibles dans un contexte à faibles ressources, ainsi que la prévalence du spam spécifique au contexte par rapport au spam traditionnel. Enfin, nous mettons nos jeux de données à disposition de la communauté scientifique.