HyperAIHyperAI
vor 11 Tagen

Traditionelle und kontextspezifische Spam-Erkennung in ressourcenschwachen Umgebungen

{Lisa Singh, Kornraphop Kawintiranon}
Abstract

Soziale Medien-Daten enthalten eine Mischung aus hoch- und niedrigwertigem Inhalt. Eine häufig untersuchte Form von niedrigwertigem Inhalt ist Spam. Die meisten Studien gehen davon aus, dass Spam kontextneutral ist. Wir zeigen anhand verschiedener Twitter-Datensätze, dass kontextspezifischer Spam existiert und erkennbar ist. Anschließend vergleichen wir mehrere traditionelle maschinelle Lernmodelle mit einem neuronalen Netzwerkmodell, das ein vortrainiertes BERT-Sprachmodell nutzt, um kontextuelle Merkmale zur Erkennung von Spam – sowohl traditionellem als auch kontextspezifischem – ausschließlich anhand von Inhaltsmerkmalen zu erfassen. Das neuronale Netzwerkmodell erreicht dabei eine F1-Score von 0,91 und übertrifft damit die traditionellen Modelle. Da Spam-Trainingsdatensätze bekanntermaßen stark unbalanciert sind, untersuchen wir auch die Auswirkungen dieser Unbalanciertheit und zeigen, dass bei extremer Unbalanciertheit einfache Bag-of-Words-Modelle am besten abschneiden. Allerdings verbessert ein neuronales Modell, das durch Fine-Tuning mit Sprachmodellen aus anderen Domänen trainiert wird, die F1-Score deutlich, wenn auch nicht auf das Niveau von domänenspezifischen neuronalen Modellen. Dies deutet darauf hin, dass die gewählte Strategie je nach Grad der Unbalanciertheit im Datensatz, der verfügbaren Datenmenge in ressourcenschwachen Umgebungen sowie dem Anteil an kontextspezifischem gegenüber traditionellem Spam variieren sollte. Schließlich stellen wir unsere Datensätze der Forschungsgemeinschaft zur Verfügung.

Traditionelle und kontextspezifische Spam-Erkennung in ressourcenschwachen Umgebungen | Neueste Forschungsarbeiten | HyperAI