HyperAIHyperAI
vor 11 Tagen

Noisy Self-Training mit Datenaugmentierungen für Aufgaben der Detektion von Beleidigungen und Hassrede

João A. Leite, Carolina Scarton, Diego F. Silva
Noisy Self-Training mit Datenaugmentierungen für Aufgaben der Detektion von Beleidigungen und Hassrede
Abstract

Online-Soziale Medien sind voller beleidigender und hasstreibender Kommentare, was die Notwendigkeit einer automatisierten Erkennung aufgrund der enormen Menge an Beiträgen, die pro Sekunde erstellt werden, rechtfertigt. Die Erstellung hochwertiger, menschlich annotierter Datensätze für diese Aufgabe ist schwierig und kostspielig, insbesondere weil nicht-beleidigende Beiträge deutlich häufiger sind als beleidigende. Unlabelte Daten hingegen sind reichlich vorhanden, leichter und kostengünstiger zu beschaffen. In diesem Kontext können Selbsttrainingsmethoden eingesetzt werden, die schwach beschriftete Beispiele nutzen, um die Menge an Trainingsdaten zu erhöhen. Kürzlich entwickelte „noisy“-Selbsttrainingsansätze integrieren Techniken zur Datenverstärkung (data augmentation), um die Konsistenz der Vorhersagen zu gewährleisten und die Robustheit gegenüber verrauschten Daten sowie adversariellen Angriffen zu steigern. In diesem Paper untersuchen wir sowohl Standard- als auch noisy Selbsttraining unter Verwendung dreier unterschiedlicher Techniken zur textuellen Datenverstärkung an fünf verschiedenen vortrainierten BERT-Architekturen unterschiedlicher Größe. Wir evaluieren unsere Experimente an zwei Datensätzen zum Thema Beleidigungen und Hassrede und zeigen, dass (i) Selbsttraining unabhängig von der Modellgröße konsistent die Leistung verbessert, wobei sich auf beiden Datensätzen bis zu +1,5 % F1-Makro ergeben, und (ii) noisy Selbsttraining mit textuellen Datenverstärkungen, obwohl es in ähnlichen Anwendungsszenarien erfolgreich eingesetzt wurde, im Bereich von Beleidigungen und Hassrede im Vergleich zur Standardmethode die Leistung verringert – selbst bei Verwendung state-of-the-art-Verstärkungstechniken wie Backtranslation.

Noisy Self-Training mit Datenaugmentierungen für Aufgaben der Detektion von Beleidigungen und Hassrede | Neueste Forschungsarbeiten | HyperAI