HyperAIHyperAI

Command Palette

Search for a command to run...

Noisy Self-Training mit Datenaugmentierungen für Aufgaben der Detektion von Beleidigungen und Hassrede

João A. Leite Carolina Scarton Diego F. Silva

Zusammenfassung

Online-Soziale Medien sind voller beleidigender und hasstreibender Kommentare, was die Notwendigkeit einer automatisierten Erkennung aufgrund der enormen Menge an Beiträgen, die pro Sekunde erstellt werden, rechtfertigt. Die Erstellung hochwertiger, menschlich annotierter Datensätze für diese Aufgabe ist schwierig und kostspielig, insbesondere weil nicht-beleidigende Beiträge deutlich häufiger sind als beleidigende. Unlabelte Daten hingegen sind reichlich vorhanden, leichter und kostengünstiger zu beschaffen. In diesem Kontext können Selbsttrainingsmethoden eingesetzt werden, die schwach beschriftete Beispiele nutzen, um die Menge an Trainingsdaten zu erhöhen. Kürzlich entwickelte „noisy“-Selbsttrainingsansätze integrieren Techniken zur Datenverstärkung (data augmentation), um die Konsistenz der Vorhersagen zu gewährleisten und die Robustheit gegenüber verrauschten Daten sowie adversariellen Angriffen zu steigern. In diesem Paper untersuchen wir sowohl Standard- als auch noisy Selbsttraining unter Verwendung dreier unterschiedlicher Techniken zur textuellen Datenverstärkung an fünf verschiedenen vortrainierten BERT-Architekturen unterschiedlicher Größe. Wir evaluieren unsere Experimente an zwei Datensätzen zum Thema Beleidigungen und Hassrede und zeigen, dass (i) Selbsttraining unabhängig von der Modellgröße konsistent die Leistung verbessert, wobei sich auf beiden Datensätzen bis zu +1,5 % F1-Makro ergeben, und (ii) noisy Selbsttraining mit textuellen Datenverstärkungen, obwohl es in ähnlichen Anwendungsszenarien erfolgreich eingesetzt wurde, im Bereich von Beleidigungen und Hassrede im Vergleich zur Standardmethode die Leistung verringert – selbst bei Verwendung state-of-the-art-Verstärkungstechniken wie Backtranslation.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp