HyperAIHyperAI

Command Palette

Search for a command to run...

Toxische Sprache in sozialen Medien für Brasilianisches Portugiesisch: Neuedataset und multilinguale Analyse

João A. Leite Diego F. Silva Kalina Bontcheva Carolina Scarton

Zusammenfassung

Hassrede und toxische Kommentare sind ein häufig besorgniserregendes Phänomen für Nutzer sozialer Medienplattformen. Obwohl solche Kommentare glücklicherweise nur eine Minderheit innerhalb dieser Plattformen ausmachen, können sie dennoch erheblichen Schaden anrichten. Daher stellt die Erkennung dieser Kommentare eine zentrale Aufgabe dar, um die Verbreitung von Toxizität in sozialen Medien zu untersuchen und zu verhindern. Bisherige Arbeiten zur automatischen Erkennung toxischer Kommentare konzentrieren sich hauptsächlich auf die englische Sprache, während nur wenige Studien Sprachen wie Brasilianisches Portugiesisch abdecken. In diesem Paper stellen wir einen neuen, großskaligen Datensatz für Brasilianisches Portugiesisch vor, der aus Tweets besteht, die entweder als toxisch oder nicht-toxisch annotiert wurden oder in verschiedenen Arten von Toxizität klassifiziert sind. Wir beschreiben unseren Prozess der Datensammlung und Annotation, wobei wir bewusst Kandidaten aus mehreren demografischen Gruppen auswählten, um eine breite Repräsentativität zu gewährleisten. State-of-the-art BERT-Modelle erreichten bei Verwendung ausschließlich monolingualer Daten im binären Fall einen makro-F1-Score von 76 %. Zudem zeigen wir, dass trotz neuerer Fortschritte in multilingualen Ansätzen weiterhin große Mengen an monolingualen Daten erforderlich sind, um präzisere Modelle zu entwickeln. Eine Fehleranalyse sowie Experimente mit Mehrfach-Klassifikation verdeutlichen die Schwierigkeit, bestimmte Arten von toxischen Kommentaren zu klassifizieren, die in unserem Datensatz seltener vorkommen, und unterstreichen die Notwendigkeit, Modelle zu entwickeln, die unterschiedliche Kategorien von Toxizität gezielt berücksichtigen können.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp