Command Palette
Search for a command to run...
Toxische Sprache in sozialen Medien für Brasilianisches Portugiesisch: Neuedataset und multilinguale Analyse
Toxische Sprache in sozialen Medien für Brasilianisches Portugiesisch: Neuedataset und multilinguale Analyse
João A. Leite Diego F. Silva Kalina Bontcheva Carolina Scarton
Zusammenfassung
Hassrede und toxische Kommentare sind ein häufig besorgniserregendes Phänomen für Nutzer sozialer Medienplattformen. Obwohl solche Kommentare glücklicherweise nur eine Minderheit innerhalb dieser Plattformen ausmachen, können sie dennoch erheblichen Schaden anrichten. Daher stellt die Erkennung dieser Kommentare eine zentrale Aufgabe dar, um die Verbreitung von Toxizität in sozialen Medien zu untersuchen und zu verhindern. Bisherige Arbeiten zur automatischen Erkennung toxischer Kommentare konzentrieren sich hauptsächlich auf die englische Sprache, während nur wenige Studien Sprachen wie Brasilianisches Portugiesisch abdecken. In diesem Paper stellen wir einen neuen, großskaligen Datensatz für Brasilianisches Portugiesisch vor, der aus Tweets besteht, die entweder als toxisch oder nicht-toxisch annotiert wurden oder in verschiedenen Arten von Toxizität klassifiziert sind. Wir beschreiben unseren Prozess der Datensammlung und Annotation, wobei wir bewusst Kandidaten aus mehreren demografischen Gruppen auswählten, um eine breite Repräsentativität zu gewährleisten. State-of-the-art BERT-Modelle erreichten bei Verwendung ausschließlich monolingualer Daten im binären Fall einen makro-F1-Score von 76 %. Zudem zeigen wir, dass trotz neuerer Fortschritte in multilingualen Ansätzen weiterhin große Mengen an monolingualen Daten erforderlich sind, um präzisere Modelle zu entwickeln. Eine Fehleranalyse sowie Experimente mit Mehrfach-Klassifikation verdeutlichen die Schwierigkeit, bestimmte Arten von toxischen Kommentaren zu klassifizieren, die in unserem Datensatz seltener vorkommen, und unterstreichen die Notwendigkeit, Modelle zu entwickeln, die unterschiedliche Kategorien von Toxizität gezielt berücksichtigen können.