Erkennung von Hassrede mit statischen BERT-Embeddings

Mit der zunehmenden Beliebtheit sozialer Medienplattformen nimmt Hassrede zunehmend an Bedeutung als gravierende Herausforderung, da sie abwertende Äußerungen umfasst, die bestimmte Gruppenmerkmale wie Geschlecht, Religion oder Ethnizität zum Ziel haben, um Gewalt zu verbreiten. Früher wurden Hassreden verbal vorgetragen, doch durch die technologische Entwicklung nutzen mittlerweile einige Personen soziale Medien bewusst, um Hass zu verbreiten, beispielsweise durch Veröffentlichen, Teilen oder Kommentieren. Ob bei den Attentaten auf die Moscheen von Christchurch oder Hassdelikten gegen Asiaten in Westen – es wurde beobachtet, dass die Täter stark von Hassinhalten beeinflusst sind, die online verbreitet werden. Obwohl bereits KI-Systeme zur Kennzeichnung solcher Inhalte existieren, stellt sich eine zentrale Herausforderung darin, die Rate an Falschpositiven (die Falschmarkierung von nicht-hassiger Sprache als Hassrede) zu reduzieren, damit diese Systeme Hassrede erkennen können, ohne die Meinungsfreiheit zu gefährden. In diesem Paper nutzen wir den ETHOS-Datensatz zur Erkennung von Hassrede und analysieren die Leistungsfähigkeit eines Klassifikators zur Erkennung von Hassrede, indem wir die herkömmlichen Wort-Embeddings (fastText (FT), GloVe (GV) oder FT + GV) durch statische BERT-Embeddings (BE) ersetzen oder integrieren. Durch umfangreiche experimentelle Untersuchungen zeigt sich, dass das neuronale Netzwerk mit statischen BERT-Embeddings eine bessere Leistung erzielt als bei Verwendung von FT, GV oder FT + GV als Wort-Embeddings. Im Vergleich zu fine-tuntem BERT zeigt sich insbesondere eine signifikante Verbesserung der Spezifität als eine zentrale Metrik.