HateBERT: Neutrainieren von BERT zur Erkennung von beleidigender Sprache im Englischen

In diesem Artikel stellen wir HateBERT vor, ein neu trainiertes BERT-Modell zur Erkennung von beleidigender Sprache im Englischen. Das Modell wurde auf RAL-E, einem großskaligen Datensatz an Reddit-Kommentaren im Englischen aus Gemeinschaften, die aufgrund von Beleidigungen, Missbrauch oder Hassrede gesperrt wurden, trainiert, den wir gesammelt und der Öffentlichkeit zur Verfügung gestellt haben. Wir präsentieren die Ergebnisse einer detaillierten Vergleichsstudie zwischen einem allgemein vortrainierten Sprachmodell und der durch die Nachtrainierung mit Beiträgen aus gesperrten Gemeinschaften gewonnenen, auf beleidigende Sprache ausgerichteten Variante an drei englischsprachigen Datensätzen für Aufgaben der Erkennung von Beleidigungen, Missbrauch und Hassrede. In allen Datensätzen übertrifft HateBERT das entsprechende allgemeine BERT-Modell. Zudem diskutieren wir eine Reihe von Experimenten, die den Transfer von allgemeinen vortrainierten Sprachmodellen und ihren spezifisch auf beleidigende Sprache ausgerichteten Varianten zwischen den Datensätzen vergleichen und zeigen, dass die Übertragbarkeit durch die Kompatibilität der annotierten Phänomene beeinflusst wird.