HateXplain: Ein Benchmark-Datensatz für erklärbare Hassrede-Erkennung

Hassrede ist eine herausfordernde Herausforderung, die Online-Soziale Medien belastet. Während kontinuierlich fortschrittlichere Modelle zur Erkennung von Hassrede entwickelt werden, gibt es nur wenige Untersuchungen zu Aspekten wie Bias und Interpretierbarkeit im Zusammenhang mit Hassrede. In diesem Paper stellen wir HateXplain vor – das erste Benchmark-Datenset zur Hassrede, das mehrere Facetten dieses Problems abdeckt. Jeder Beitrag in unserem Datenset wurde aus drei verschiedenen Perspektiven annotiert: der grundlegenden, allgemein verwendeten Klassifikation in drei Klassen (also Hassrede, beleidigend oder normal), der Zielgemeinschaft (d. h. der Gemeinschaft, die in dem Beitrag Opfer von Hassrede/beleidigender Rede geworden ist) sowie den Begründungen (d. h. den Teilen des Beitrags, auf denen die Entscheidung zur Klassifizierung als Hassrede, beleidigend oder normal basiert). Wir nutzen bestehende state-of-the-art-Modelle und beobachten, dass selbst Modelle, die bei der Klassifikation sehr gute Leistungen erzielen, bei Erklärbarkeitsmetriken wie Modellplausibilität und Treue (Faithfulness) keine hohen Werte erreichen. Zudem stellen wir fest, dass Modelle, die bei der Ausbildung menschliche Begründungen nutzen, besser darin sind, unbeabsichtigten Bias gegenüber Zielgemeinschaften zu reduzieren. Unsere Code- und Datensets sind öffentlich unter https://github.com/punyajoy/HateXplain verfügbar.