Command Palette
Search for a command to run...
ETHOS: Ein Datensatz zur Online-Hassrede-Erkennung
ETHOS: Ein Datensatz zur Online-Hassrede-Erkennung
Ioannis Mollas Zoe Chrysopoulou Stamatis Karlos Grigorios Tsoumakas
Zusammenfassung
Online-Hassrede ist ein aktuelles Problem unserer Gesellschaft, das sich stetig weiter ausbreitet und dabei die Schwachstellen der jeweiligen Regelwerke ausnutzt, die die meisten sozialen Medienplattformen kennzeichnen. Dieses Phänomen wird vor allem durch beleidigende Kommentare gefördert, die entweder im Verlauf von Nutzerinteraktionen entstehen oder in Form von hochgeladenen multimedialen Inhalten vorliegen. Heute werden Plattformen von riesigen Unternehmen betrieben, auf denen täglich Millionen von Nutzern aktiv sind, weshalb der Schutz vor der Exposition gegenüber solchen Phänomenen notwendig erscheint, um gesetzliche Vorgaben einzuhalten und gleichzeitig eine hohe Servicequalität zu gewährleisten. Ein robuster und zuverlässiger Mechanismus zur Erkennung und Verhinderung des Hochladens relevanter Inhalte hätte erhebliche Auswirkungen auf unsere digital vernetzte Gesellschaft. Zahlreiche Aspekte unseres Alltags sind unbestreitbar mit unseren sozialen Profilen verknüpft, was uns anfällig für missbräuchliches Verhalten macht. Folglich würde die fehlende Genauigkeit bei der Erkennung von Hassrede die Gesamtnutzererfahrung erheblich beeinträchtigen, während fehlerhafte Systeme zudem erhebliche ethische Bedenken aufwerfen würden. In diesem Artikel stellen wir „ETHOS“ vor – einen textbasierten Datensatz mit zwei Varianten: binär und mehrfach beschriftet – basierend auf Kommentaren aus YouTube und Reddit, der mittels der Figure-Eight-Plattform zur Crowdsourcing-Annotation validiert wurde. Zudem beschreiben wir das Annotationsschema, das zur Erstellung dieses Datensatzes verwendet wurde: ein aktives Sampling-Verfahren zur Ausbalancierung der Daten hinsichtlich der verschiedenen definierten Aspekte. Unser zentrales Annahme ist, dass selbst eine geringe Menge an annotierten Daten aus diesem zeitaufwändigen Prozess ausreicht, um die Existenz von Hassrede im untersuchten Material zu garantieren.