HateMM: Ein multimodales Datensatz für die Hassvideo-Klassifikation

Hassrede ist zu einer der bedeutendsten Herausforderungen der modernen Gesellschaft geworden und wirkt sich sowohl im Online- als auch im Offline-Bereich aus. Aus diesem Grund hat die Forschung zu Hassrede in letzter Zeit erheblich an Bedeutung gewonnen. Allerdings konzentrierte sich der Großteil der Arbeiten vor allem auf Textmedien, während nur wenig Forschung zu Bildern und noch weniger zu Videos durchgeführt wurde. Daher sind automatisierte Techniken zur frühen Video-Moderation dringend erforderlich, um die stetig wachsende Menge an hochgeladenen Videos zu bewerten und Plattformen sicher und gesund zu erhalten. Um Hassinhalte von Video-Plattformen zu erkennen und zu entfernen, fokussiert unsere Arbeit auf die Erkennung von Hassvideos mittels multimodaler Ansätze. Dazu sammeln wir ca. 43 Stunden Videos aus BitChute und annotieren sie manuell als Hass- oder Nicht-Hass-Videos, wobei jeweils die betreffenden Bildbereiche (Frame Spans) angegeben werden, die die Entscheidung begründen. Zur Sammlung relevanter Videos nutzen wir Suchbegriffe aus Hass-Lexika. Wir beobachten unterschiedliche Hinweise in Bild- und Audioinhalten von Hassvideos. Darüber hinaus entwickeln wir tiefgreifende multimodale Modelle basierend auf neuronalen Netzen, um Hassvideos zu klassifizieren. Dabei zeigen wir, dass die Kombination aller Modalitäten (Bild, Audio, Text) die Gesamtleistung der Hassrede-Erkennung im Vergleich zum besten einmodalen Modell um etwa 5,7 % im makro-F1-Score verbessert (Genauigkeit = 0,798, makro-F1-Score = 0,790). Zusammenfassend stellt unsere Arbeit den ersten Schritt dar, um Hassvideos auf Video-Hosting-Plattformen wie BitChute besser zu verstehen und zu modellieren.