vor 11 Tagen

Zu einem robusten Rahmen für die multimodale Hassinhaltsdetektion: Eine Studie zu Video- im Vergleich zu Bildinhalten

Girish A. Koushik, Diptesh Kanojia, Helen Treharne

Abstract

Soziale Medienplattformen ermöglichen die Verbreitung hasstreibender Inhalte über verschiedene Modalitäten hinweg, wie Text, Ton und Bild, was effektive Erkennungsmethoden erforderlich macht. Obwohl neuere Ansätze Versprechen hinsichtlich der Behandlung einzelner Modalitäten zeigen, bleibt ihre Wirksamkeit bei unterschiedlichen Kombinationen von Modalitäten unerforscht. In diesem Artikel präsentieren wir eine systematische Analyse von Fusionsansätzen für die multimodale Hassinhaltsdetektion mit Fokus auf deren Leistung bei Video- und Bildinhalten. Unsere umfassende Evaluation offenbart erhebliche modality-spezifische Grenzen: Während einfache Embedding-Fusion auf Videoinhalten (HateMM-Datensatz) eine state-of-the-art-Leistung erzielt – mit einer Verbesserung des F1-Scores um 9,9 Prozentpunkte – zeigt sie Schwächen bei komplexen Bild-Text-Beziehungen in Memes (Hateful Memes-Datensatz). Durch detaillierte Ablationsstudien und Fehleranalysen zeigen wir, wie aktuelle Fusionsansätze feinabgestimmte, kreuzmodale Interaktionen nicht adäquat erfassen, insbesondere in Fällen mit harmlosen Störgrößen (benign confounders). Unsere Ergebnisse liefern entscheidende Erkenntnisse für die Entwicklung robusterer Systeme zur Hassinhaltsdetektion und unterstreichen die Notwendigkeit modality-spezifischer architektonischer Überlegungen. Der Quellcode ist unter https://github.com/gak97/Video-vs-Meme-Hate verfügbar.