Erkennung von Sexismus in deutschen Online-Zeitungscomments mit Open-Source-Text-Einbettungen (Team GDA, GermEval2024 Shared Task 1: GerMS-Detect, Teilaufgaben 1 und 2, Closed Track)

Sexismus in Online-Medienkommentaren ist eine weit verbreitete Herausforderung, die oft subtil auftritt und dadurch die Moderationsbemühungen erschwert, da Interpretationen dessen, was als Sexismus gilt, von Person zu Person variieren können. In dieser Studie untersuchen wir mono- und multilinguale Open-Source-Text-Einbettungen, um Sexismus und Misogynie in deutschsprachigen Online-Kommentaren eines österreichischen Zeitungsverlegers zuverlässig zu erkennen. Wir beobachteten, dass Klassifikatoren, die auf Text-Einbettungen trainiert wurden, den individuellen Urteilen menschlicher Annotierer sehr nahe kommen. Unsere Methode zeigte eine robuste Leistung im GermEval 2024 GerMS-Detect Teilbereich 1-Wettbewerb, wobei ein durchschnittlicher Makro-F1-Score von 0,597 erreicht wurde (4. Platz gemäß Codabench-Bericht). Sie prognostizierte auch die Verteilung der menschlichen Annotierungen in GerMS-Detect Teilbereich 2 mit einem durchschnittlichen Jensen-Shannon-Abstand von 0,301 (2. Platz). Die rechnerische Effizienz unseres Ansatzes deutet auf Potenzial für skalierbare Anwendungen in verschiedenen Sprachen und sprachlichen Kontexten hin.