Détection du sexisme dans les commentaires en ligne de journaux allemands à l'aide d'embeddings textuels open-source (Équipe GDA, GermEval2024 Tâche partagée 1 : GerMS-Detect, Sous-tâches 1 et 2, Piste fermée)

Le sexisme dans les commentaires des médias en ligne est un défi répandu qui se manifeste souvent de manière subtile, compliquant les efforts de modération car les interprétations de ce qui constitue le sexisme peuvent varier d'une personne à l'autre. Nous avons étudié des plongements textuels mono- et multilingues open source pour détecter de manière fiable le sexisme et la misogynie dans les commentaires en ligne en allemand provenant d'un journal autrichien. Nous avons observé que les classifieurs formés sur ces plongements textuels imitent étroitement les jugements individuels des annotateurs humains. Notre méthode a montré une performance robuste dans le défi GermEval 2024 GerMS-Detect Subtask 1, atteignant une moyenne de score F1 macro de 0,597 (4ème place, selon Codabench). Elle a également prédit avec précision la distribution des annotations humaines dans GerMS-Detect Subtask 2, avec une moyenne de distance Jensen-Shannon de 0,301 (2ème place). L'efficacité computationnelle de notre approche suggère un potentiel pour des applications à grande échelle dans diverses langues et contextes linguistiques.