Command Palette
Search for a command to run...
Erkennung von Missbrauch auf Albanisch
Erkennung von Missbrauch auf Albanisch
Erida Nurce Jorgel Keci Leon Derczynski
Zusammenfassung
Die stetig zunehmende Nutzung sozialer Medien in den letzten Jahren hat direkte Auswirkungen auf die zunehmende Präsenz von Hassrede und beleidigender Sprache auf Online-Plattformen gehabt. Die Forschung zur effektiven Erkennung solcher Inhalte konzentrierte sich bisher hauptsächlich auf Englisch und einige wenige weiter verbreitete Sprachen, während der überwiegende Teil der Sprachen keine vergleichbaren Anstrengungen erfuhren und daher von den kontinuierlichen Fortschritten in diesem Bereich nicht profitieren konnte. In diesem Paper präsentieren wir \textsc{Shaj}, einen annotierten albanischen Datensatz für Hassrede und beleidigende Sprache, der aus nutzergenerierten Inhalten verschiedener sozialer Medienplattformen zusammengestellt wurde. Die Annotation folgt dem hierarchischen Schema, das im Rahmen von OffensEval eingeführt wurde. Der Datensatz wird mit drei verschiedenen Klassifizierungsmodellen getestet, wobei das beste Modell einen F1-Score von 0,77 für die Erkennung beleidigender Sprache, einen F1-Score von 0,64 für die automatische Kategorisierung von Beleidigungstypen und schließlich einen F1-Score von 0,52 für die Identifikation des Ziels beleidigender Äußerungen erreicht.