Erkennung von Missbrauch auf Albanisch

Die stetig zunehmende Nutzung sozialer Medien in den letzten Jahren hat direkte Auswirkungen auf die zunehmende Präsenz von Hassrede und beleidigender Sprache auf Online-Plattformen gehabt. Die Forschung zur effektiven Erkennung solcher Inhalte konzentrierte sich bisher hauptsächlich auf Englisch und einige wenige weiter verbreitete Sprachen, während der überwiegende Teil der Sprachen keine vergleichbaren Anstrengungen erfuhren und daher von den kontinuierlichen Fortschritten in diesem Bereich nicht profitieren konnte. In diesem Paper präsentieren wir \textsc{Shaj}, einen annotierten albanischen Datensatz für Hassrede und beleidigende Sprache, der aus nutzergenerierten Inhalten verschiedener sozialer Medienplattformen zusammengestellt wurde. Die Annotation folgt dem hierarchischen Schema, das im Rahmen von OffensEval eingeführt wurde. Der Datensatz wird mit drei verschiedenen Klassifizierungsmodellen getestet, wobei das beste Modell einen F1-Score von 0,77 für die Erkennung beleidigender Sprache, einen F1-Score von 0,64 für die automatische Kategorisierung von Beleidigungstypen und schließlich einen F1-Score von 0,52 für die Identifikation des Ziels beleidigender Äußerungen erreicht.