Détection de contenu abusif en albanais

L’utilisation croissante des réseaux sociaux ces dernières années a eu un impact direct sur l’augmentation de la présence de discours haineux et d’expressions offensantes sur les plateformes en ligne. Les recherches sur la détection efficace de tels contenus se sont principalement concentrées sur l’anglais et quelques autres langues largement répandues, tandis que la majorité des langues restantes n’ont pas bénéficié d’un travail équivalent, et ne peuvent donc pas profiter des progrès constants réalisés dans ce domaine. Dans cet article, nous présentons \textsc{Shaj}, un ensemble de données albanais annoté pour la détection des discours haineux et des expressions offensantes, construit à partir de contenus générés par les utilisateurs sur diverses plateformes de réseaux sociaux. L’annotation de ce jeu de données suit le schéma hiérarchique introduit dans OffensEval. Nous avons testé ce jeu de données à l’aide de trois modèles de classification différents, dont le meilleur atteint un score F1 de 0,77 pour la détection des langages offensants, un score F1 de 0,64 pour la catégorisation automatique des types d’offenses, et un score F1 de 0,52 pour l’identification de la cible des discours offensants.