
초록
최근 몇 년간 소셜 미디어의 사용이 지속적으로 증가하면서 온라인 플랫폼에서 혐오 발언 및 모욕적 발언의 등장이 급격히 증가하는 현상이 나타났다. 이러한 콘텐츠의 효과적인 탐지에 관한 연구는 주로 영어 및 몇몇 널리 사용되는 언어에 집중되어 왔으나, 나머지 다수의 언어는 여전히 동등한 연구 노력이 이루어지지 않아 이 분야에서 이루어지는 지속적인 기술 발전의 혜택을 받지 못하고 있다. 본 논문에서는 다양한 소셜 미디어 플랫폼에서 사용자 생성 콘텐츠를 기반으로 수집한 알바니아어 혐오 발언 및 모욕적 발언을 위한 주석화된 데이터셋인 \textsc{Shaj}를 제안한다. 이 데이터셋의 주석은 OffensEval에서 도입된 계층적 분류 체계를 따르고 있다. 제안된 데이터셋은 세 가지 서로 다른 분류 모델을 활용하여 테스트되었으며, 가장 우수한 모델은 모욕적 언어 식별에서 F1 점수 0.77을 달성하였고, 모욕적 유형의 자동 분류에서는 F1 점수 0.64, 모욕적 언어의 대상 식별에서는 F1 점수 0.52를 기록하였다.