11일 전

폭력적인 알바니아어 탐지

Erida Nurce, Jorgel Keci, Leon Derczynski
폭력적인 알바니아어 탐지
초록

최근 몇 년간 소셜 미디어의 사용이 지속적으로 증가하면서 온라인 플랫폼에서 혐오 발언 및 모욕적 발언의 등장이 급격히 증가하는 현상이 나타났다. 이러한 콘텐츠의 효과적인 탐지에 관한 연구는 주로 영어 및 몇몇 널리 사용되는 언어에 집중되어 왔으나, 나머지 다수의 언어는 여전히 동등한 연구 노력이 이루어지지 않아 이 분야에서 이루어지는 지속적인 기술 발전의 혜택을 받지 못하고 있다. 본 논문에서는 다양한 소셜 미디어 플랫폼에서 사용자 생성 콘텐츠를 기반으로 수집한 알바니아어 혐오 발언 및 모욕적 발언을 위한 주석화된 데이터셋인 \textsc{Shaj}를 제안한다. 이 데이터셋의 주석은 OffensEval에서 도입된 계층적 분류 체계를 따르고 있다. 제안된 데이터셋은 세 가지 서로 다른 분류 모델을 활용하여 테스트되었으며, 가장 우수한 모델은 모욕적 언어 식별에서 F1 점수 0.77을 달성하였고, 모욕적 유형의 자동 분류에서는 F1 점수 0.64, 모욕적 언어의 대상 식별에서는 F1 점수 0.52를 기록하였다.

폭력적인 알바니아어 탐지 | 최신 연구 논문 | HyperAI초신경