8일 전

힌디어에서 사전 훈련된 언어 모델을 활용한 적대감 탐지

Ojasv Kamal, Adarsh Kumar, Tejas Vaidhya
힌디어에서 사전 훈련된 언어 모델을 활용한 적대감 탐지
초록

소셜 플랫폼에서의 적대적 콘텐츠는 점점 증가하고 있다. 이러한 상황은 적대적 게시물을 적절히 탐지함으로써 적절한 조치를 취할 수 있도록 하는 필요성을 초래하였다. 최근 영어권에서 온라인 적대적 콘텐츠 문제를 해결하기 위한 많은 연구가 이루어졌지만, 인도 언어에 대한 유사한 연구는 매우 드물다. 본 논문은 힌디어 데바나가리 문자로 작성된 소셜 미디어(예: 트위터, 페이스북 등) 게시물을 '적대적' 또는 '비적대적'으로 분류하는 전이 학습 기반 접근법을 제안한다. 또한, 적대적 게시물은 그 내용을 더 깊이 분석하여 '혐오성', '가짜 정보', '명예훼손', '부적절한 발언' 등으로 세분화하여 분류한다. 본 연구는 힌디어 데이터에 대해 사전 훈련된 어텐션 기반 모델을 활용하며, 적대적-비적대적 분류를 보조 과제(auxiliary task)로 설정하고, 이를 통해 추출된 특징을 융합하여 하위 분류 과제를 수행한다. 이러한 접근을 통해 복잡한 전처리나 앙상블 기법 없이도 강력하고 일관성 있는 모델을 구축할 수 있었다. 제안한 방법은 CONSTRAINT-2021 공동 과제(Hostile Post Detection Shared Task)에서 검증되었으며, 가중치가 부여된 세부적인 F1 스코어 기준으로 3위(3rd runner-up)의 뛰어난 성능을 기록하였다.

힌디어에서 사전 훈련된 언어 모델을 활용한 적대감 탐지 | 최신 연구 논문 | HyperAI초신경