
초록
소셜 플랫폼에서의 적대적 콘텐츠는 점점 증가하고 있다. 이러한 상황은 적대적 게시물을 적절히 탐지함으로써 적절한 조치를 취할 수 있도록 하는 필요성을 초래하였다. 최근 영어권에서 온라인 적대적 콘텐츠 문제를 해결하기 위한 많은 연구가 이루어졌지만, 인도 언어에 대한 유사한 연구는 매우 드물다. 본 논문은 힌디어 데바나가리 문자로 작성된 소셜 미디어(예: 트위터, 페이스북 등) 게시물을 '적대적' 또는 '비적대적'으로 분류하는 전이 학습 기반 접근법을 제안한다. 또한, 적대적 게시물은 그 내용을 더 깊이 분석하여 '혐오성', '가짜 정보', '명예훼손', '부적절한 발언' 등으로 세분화하여 분류한다. 본 연구는 힌디어 데이터에 대해 사전 훈련된 어텐션 기반 모델을 활용하며, 적대적-비적대적 분류를 보조 과제(auxiliary task)로 설정하고, 이를 통해 추출된 특징을 융합하여 하위 분류 과제를 수행한다. 이러한 접근을 통해 복잡한 전처리나 앙상블 기법 없이도 강력하고 일관성 있는 모델을 구축할 수 있었다. 제안한 방법은 CONSTRAINT-2021 공동 과제(Hostile Post Detection Shared Task)에서 검증되었으며, 가중치가 부여된 세부적인 F1 스코어 기준으로 3위(3rd runner-up)의 뛰어난 성능을 기록하였다.