11일 전

HateBERT: 영어 폭력적 언어 탐지용 BERT 재학습

Tommaso Caselli, Valerio Basile, Jelena Mitrović, Michael Granitzer

초록

본 논문에서는 영어에서 폭력적 언어 탐지에 사용할 수 있도록 재학습된 HateBERT 모델을 소개한다. 이 모델은 우리 팀이 수집하여 공개한, 비속하거나 폭력적인 표현을 포함해 금지된 커뮤니티의 영어 Reddit 댓글을 대상으로 구성된 대규모 데이터셋인 RAL-E를 기반으로 학습되었다. 우리는 일반적인 사전 학습된 언어 모델과, 금지된 커뮤니티의 게시물로 재학습된 폭력적 언어 경향성을 지닌 모델 간의 세부적인 성능 비교 결과를 제시하며, 영어로 작성된 공격적 언어, 폭력적 언어, 혐오 발언 탐지 작업을 위한 세 가지 영어 데이터셋에서의 성능을 평가하였다. 모든 데이터셋에서 HateBERT는 해당하는 일반 BERT 모델보다 우수한 성능을 보였다. 또한, 일반 사전 학습 언어 모델과 그에 해당하는 폭력적 언어 경향성 모델 간의 데이터셋 간 이식성(포터빌리티)을 비교하는 일련의 실험을 논의하며, 주석 처리된 현상 간의 호환성 여부가 이식성에 영향을 미친다는 점을 시사한다.