
초록
한 혐오 발언 탐지 모델에서는 탐지 성능 외에도 편향(bias)과 설명 가능성(explainability)이라는 두 가지 핵심 측면을 고려해야 한다. 혐오 발언은 특정 단어의 존재 여부만으로 판단될 수 없으며, 모델은 인간과 유사한 추론 능력을 갖추고 있어야 하며, 그 판단 과정이 설명 가능해야 한다. 이러한 두 가지 측면에서 성능을 향상시키기 위해 우리는 중간 작업으로 '마스킹된 근거 예측(Masked Rationale Prediction, MRP)'을 제안한다. MRP는 주변 토큰과 함께 마스킹된 인간의 근거(즉, 인간의 판단 근거가 되는 문장의 일부 조각, 스피크)를 참조하여 그 근거를 예측하는 작업이다. MRP를 통해 모델은 근거를 기반으로 추론 능력을 학습하게 되며, 이로 인해 편향과 설명 가능성 측면에서 혐오 발언 탐지에 대해 강건한 성능을 발휘한다. 제안한 방법은 다양한 지표에서 일반적으로 최고 수준의 성능을 달성하며, 혐오 발언 탐지에 있어 그 효과성을 입증하고 있다.