
초록
증오 메모 분류는 복잡한 추론과 문맥적 배경 지식이 필요한 도전적인 다중 모드 작업입니다. 이상적으로는 증오 메모의 문맥적 및 문화적 정보를 보완하기 위해 명시적인 외부 지식 기반을 활용할 수 있으면 좋겠습니다. 그러나 이러한 증오 발언 관련 문맥 정보를 제공할 수 있는 알려진 명시적 외부 지식 기반은 없습니다. 이 문제를 해결하기 위해 우리는 PromptHate라는 간단하면서도 효과적인 프롬프트 기반 모델을 제안합니다. 이 모델은 사전 훈련된 언어 모델(PLM)을 사용하여 증오 메모를 분류하도록 유도합니다. 구체적으로, 우리는 간단한 프롬프트를 구성하고 몇 가지 문맥 내 예제를 제공하여 사전 훈련된 RoBERTa 언어 모델에 내재된 지식을 활용하여 증오 메모 분류를 수행합니다. 두 개의 공개적으로 이용 가능한 증오 및 욕설 메모 데이터셋에서 광범위한 실험을 수행했습니다. 실험 결과, PromptHate는 90.96의 높은 AUC(Area Under the Curve) 값을 달성하며, 증오 메모 분류 작업에서 최신 기준 모델들을 능가하는 성능을 보였습니다. 또한 다양한 프롬프트 설정에 대한 세밀한 분석과 사례 연구를 수행하여 프롬프트의 효과성을 입증하였습니다.