8일 전

HopeEDI: 평등, 다양성, 포용을 위한 다국어 희망 발언 탐지 데이터셋

{Bharathi Raja Chakravarthi}
HopeEDI: 평등, 다양성, 포용을 위한 다국어 희망 발언 탐지 데이터셋
초록

최근 몇 년 동안 온라인 콘텐츠를 제어하고 폭력적·모욕적·증오 발언 등의 부정적 콘텐츠를 제거하기 위한 시스템이 개발되어 왔다. 그러나 권력 있는 일부 집단은 이러한 검열 수단을 악용하여 표현의 자유라는 민주적 권리에 장애를 가하는 경우도 있다. 따라서 긍정적이고 격려하는, 지지적인 콘텐츠를 장려하는 방향으로 연구가 긍정적 강화(positive reinforcement) 접근을 취하는 것이 절실하다. 지금까지 대부분의 연구는 영어권에서의 부정적 콘텐츠 문제 해결에 집중해 왔으나, 이 문제는 단순히 해로운 콘텐츠를 넘어서는 복합적인 요소를 포함하고 있으며, 다국어적 성격을 지닌다. 이를 해결하기 위해 우리는 영어, 타밀어, 말라얄람어로 각각 28,451건, 20,198건, 10,705건의 사용자 생성 코멘트를 포함한 ‘평등, 다양성, 포용성에 관한 희망 언어(Hope Speech) 데이터셋(HopeEDI)’을 구축하였다. 이 데이터셋은 각 코멘트에 대해 수작업으로 희망 언어(hope speech) 포함 여부를 레이블링한 것으로, 다국어 환경에서 평등·다양성·포용성에 기여하는 희망 언어를 주제로 한 최초의 연구로 알려져 있다. 본 연구에서는 Krippendorff’s alpha를 활용하여 데이터셋의 평가자 간 일치도(Inter-annotator agreement)를 측정하였으며, 이를 기반으로 다양한 벤치마크 기준 모델을 제작하여 정밀도(Precision), 재현율(Recall), F1 점수를 통해 성능을 평가하였다. 본 데이터셋은 연구 공동체에 공개되어 있으며, 긍정적이고 포용적인 언어를 장려하는 연구를 더욱 촉진하기를 기대한다.

HopeEDI: 평등, 다양성, 포용을 위한 다국어 희망 발언 탐지 데이터셋 | 최신 연구 논문 | HyperAI초신경