너는 온라인 증오 발언에 대항하기 위해 혐오를 결코 품지 말라

소셜미디어 내 증오 콘텐츠는 점점 더 증가하고 있다. 페이스북, 트위터, 구글 등 주요 플랫폼들은 이러한 증오 콘텐츠에 대응하기 위해 여러 가지 조치를 취해왔지만, 이러한 조치는 종종 표현의 자유 침해로 이어지는 위험을 내포하고 있다. 반면, 대응 발언(Counterspeech)은 표현의 자유를 훼손하지 않으면서도 온라인 증오 콘텐츠에 효과적으로 대응할 수 있는 방법을 제공한다. 따라서 이러한 플랫폼들에 대한 대안 전략으로, 증오 콘텐츠에 대한 방어 수단으로 대응 발언을 적극적으로 장려하는 방식이 고려될 수 있다. 그러나 대응 발언을 성공적으로 확산시키기 위해서는 온라인 환경에서의 대응 발언의 동적 특성을 깊이 이해해야 한다. 그러나 현재까지는 철저하게 구축된 데이터의 부족으로 인해 이러한 이해가 크게 제한되어 왔다. 본 논문에서는 유튜브 댓글을 활용하여 세계 최초로 대응 발언을 위한 데이터셋을 구축하고 공개한다. 이 데이터셋은 총 9,438개의 수작업 레이블링된 댓글로 구성되어 있으며, 각 댓글이 대응 발언인지 여부를 나타내는 레이블이 포함되어 있다. 이 데이터를 바탕으로, 대응 발언의 언어적 구조를 처음으로 체계적으로 측정하고 분석할 수 있게 되었으며, 다음과 같은 흥미로운 통찰을 도출할 수 있었다: 대응 발언 댓글은 비대응 발언 댓글보다 좋아요 수가 평균 두 배 이상이며, 일부 커뮤니티에서는 비대응 발언 댓글의 대부분이 증오 발언에 해당함을 확인하였고, 대응 발언의 다양한 유형이 모두 동일한 효과를 가지는 것은 아니며, 심리언어학적 분석을 통해 대응 발언을 작성하는 사용자들의 언어적 선택이 비대응 발언 작성자들과 상당히 다르다는 점을 확인할 수 있었다. 마지막으로, F1 점수 0.73의 성능을 달성하는 기계학습 모델을 구축하여 유튜브 영상 내에서 대응 발언을 자동으로 탐지할 수 있는 시스템을 구현하였다.