다중 시점 접근을 통한 커뮤니티 기반 질의응답 사이트에서의 모더레이션 조치 제안
매일 수천 건의 새로운 질문이 인기 있는 Q&A 웹사이트에 게시되면서, 수동 모더레이션을 대체할 수 있는 자동화되고 정확한 소프트웨어 솔루션이 절실히 요구되고 있다. 본 논문에서는 Q&A 커뮤니티에서 커뮤니티 기반 모더레이션 작업의 핵심적인 한계를 지적하고, 최신 기계학습 모델을 활용한 모더레이션 자동화 가능성을 입증한다. 기술적으로는 질문을 세 가지 서로 다른 관점에서 분석할 수 있는 세 가지 독립적인 특징 그룹을 생성하는 다중 시각(multi-view) 접근법을 제안한다. 첫째, BERT 기반 회귀 모델을 이용해 질문 관련 특징을 추출하고, 둘째, 명명된 실체 인식(Named Entity Recognition, NER) 모델을 활용해 맥락 관련 특징을 추출하며, 셋째, 통계적 및 분석적 방법을 통해 일반적인 어휘적 특징을 도출한다. 마지막 단계로, 이러한 특징들을 기반으로 그라디언트 부스팅 분류기(Gradient Boosting Classifier)를 학습시켜 모더레이션 조치를 예측한다. 평가를 위해, 3가지 모더레이션 조치 중 하나로 분류된 6만 건의 Stack Overflow 질문으로 구성된 새로운 데이터셋을 구축하였다. 새로 구축한 데이터셋에서 교차 검증을 수행한 결과, 본 연구의 접근법은 다중 클래스 분류 과제에서 95.6%의 정확도를 달성하며, 기존의 최신 기술 및 이전에 발표된 모든 모델들을 모두 상회하였다. 본 연구의 결과는 특징 생성 구성 요소가 분류기 전체 성능에 미치는 강력한 영향을 명확히 보여준다.