13일 전

AAA: 폭력 탐지 시스템에 대한 공정한 평가가 요구됨

{Roberto Navigli, Rocco Tripodi, Björn Ross, Michele Bevilacqua, Agostina Calabrese}
초록

사용자 생성 웹 콘텐츠는 타인에게 해를 끼치고 참여를 저해할 수 있는 폭력적인 언어로 가득 차 있다. 따라서 주요 연구 목표 중 하나는 온라인 커뮤니티의 인간 모더레이터를 경고하고 지원할 수 있는 폭력적 언어 탐지 시스템을 개발하는 것이다. 그러나 이러한 시스템은 개발과 평가 모두 매우 어렵다. 현재 평가 지표에서 만족스러운 성능을 보일지라도, 새로운 데이터에 적용했을 때 실제 환경에서는 실패할 수 있다. 이는 이 분야에서 흔히 사용되는 데이터셋이 선별 편향(selection bias)을 겪고 있기 때문이다. 그 결과 기존의 지도 학습 모델은 본질적으로 폭력적이지 않은 그룹 식별어(예: gay, black 등)와 같은 단서어에 과도하게 의존하게 된다. 이러한 편향을 완화하려는 시도는 존재하지만, 현재의 평가 지표는 이러한 진전을 충분히 측정하지 못하고 있다. 본 연구에서는, 특히 분류가 어려운 마이크로포스트(microposts)의 특정 유형에 대해 모델 성능을 더 잘 반영하는 새로운 평가 전략과 관련 지표인 Adversarial Attacks against Abuse(AAA)를 제안한다. 예를 들어, 저수준의 어휘적 특성에 편향된 시스템을 처벌하는 데 효과적이다. AAA는 모델 개발자가 사용하는 학습 및 테스트 데이터를 적대적으로 수정하여 실현 가능한 테스트 샘플을 동적으로 생성함으로써 이를 달성한다. 본 연구에서는 AAA를 사용하기 쉬운 도구로 공개하며, 다양한 데이터셋에서 최첨단 모델들의 AAA 성능을 비교함으로써 오류 분석에서의 효과를 입증한다. 본 연구는 폭력적 언어 탐지 시스템의 개발을 지원하고, 온라인 폭력적 언어와의 투쟁에 기여할 것으로 기대된다.

AAA: 폭력 탐지 시스템에 대한 공정한 평가가 요구됨 | 최신 연구 논문 | HyperAI초신경