17일 전

주제 지도 샘플링을 통한 데이터 효율적인 다영역 입장 탐지

Erik Arakelyan, Arnav Arora, Isabelle Augenstein
주제 지도 샘플링을 통한 데이터 효율적인 다영역 입장 탐지
초록

스탠스 탐지(Stance Detection)는 저자가 특정 대상에 대해 표현한 태도를 식별하는 작업으로, 소셜미디어의 의견 식별부터 법적 청구에 대한 태도 탐지에 이르기까지 다양한 분야에 걸쳐 적용된다. 그러나 이러한 분야들 내에서 작업의 정의 방식이 달라지며, 데이터 수집 절차, 레이블 사전, 그리고 이용 가능한 주석 데이터의 수 등이 상이하다. 게다가, 이러한 스탠스 주석은 주제별로도 불균형할 뿐만 아니라 주제 간에도 심각한 불균형을 보인다. 이러한 특성들은 다중 도메인 스탠스 탐지 작업을 매우 도전적인 과제로 만들며, 표준화 및 도메인 적응이 요구된다. 이러한 도전을 극복하기 위해, 우리는 주제를 기반으로 한 다양성 샘플링 기법과 스탠스 분류기의 미세조정에 사용되는 대조적 목적함수(contrastive objective)를 결합한 $\textbf{T}$opic $\textbf{E}$fficient $\textbf{St}$anc$\textbf{E}$ $\textbf{D}$etection (TESTED)를 제안한다. 제안한 방법은 기존의 16개 데이터셋으로 구성된 벤치마크에서 도메인 내(in-domain, 모든 주제를 사전에 학습한 경우) 및 도메인 외(out-of-domain, 학습되지 않은 주제에 대한 경우) 실험을 통해 평가되었으며, 그 결과 도메인 내에서는 최신 기술 대비 평균 3.5점의 F1 점수 향상을 기록하였고, 도메인 외 평가에서는 평균 10.2점의 F1 점수 향상이 나타났으며, 학습 데이터의 10% 이하만을 사용한 점에서 뛰어난 일반화 성능을 입증하였다. 또한 제안하는 샘플링 기법이 주제 간 및 주제 내 클래스 불균형을 효과적으로 완화함을 보였다. 마지막으로, 분석을 통해 대조적 학습 목적함수가 레이블이 다른 샘플들 간의 더 명확한 구분을 모델에 가능하게 한다는 점을 확인하였다.

주제 지도 샘플링을 통한 데이터 효율적인 다영역 입장 탐지 | 최신 연구 논문 | HyperAI초신경