17일 전
자연어 추론 데이터셋에서 부정확한 상관관계를 완화하기 위한 데이터 생성
Yuxiang Wu, Matt Gardner, Pontus Stenetorp, Pradeep Dasigi

초록
자연어 처리 모델은 일반적으로 데이터셋 내에서 작업과 무관한 특징과 레이블 사이의 부정확한 상관관계를 활용하여 훈련된 분포 내에서는 잘 작동하지만, 다른 작업 분포로의 일반화는 불가능하다. 본 연구에서는 이 문제를 해결하기 위해 훈련 데이터셋의 편향을 제거한 버전을 생성하고, 이를 단순히 기존의 오프더셸프 모델의 훈련 데이터로 교체함으로써 편향이 제거된 모델을 훈련시키는 접근법을 제안한다. 본 방법은 다음과 같은 두 가지 핵심 구성 요소로 이루어져 있다: 1) 고품질이며 레이블 일관성을 갖는 데이터 샘플을 생성할 수 있도록 훈련 데이터 생성기를 설계하는 기법; 2) z-통계치를 기준으로 부정확한 상관관계에 기여하는 데이터 포인트를 필터링하는 메커니즘. 우리는 SNLI 및 MNLI 데이터셋의 편향 제거 버전을 생성하였으며, 다양한 편향 제거된, 분포 외부의, 그리고 악성(어드버서리얼) 테스트 세트에서 평가를 수행하였다. 실험 결과, 본 연구에서 제안한 편향 제거 데이터셋을 사용해 훈련된 모델은 모든 설정에서 원본 데이터셋을 사용한 모델보다 더 우수한 일반화 성능을 보였다. 다수의 데이터셋에서 기존 최고 성능의 편향 제거 기법과 비교하여 우수하거나 동등한 성능을 나타냈으며, 독립적인 기법인 ‘전문가의 곱(Product-of-Experts)’과 결합할 경우, SNLI-hard 및 MNLI-hard 데이터셋에서 기존 최고 성능을 초월하는 결과를 달성하였다.