17일 전
원격 지도 관계 추출의 부정적 데이터 재고
Chenhao Xie, Jiaqing Liang, Jingping Liu, Chengsong Huang, Wenhao Huang, Yanghua Xiao

초록
원거리 지도 학습(distant supervision)은 관계 추출을 위한 풍부한 학습 샘플을 자동으로 생성할 수 있다. 그러나 이 방식은 두 가지 주요 문제를 야기한다. 하나는 노이즈가 포함된 레이블이며, 다른 하나는 학습 데이터의 불균형이다. 기존의 연구들은 주로 잘못 레이블링된 관계(거짓 양성, false positives)를 줄이는 데 초점을 맞추었으나, 지식 기반의 불완전성으로 인해 누락되는 관계(거짓 음성, false negatives)에 대한 탐색은 거의 이루어지지 않았다. 게다가 기존 문제 설정에서는 음성 레이블의 수가 양성 레이블보다 훨씬 많았다. 본 논문에서는 먼저 음성 데이터에 의해 발생하는 위의 문제들을 체계적으로 분석한다. 다음으로, 거짓 음성 문제를 완화하기 위해 관계 추출 문제를 양성-미레이블(positive unlabeled) 학습 문제로 재정의한다. 세 번째로, 문장 수준의 관계 탐지 후 주어/목적어 추출을 수행하는 파이프라인 방식의 접근법인 \textsc{ReRe}를 제안한다. 이는 샘플 효율적인 학습을 가능하게 한다. 실험 결과, 제안한 방법은 기존 접근법을 일관되게 상회하며, 많은 수의 거짓 양성 샘플을 포함해도 우수한 성능을 유지함을 보였다.