17일 전

원격 지도 관계 추출의 부정적 데이터 재고

Chenhao Xie, Jiaqing Liang, Jingping Liu, Chengsong Huang, Wenhao Huang, Yanghua Xiao
원격 지도 관계 추출의 부정적 데이터 재고
초록

원거리 지도 학습(distant supervision)은 관계 추출을 위한 풍부한 학습 샘플을 자동으로 생성할 수 있다. 그러나 이 방식은 두 가지 주요 문제를 야기한다. 하나는 노이즈가 포함된 레이블이며, 다른 하나는 학습 데이터의 불균형이다. 기존의 연구들은 주로 잘못 레이블링된 관계(거짓 양성, false positives)를 줄이는 데 초점을 맞추었으나, 지식 기반의 불완전성으로 인해 누락되는 관계(거짓 음성, false negatives)에 대한 탐색은 거의 이루어지지 않았다. 게다가 기존 문제 설정에서는 음성 레이블의 수가 양성 레이블보다 훨씬 많았다. 본 논문에서는 먼저 음성 데이터에 의해 발생하는 위의 문제들을 체계적으로 분석한다. 다음으로, 거짓 음성 문제를 완화하기 위해 관계 추출 문제를 양성-미레이블(positive unlabeled) 학습 문제로 재정의한다. 세 번째로, 문장 수준의 관계 탐지 후 주어/목적어 추출을 수행하는 파이프라인 방식의 접근법인 \textsc{ReRe}를 제안한다. 이는 샘플 효율적인 학습을 가능하게 한다. 실험 결과, 제안한 방법은 기존 접근법을 일관되게 상회하며, 많은 수의 거짓 양성 샘플을 포함해도 우수한 성능을 유지함을 보였다.

원격 지도 관계 추출의 부정적 데이터 재고 | 최신 연구 논문 | HyperAI초신경