2달 전

문장의 집합에서 문서로: 머신 리딩 컴프리헨션을 통한 원격 감독 관계 추출

Lingyong Yan; Xianpei Han; Le Sun; Fangchao Liu; Ning Bian
문장의 집합에서 문서로: 머신 리딩 컴프리헨션을 통한 원격 감독 관계 추출
초록

원격 감독(DS)은 관계 추출을 위한 유망한 접근 방식이지만 종종 노이즈 라벨 문제에 시달립니다. 전통적인 DS 방법들은 일반적으로 엔티티 쌍을 문장들의 집합으로 표현하고 다중 인스턴스 학습 기법을 사용하여 라벨의 노이즈를 제거합니다. 그러나 이 집합 기반 패러다임은 문장 간 수준과 엔티티 수준의 증거를 활용하지 못하며, 그 노이즈 제거 알고리즘은 종종 특화되고 복잡합니다. 본 논문에서는 새로운 DS 패러다임인 문서 기반 원격 감독을 제안합니다. 이는 관계 추출을 문서 기반 머신 리딩 컴프리헨션(MRC) 작업으로 모델링합니다. 모든 문장을 하나의 문서로 재구성하고 관계 특정 질문을 통해 문서에서 관계를 추출함으로써, 문서 기반 DS 패러다임은 모든 문장 수준, 문장 간 수준, 그리고 엔티티 수준의 증거를 동시에 인코딩하고 활용할 수 있습니다. 또한, 우리는 $\langle$문서, 질문, 답변$\rangle$ 튜플만 사용하여 MRC 모델을 효과적으로 훈련시킬 수 있는 새로운 손실 함수인 DSLoss(원격 감독 손실)를 설계하였습니다. 따라서 노이즈 라벨 문제는 근본적으로 해결될 수 있습니다. 실험 결과, 제안된 방법론이 최신 DS 성능에서 새로운 최고치를 달성하였음을 보여주었습니다.