2달 전

라벨이 없는 문서를 활용하여 실체 연결 성능 향상시키기

Phong Le; Ivan Titov
라벨이 없는 문서를 활용하여 실체 연결 성능 향상시키기
초록

현대의 엔티티 링킹 시스템은 특정 작업을 위해 주석이 달린 대규모 문서 컬렉션(예: AIDA CoNLL)에 의존합니다. 반면, 우리는 자연적으로 발생하는 정보만을 활용하는 접근 방식을 제안합니다: 라벨이 붙지 않은 문서와 위키백과. 우리의 접근 방식은 두 단계로 구성됩니다. 첫째, 라벨이 붙지 않은 문서에서 각 언급에 대한 후보 엔티티의 고 리콜 목록을 구성합니다. 둘째, 후보 목록을 약한 감독으로 사용하여 문서 수준의 엔티티 링킹 모델을 제약합니다. 이 모델은 엔티티를 잠재 변수로 취급하며, 라벨이 붙지 않은 텍스트 컬렉션에서 추정될 때, 각 언급의 로컬 문맥과 문서 내 다른 엔티티와의 일관성을 바탕으로 엔티티를 선택하도록 학습됩니다. 결과적으로 이 접근 방식은 표준 테스트 세트에서 완전히 지도된 최신 시스템들과 견줄 만한 성능을 보입니다. 또한 매우 도전적인 환경에서도 그 성능에 근접합니다: 지도된 시스템들을 추정하기 위해 사용된 데이터에서 샘플링된 테스트 세트에서 테스트할 때입니다. 위키백과만으로 모델을 학습시킨 경우와 비교함으로써, 우리는 라벨이 붙지 않은 문서를 모델링하는 것이 유익하다는 것을 입증하였습니다.