
초록
우리는 새로운 엔티티 타이핑 작업을 소개합니다: 주어진 문장에 엔티티 언급이 있을 때, 목표는 해당 엔티티의 적절한 유형을 설명하는 자유 형식의 구문 집합(예: 스크라이스크래퍼, 작사가, 또는 범죄자)을 예측하는 것입니다. 이 공식은 대규모로 새로운 종류의 원격 감독을 사용할 수 있게 합니다: 헤드 워드(head words), 즉 명사 구에서 나타나는 단어들이 그 명사 구의 유형을 나타냅니다. 우리는 이러한 초미세 유형이 크라우드 소싱될 수 있음을 보여주며, 기존 벤치마크보다 훨씬 다양하고 세밀한 새로운 평가 세트를 도입합니다. 우리는 오픈 타입을 예측할 수 있는 모델을 제시하며, 이 모델은 새로운 헤드 워드 감독과 기존 엔티티 링킹에서 얻은 감독을 결합하여 다중태스크 목적함수를 사용하여 학습됩니다. 실험 결과는 우리의 모델이 다양한 세분화도에서 엔티티 타입을 예측하는 데 효과적임을 입증하며, 기존의 미세 분류된 엔티티 타이핑 벤치마크에서 최고 성능을 달성하였으며, 새로 도입된 데이터셋에 대한 기준선(baselines)을 설정하였습니다. 우리의 데이터와 모델은 다음 링크에서 다운로드할 수 있습니다: http://nlp.cs.washington.edu/entity_type