
엔드투엔드 엔티티 링킹 시스템의 전형적인 아키텍처는 언급 탐지(mention detection), 후보 생성(candidate generation), 엔티티 해석 불확실성 제거(entity disambiguation)의 세 단계로 구성된다. 본 연구에서는 다음의 질문들을 탐구한다: (a) 이 세 단계를 모두 컨텍스트 기반 텍스트 표현 모델, 즉 BERT(Devlin 등, 2019)를 통해 함께 학습할 수 있는가? (b) 미리 학습된 BERT 모델 내부에 이미 얼마나 많은 엔티티 지식이 포함되어 있는가? (c) 추가적인 엔티티 지식은 하류 작업에서 BERT의 성능을 향상시키는가? 이를 위해 우리는 엔티티 링킹 설정을 극도로 단순화한 새로운 접근법을 제안한다. 이 방법은 전체 엔티티 어휘(우리의 경우 70만 개 이상의 클래스)에 대해 각 토큰별 분류 문제로 문제를 재정의하는 것이다. 엔티티 링킹 벤치마크를 통해 (i) 이 모델이 순수 BERT보다 더 나은 엔티티 표현을 생성함을 보이며, (ii) 각 작업을 별도로 최적화하는 기존 엔티티 링킹 아키텍처보다 우수한 성능을 보임을 확인하였고, (iii) 현재 최고 성능을 기록하는 모델(언급 탐지 및 엔티티 해석 불확실성 제거를 함께 최적화하는 모델)에 이어 두 번째로 높은 성능을 기록함을 밝혔다. 또한, 엔티티 인식 토큰 표현이 GLUE 텍스트 이해 벤치마크, 질문 응답 벤치마크인 SQUAD V2 및 SWAG, 그리고 EN-DE WMT14 기계 번역 벤치마크에서 얼마나 유용한지를 조사하였다. 예상과 달리, 대부분의 벤치마크에서는 추가적인 엔티티 지식이 성능 향상에 기여하지 않았으며, 단지 학습 데이터가 매우 적은 GLUE의 RTE 작업에서만 2%의 성능 향상이 관찰되었다.