17일 전
Bootleg: 자기지도형 명명된 실체 해석을 통한 꼬리 추적
Laurel Orr, Megan Leszczynski, Simran Arora, Sen Wu, Neel Guha, Xiao Ling, Christopher Re

초록
명사 인식 해석(Named Entity Disambiguation, NED)은 텍스트 내 언급을 지식 기반에 있는 실체(entity)에 매핑하는 작업으로, 훈련 데이터에서 드물게 등장하는 실체—즉, 꼬리 실체(tail entities)를 어떻게 해석할지에 대한 도전 과제가 있다. 인간은 익숙하지 않은 실체를 해석할 때 실체의 사실, 관계, 유형에 대한 지식을 바탕으로 미묘한 추론 패턴을 활용한다. 이러한 패턴을 영감으로 삼아, 우리는 해석을 위한 추론 패턴에 명시적으로 기반을 둔 자기지도 학습(self-supervised) NED 시스템인 Bootleg을 제안한다. 우리는 해석을 위한 핵심 추론 패턴을 정의하고, 자기지도 학습 모델이 이러한 패턴을 학습하도록 유도하는 학습 절차를 설계하며, 약한 지도(weak supervision)를 활용해 훈련 데이터 내 신호를 강화하는 방법을 제시한다. 간단한 Transformer 아키텍처에 추론 패턴을 인코딩한 Bootleg은 세 가지 NED 벤치마크에서 최신 기술을 만족하거나 초과하는 성능을 달성한다. 또한 Bootleg이 학습한 표현이 실체 기반 지식을 필요로 하는 다른 비해석 작업으로도 성공적으로 전이됨을 보여주며, 주요 기술 기업의 고도로 최적화된 검색 및 어시스턴트 작업에서 최대 8%의 성능 향상을 입증하고, 인기 있는 TACRED 관계 추출 작업에서 1.0 F1 점수의 새로운 최고 기록을 수립하였다.