16일 전

박스 임베딩을 활용한 세부적인 엔티티 유형 모델링

Yasumasa Onoe, Michael Boratko, Andrew McCallum, Greg Durrett
박스 임베딩을 활용한 세부적인 엔티티 유형 모델링
초록

신경망 엔티티 타이핑 모델은 일반적으로 세밀한 엔티티 타입을 고차원 공간 내 벡터로 표현하지만, 이러한 공간은 타입 간 복잡한 상호의존성을 효과적으로 모델링하기에는 부적합하다. 본 연구에서는 개념을 d차원 초직사각형(hyperrectangle)으로 표현하는 박스 임베딩(box embeddings)이, 온톨로지에 명시적으로 정의되지 않은 관계에서도 타입의 계층 구조를 포착할 수 있는 능력을 탐구한다. 제안하는 모델은 타입과 엔티티 언급(entity mentions) 모두를 박스로 표현한다. 각 엔티티 언급과 그 맥락은 BERT 기반 모델에 입력되어, 해당 언급을 박스 공간 내에 임베딩한다. 본 모델은 표면 텍스트 내에 포함된 타입적 단서(typological clues)를 활용하여 언급에 대한 타입 표현을 가정하게 된다. 이후 박스 포함 관계(box containment)를 통해 특정 언급이 주어진 타입을 가질 확률(사후 확률)과 타입 간 조건부 확률 관계를 추론할 수 있다. 벡터 기반 타이핑 모델과의 비교를 통해, 여러 엔티티 타이핑 벤치마크에서 최신 기술 수준의 성능을 달성함을 확인하였다. 또한 경쟁력 있는 타이핑 성능 외에도, 본 박스 기반 모델은 예측 일관성(상위 타입과 하위 타입을 함께 예측하는 능력)과 신뢰도(즉, 캘리브레이션) 측면에서 우수한 성능을 보였으며, 이는 박스 기반 모델이 벡터 기반 모델보다 더 우수한 잠재적 타입 계층 구조를 포착하고 있음을 보여준다.

박스 임베딩을 활용한 세부적인 엔티티 유형 모델링 | 최신 연구 논문 | HyperAI초신경