13일 전

SimKGC: 사전 훈련된 언어 모델을 활용한 간단한 대조적 지식 그래프 완성

Liang Wang, Wei Zhao, Zhuoyu Wei, Jingming Liu
SimKGC: 사전 훈련된 언어 모델을 활용한 간단한 대조적 지식 그래프 완성
초록

지식 그래프 보완(Knowledge Graph Completion, KGC)은 기존의 사실들에 기반하여 미완성된 연결을 추론하는 것을 목표로 한다. 텍스트 기반의 방법, 예를 들어 KGBERT(Yao 등, 2019)는 자연어 설명을 통해 엔티티 표현을 학습하며, 유도적(KGC) 보완에 잠재력을 지닌다. 그러나 텍스트 기반 방법의 성능은 TransE(Bordes 등, 2013) 및 RotatE(Sun 등, 2019b)와 같은 그래프 임베딩 기반 방법에 비해 여전히 뒤처져 있다. 본 논문에서는 이 문제의 핵심이 효율적인 대조 학습(contrastive learning)에 있음을 규명한다. 학습 효율성을 향상시키기 위해, 배치 내 음성 샘플(in-batch negatives), 사전 배치 음성 샘플(pre-batch negatives), 그리고 자기 음성 샘플(self-negatives)의 세 가지 유형의 음성 샘플을 도입하였으며, 이들은 어려운 음성 샘플(hard negatives)의 간단한 형태로 작용한다. InfoNCE 손실과 결합함으로써 제안하는 모델 SimKGC는 여러 기준 데이터셋에서 임베딩 기반 방법을 상당히 뛰어넘는 성능을 달성한다. 평균 역수 순위(MRR) 기준으로, WN18RR에서 기존 최고 성능 대비 +19%, Wikidata5M 유도적 설정에서는 +6.8%, Wikidata5M 유도적 설정에서는 +22%의 성능 향상을 기록하였다. 각 구성 요소의 효과를 깊이 있게 분석하여 각 요소의 기여도를 탐구하였다. 본 연구의 코드는 https://github.com/intfloat/SimKGC 에 공개되어 있다.