지식 그래프 임베딩이 미관측 데이터로 외삽되는 방식: 의미적 증거 관점에서

지식 그래프 임베딩(Knowledge Graph Embedding, KGE)은 실체(entity)와 관계(relation)에 대한 표현을 학습하는 것을 목표로 한다. 대부분의 KGE 모델은 특히 외삽(extrapolation) 시나리오에서 큰 성공을 거두었으며, 특히 관측되지 않은 삼중항 (h, r, t)이 주어졌을 때, 훈련된 모델이 (h, r, ?)에서 t를, 또는 (?, r, t)에서 h를 정확히 예측할 수 있다는 점에서 외삽 능력이 뛰어나다. 이러한 외삽 능력은 매우 인상적이다. 그러나 기존의 대부분의 KGE 연구들은 정교한 삼중항 모델링 함수 설계에 집중하여, 관측된 삼중항의 타당성(plausibility)을 어떻게 측정할지를 설명하는 데 그치며, 이러한 방법이 왜 미관측 데이터로 외삽할 수 있는지, 그리고 외삽에 기여하는 중요한 요소는 무엇인지에 대한 설명은 제한적이다.따라서 본 연구에서는 KGE의 외삽 능력에 대해 두 가지 문제를 탐구한다: 1) KGE는 어떻게 미관측 데이터로 외삽하는가? 2) 외삽 능력이 향상된 KGE 모델은 어떻게 설계할 수 있는가?문제 1에 대해, 우리는 외삽에 영향을 미치는 요인을 관계, 실체, 삼중항의 세 가지 수준에서 분석하고, 훈련 데이터셋에서 관찰 가능한 세 가지 의미적 증거(Semantic Evidences, SEs)를 제안한다. 이 SEs는 외삽을 위한 중요한 의미 정보를 제공한다. 이후 다양한 전형적인 KGE 방법에 대해 광범위한 실험을 수행하여 SEs의 효과성을 검증하였다.문제 2에 대해, 이 세 수준의 SE를 효과적으로 활용하기 위해, 새로운 GNN 기반의 KGE 모델인 의미적 증거 인식 그래프 신경망(Semantic Evidence aware Graph Neural Network, SE-GNN)을 제안한다. SE-GNN에서는 각 수준의 SE가 해당 이웃 패턴(neighbor pattern)을 통해 명시적으로 모델링되며, 다층 집계(multi-layer aggregation)를 통해 충분히 융합되어, 더 뛰어난 외삽 가능성을 갖는 지식 표현을 얻는 데 기여한다.마지막으로 FB15k-237 및 WN18RR 데이터셋에서 광범위한 실험을 수행한 결과, SE-GNN이 지식 그래프 완성(Knowledge Graph Completion) 과제에서 최신 기술(SOTA) 수준의 성능을 달성하며, 특히 우수한 외삽 능력을 보였다. 본 연구의 코드는 https://github.com/renli1024/SE-GNN 에 공개되어 있다.