다국어 지식 그래프 완성: 관계 및 엔티티의 공동 정렬을 통한 접근

지식 그래프 보완(Knowledge Graph Completion, KGC)은 불완전한 지식 그래프 내에서 누락된 사실을 예측하는 작업이다. 기존의 대부분의 KGC 연구는 단일 지식 그래프와 단일 언어에만 적용 가능하다. 그러나 다양한 언어를 사용하는 사용자들은 각각의 언어로 독립적인 지식 그래프를 유지할 수 있으며, 개별 지식 그래프가 완전하다고 기대하기는 어렵다. 또한 이러한 지식 그래프들 내에서 공통되는 실체(entity)나 관계(relation)는 서로 다른 표면 형태와 ID를 가지게 되어 ID의 과도한 증가가 발생한다. 이러한 문제를 해결하기 위해 실체 정합(Entity Alignment, EA)과 관계 정합(Relation Alignment, RA) 작업이 도입되며, 서로 다른 지식 그래프에서 동일한 실체 또는 관계를 나타내는 ID 쌍을 식별하는 데 목적이 있다. 이러한 정합 정보는 한 지식 그래프의 지식이 다른 지식 그래프의 보완에 유용할 수 있으므로, 누락된 사실 예측에도 기여할 수 있다. 또한 높은 신뢰도를 가진 예측 결과는 정합 작업에 있어 유용한 정보를 제공할 수 있다. 이에 따라 본 연구는 다언어 KGC, 관계 정합, 실체 정합 모델을 공동으로 학습하는 새로운 태스크를 제안한다. 제안하는 모델인 ALIGNKGC는 일부 시드 정합(seed alignment)을 활용하여 KGC, EA, RA의 손실을 동시에 최적화한다. ALIGNKGC의 핵심 구성 요소는 관계의 (주어, 목적어) 집합 서명(signature)에 기반한 임베딩 기반의 비대칭 겹침(asymmetric overlap) 개념으로, 한 관계가 다른 관계와 동치이거나 함의되는 경우를 더 정확히 예측하는 데 기여한다. 다섯 가지 언어로 구성된 DBpedia를 대상으로 수행한 광범위한 실험을 통해, 공동 학습이 모든 작업에 유리함을 입증하였으며, 각 단언어 지식 그래프에 대해 강력한 최신 기술 기반 단일 KGC 시스템 모델보다 MRR(평균 순위 역수)에서 10~32%의 성능 향상을 달성하였다. 또한, 정합 없이 모든 사실을 통합한 단순한 지식 그래프에 대해 기존의 완전성 예측 모델과 비교했을 때 ALIGNKGC는 EA 및 RA 작업에서도 합리적인 성능 향상을 보였으며, 이는 공동 학습이 이러한 작업에 있어 실질적인 가치를 지닌다는 점을 입증한다.