구조 증강 텍스트 표현 학습을 통한 효율적인 지식 그래프 완성

인간이 수작업으로 구성한 지식 그래프는 다양한 자연어 처리 작업에 핵심적인 지원 정보를 제공하지만, 이러한 그래프는 일반적으로 완전하지 않으며, 자동 완성 기술의 필요성을 야기한다. 기존의 그래프 임베딩 접근법(예: TransE)은 그래프 요소를 밀도 높은 임베딩으로 표현하고, 공간적 거리 기반으로 삼항 관계를 학습함으로써 구조적 지식을 추출한다. 그러나 이러한 방법은 학습 과정에서 접하지 않은 요소에 대해 일반화가 어렵고, 그래프의 불완전성에 본질적으로 취약하다. 반면, 텍스트 인코딩 기반 접근법(예: KG-BERT)은 그래프 삼항의 텍스트 정보와 삼항 수준의 맥락 기반 표현을 활용한다. 이는 충분한 일반화 능력과 불완전한 그래프에 대한 강건성을 지니고 있으며, 특히 사전 훈련된 인코더와 결합할 경우 더욱 효과적이다. 그러나 두 가지 주요한 한계가 성능을 제한한다. 첫째, 추론 시 가능한 모든 삼항의 점수를 계산하는 데 큰 계산 비용이 발생한다. 둘째, 텍스트 인코더 내부에 구조적 지식이 부족하다는 점이다. 본 논문에서는 텍스트 인코딩 패러다임을 따르되, 그래프 임베딩 기법을 통합함으로써 이러한 한계를 완화하고자 한다. 즉, 번역 기반 그래프 임베딩 방식과 유사하게 각 삼항을 비대칭적인 두 부분으로 분할하고, 시매이스(Siamese) 구조의 텍스트 인코더를 통해 두 부분을 맥락 기반 표현으로 인코딩한다. 이 표현 기반으로 본 모델은 결정론적 분류기와 공간적 측정 기법을 각각 표현 학습과 구조 학습에 활용한다. 또한, 기존 그래프 임베딩 모델로부터 삼항 점수를 활용하는 자가 적응형 앙상블 기법을 개발하여 성능을 추가로 향상시킨다. 실험 결과, 링크 예측을 위한 세 가지 벤치마크와 제로샷(Zero-shot) 데이터셋에서 최신 기술 수준의 성능을 달성하였으며, 특히 텍스트 인코딩 기법 대비 추론 비용이 1~2개의 주어지 감소하는 효과를 보였다.