11일 전
NodePiece: 대규모 지식 그래프의 구성적이고 파라미터 효율적인 표현
Mikhail Galkin, Etienne Denis, Jiapeng Wu, William L. Hamilton

초록
지식 그래프(KG)에 대한 기존의 표현 학습 알고리즘은 각 엔티티를 고유한 임베딩 벡터로 매핑한다. 이러한 단순한 룩업 방식은 임베딩 행렬을 저장하기 위한 메모리 소비가 선형적으로 증가하며, 실세계의 지식 그래프를 다룰 경우 높은 계산 비용을 초래한다. 자연어 처리(NLP)에서 흔히 사용되는 서브워드 토큰화와 유사한 접근 방식을 고려하여, 가능한 비선형(또는 하위선형) 메모리 요구량을 갖는 더 효율적인 노드 임베딩 전략의 가능성을 탐색한다. 이를 위해 우리는 고정된 크기의 엔티티 어휘를 학습하는 앵커 기반의 NodePiece를 제안한다. NodePiece에서는 관계 유형이 사전에 알려진 그래프 내의 앵커 노드로부터 서브워드/서브엔티티 단위의 어휘를 구성한다. 이러한 고정된 크기의 어휘를 기반으로, 훈련 중에 등장하지 않은 엔티티를 포함해 어떤 엔티티에 대해서도 인코딩과 임베딩을 초기화할 수 있다. 실험 결과, NodePiece는 노드 분류, 링크 예측, 관계 예측 등 다양한 작업에서 경쟁력 있는 성능을 보이며, 그래프 내 명시적인 노드 중 10% 미만을 앵커로 유지하면서 일반적으로 파라미터 수가 10배 적은 특징을 갖는다. 특히, OGB WikiKG2와 같은 대규모 그래프에서 NodePiece를 활용한 모델은 기존의 얕은 모델보다 우수한 성능을 보이며, 파라미터 수를 70배 줄이는 데 성공하였다.