2달 전
NSCaching: 지식 그래프 임베딩을 위한 간단하고 효율적인 부정 샘플링
Yongqi Zhang; Quanming Yao; Yingxia Shao; Lei Chen

초록
지식 그래프(KG) 임베딩은 많은 실제 응용 분야를 가진 데이터 마이닝 연구의 기본적인 문제입니다. 이는 그래프 내의 개체와 관계를 저차원 벡터 공간으로 인코딩하는 것을 목표로 하며, 이를 후속 알고리즘에 활용할 수 있습니다. 부정 샘플링은 훈련 데이터에서 관찰되지 않은 것들 중에서 부정 트리플을 샘플링하는 과정으로, KG 임베딩에서 중요한 단계입니다. 최근에는 생성적 적대 네트워크(GAN)가 부정 샘플링에 도입되었습니다. 큰 점수를 가진 부정 트리플을 샘플링함으로써, 이러한 방법들은 기울기 소실 문제를 피하고 더 나은 성능을 얻을 수 있습니다. 그러나 GAN을 사용하면 원래 모델이 더욱 복잡해지고 훈련하기 어려워지므로 강화 학습이 반드시 필요합니다.본 논문에서는 큰 점수를 가진 부정 트리플이 중요하지만 드물다는 관찰에 착안하여, 캐시(cache)를 통해 직접 추적하는 방법을 제안합니다. 그러나 캐시에서 어떻게 샘플링하고 업데이트할 것인가는 두 가지 중요한 질문입니다. 우리는 효율적이면서 탐사와 활용 사이의 균형도 잘 맞추는 해결책을 신중하게 설계하였습니다. 이렇게 함으로써, 우리의 방법은 추가 매개변수로 부정 트리플의 전체 분포를 맞추는 데 시간을 낭비하지 않는 이전 GAN 기반 방법들의 "정제된" 버전으로 작동합니다.다양한 실험 결과는 우리의 방법이 다양한 KG 임베딩 모델에서 상당한 개선 효과를 보이며, 최신 GAN 기반 부정 샘플링 방법들을 능가한다는 것을 보여주었습니다.