3달 전
대규모 데이터셋에서 지식 그래프 완성 개선을 위한 쌍별 발생 정보 활용
Esma Balkir, Masha Naslidnyk, Dave Palfrey, Arpit Mittal

초록
DistMult 및 ComplEx와 같은 이차형 모델은 지식 그래프(KG) 완성에 효과적인 방법이다. 그러나 이러한 모델은 큰 배치 크기를 요구하며, 메모리 제약으로 인해 대규모 데이터셋에서 학습할 경우 성능 저하가 발생하는 문제점이 있다. 본 논문에서는 데이터셋 내 엔티티-관계 쌍의 발생 빈도를 활용하여 공동 학습 모델을 구성하고, 학습 중 샘플링된 음성 예시의 품질을 향상시키는 기법을 제안한다. 세 가지 표준 데이터셋에서 두 기법을 결합했을 때, 특히 데이터셋 크기에 비해 배치 크기와 생성된 음성 예시의 수가 작을 경우 성능 향상이 두드러짐을 입증하였다. 또한 200만 개의 엔티티를 포함하는 대규모 데이터셋에 본 기법을 적용한 결과, 기준 모델 대비 hits@1에서 2.8%의 절대적 성능 향상을 달성하였다.