3달 전

대규모 데이터셋에서 지식 그래프 완성 개선을 위한 쌍별 발생 정보 활용

Esma Balkir, Masha Naslidnyk, Dave Palfrey, Arpit Mittal
대규모 데이터셋에서 지식 그래프 완성 개선을 위한 쌍별 발생 정보 활용
초록

DistMult 및 ComplEx와 같은 이차형 모델은 지식 그래프(KG) 완성에 효과적인 방법이다. 그러나 이러한 모델은 큰 배치 크기를 요구하며, 메모리 제약으로 인해 대규모 데이터셋에서 학습할 경우 성능 저하가 발생하는 문제점이 있다. 본 논문에서는 데이터셋 내 엔티티-관계 쌍의 발생 빈도를 활용하여 공동 학습 모델을 구성하고, 학습 중 샘플링된 음성 예시의 품질을 향상시키는 기법을 제안한다. 세 가지 표준 데이터셋에서 두 기법을 결합했을 때, 특히 데이터셋 크기에 비해 배치 크기와 생성된 음성 예시의 수가 작을 경우 성능 향상이 두드러짐을 입증하였다. 또한 200만 개의 엔티티를 포함하는 대규모 데이터셋에 본 기법을 적용한 결과, 기준 모델 대비 hits@1에서 2.8%의 절대적 성능 향상을 달성하였다.