초록
지식 그래프 임베딩(KGE) 모델은 지식 그래프(KG)의 엔티티와 관계를 밀도 높은 연속적인 표현 형태인 임베딩으로 표현한다. 최근 KGE 기법은 지식 그래프 보완 및 추론과 같은 과제뿐만 아니라, 하류 학습 과제에 적합한 엔티티 표현을 제공하기 위해 주목받고 있다. 기존 문헌의 대부분은 소규모 지식 그래프에 초점을 맞추고 있으나, 다수의 GPU 또는 머신을 활용한 병렬화를 통해 대규모 지식 그래프에 대한 KGE 모델 훈련이 가능한 여러 프레임워크가 최근 제안되었다. 그러나 이러한 다양한 병렬화 기법들의 장단점에 대한 종합적인 연구는 아직 이루어지지 않았다. 본 논문에서는 공통적인 계산 프레임워크 내에서 기존 기법들을 재구현하고, 실험적으로 조사하며 개선한 결과를 보고한다. 우리는 기존 연구에서 사용된 평가 방법론이 종종 비교 불가능하며 오해를 유발할 수 있음을 발견하였으며, 현재 구현된 대부분의 훈련 방법은 임베딩 품질에 부정적인 영향을 미친다는 점을 확인하였다. 이를 해결하기 위해 PyTorch BigGraph에서 사용하는 계층화 기법의 간단하면서도 효과적인 변형을 제안한다. 또한 적절한 샘플링 기법과 결합할 경우, 기초적인 랜덤 분할 방식이 효과적일 뿐만 아니라 최고의 성능을 발휘할 수도 있음을 확인하였다. 결론적으로, 대규모 KGE 모델의 효율적이고 효과적인 병렬 훈련은 가능하다는 것을 확인하였으나, 이를 위해서는 기술 선택에 신중을 기해야 함을 시사한다.