OGB-LSC: 그래프 기반 기계학습을 위한 대규모 도전 과제

대규모 그래프 데이터(예: 수십억 개의 엣지가 포함된 그래프)를 기반으로 한 효과적이고 효율적인 기계학습(ML)은 산업 및 과학 분야에 큰 영향을 미칠 수 있다. 그러나 기존의 대규모 그래프 기반 ML 기술 발전은 적절한 공개 벤치마크의 부족으로 인해 상당히 제한되어 왔다. 본 연구에서는 대규모 그래프 ML 기술의 발전을 촉진하기 위해 실-world 데이터셋 세 개로 구성된 OGB Large-Scale Challenge(OGB-LSC)를 제안한다. OGB-LSC 데이터셋은 기존 데이터셋과 비교해 수배 이상의 규모를 지니며, 링크 예측(link prediction), 그래프 회귀(graph regression), 노드 분류(node classification)라는 세 가지 핵심 그래프 학습 과제를 포괄한다. 또한, 대규모 데이터셋에 대응할 수 있도록 표현력이 풍부한 그래프 ML 모델을 확장한 전용 베이스라인 실험을 제공한다. 실험 결과, 표현력이 뛰어난 모델이 단순한 확장 가능한 베이스라인 모델보다 훨씬 우수한 성능을 보였으며, 이는 대규모 그래프 ML의 성능을 추가로 향상시키기 위한 전용 연구 노력의 가능성을 시사한다. 더불어 OGB-LSC 데이터셋은 ACM KDD Cup 2021에 배포되었으며, 전 세계적으로 500개 이상의 팀이 참가하여 다양한 혁신적 기법을 통해 성능이 크게 향상된 바 있다. 본 연구에서는 우승 팀들이 공통적으로 사용한 기법들을 요약하고, 대규모 그래프 ML 분야에서 현재 최선의 실천 방안을 제시한다. 마지막으로, KDD Cup 이후 데이터셋을 어떻게 업데이트하여 연구 발전을 더욱 촉진했는지에 대해 설명한다. OGB-LSC 데이터셋, 베이스라인 코드 및 KDD Cup 관련 모든 정보는 https://ogb.stanford.edu/docs/lsc/ 에서 확인할 수 있다.