11일 전

오픈 그래프 벤치마크: 그래프 기반 머신러닝을 위한 데이터셋

Weihua Hu, Matthias Fey, Marinka Zitnik, Yuxiao Dong, Hongyu Ren, Bowen Liu, Michele Catasta, Jure Leskovec
오픈 그래프 벤치마크: 그래프 기반 머신러닝을 위한 데이터셋
초록

우리는 확장 가능하고 강건하며 재현 가능한 그래프 기계학습(ML) 연구를 촉진하기 위해 다양한 도전적이고 현실적인 벤치마크 데이터셋을 제공하는 Open Graph Benchmark(OGB)를 소개한다. OGB 데이터셋은 대규모이며, 여러 중요한 그래프 기계학습 작업을 포함하며, 사회망 및 정보 네트워크에서부터 생물학적 네트워크, 분자 그래프, 소스 코드 AST(추상 구문 트리), 지식 그래프에 이르기까지 다양한 분야를 아우른다. 각 데이터셋에 대해 의미 있는 응용 분야별 데이터 분할과 평가 지표를 사용하는 통합된 평가 프로토콜을 제공한다. 데이터셋 구축 외에도 각 데이터셋에 대해 광범위한 벤치마크 실험을 수행하였다. 우리의 실험 결과는 OGB 데이터셋이 대규모 그래프에 대한 확장성과 현실적인 데이터 분할 하에서의 분포 밖 일반화(out-of-distribution generalization)에 있어 중요한 도전 과제를 제시하며, 향후 연구에 풍부한 기회를 제공함을 시사한다. 마지막으로, OGB는 그래프 데이터 로딩, 실험 설정, 모델 평가 과정을 간소화하고 표준화하는 자동화된 엔드투엔드 그래프 기계학습 파이프라인을 제공한다. OGB는 지속적으로 업데이트될 예정이며, 커뮤니티의 피드백을 환영한다. OGB 데이터셋과 데이터 로더, 평가 스크립트, 베이스라인 코드, 리더보드는 모두 공개되어 있으며, https://ogb.stanford.edu 에서 확인할 수 있다.

오픈 그래프 벤치마크: 그래프 기반 머신러닝을 위한 데이터셋 | 최신 연구 논문 | HyperAI초신경