그래프 신경망의 벤치마킹

최근 몇 년 동안 그래프 신경망(GNN)은 그래프 기반 데이터 분석 및 학습의 표준 도구로 자리 잡았다. 이 분야는 컴퓨터 과학, 수학, 생물학, 물리학, 화학 등 다양한 분야에 성공적으로 적용된 유망한 기법들의 급속한 발전을 경험했다. 그러나 어떤 분야가 성공적으로 주류가 되고 신뢰할 수 있는 기준이 되기 위해서는 성과를 정량화할 수 있는 벤치마크가 반드시 필요하다. 이에 따라 우리는 2020년 3월, i) 다양한 수학적 및 실제 세계의 그래프를 포함하는 다변화된 데이터 세트, ii) 동일한 파라미터 예산 하에서 공정한 모델 비교를 가능하게 하여 핵심 아키텍처를 식별할 수 있도록 하는, iii) 오픈소스이며 사용이 간편하고 재현이 가능한 코드 인프라를 갖춘, iv) 연구자들이 새로운 이론적 아이디어를 실험하기에 유연한 벤치마크 프레임워크를 공개하였다. 2022년 12월 기준으로 해당 GitHub 저장소는 2,000개의 스타와 380개의 포크를 달성하며, GNN 커뮤니티에서 널리 활용되고 있음을 보여주며, 제안된 오픈소스 프레임워크의 실용성을 입증하였다. 본 논문에서는 이전에 소개된 프레임워크의 특징을 간결하게 정리하고, 인기 있는 ZINC과 유사하지만 실제 측정된 화학적 타겟을 갖춘 중간 규모의 분자 데이터셋 AQSOL을 추가로 포함한 업데이트된 버전을 제시하며, 새로운 GNN 설계 및 통찰을 탐색하는 데 이 프레임워크를 어떻게 활용할 수 있는지 논의한다. 본 벤치마크의 가치를 입증하기 위해, 본 벤치마크와 함께 도입된 그래프 위치 인코딩(PE)의 사례를 연구하였으며, 이후 트랜스포머 및 GNN에서 더 강력한 PE 탐색을 위한 견고한 실험 환경을 제공하며 커뮤니티의 관심을 끌고 있다.