롱 레인지 그래프 벤치마크

메시지 전달(Message Passing, MP) 패러다임을 기반으로 하는 그래프 신경망(GNN)은 일반적으로 각 계층에서 1-호프 이웃 간의 정보를 교환하여 노드 표현을 구성한다. 이론적으로 이러한 네트워크는 특정 그래프 작업을 학습하기 위해 필요하거나 바람직할 수 있는 장거리 상호작용(Long-Range Interaction, LRI)을 포착할 수 없다. 최근 들어, 원래의 희소 구조를 넘어서 전체 노드 연결성을 고려할 수 있는 Transformer 기반의 그래프 방법 개발에 대한 관심이 증가하고 있다. 이를 통해 LRI를 모델링할 수 있게 되었다. 그러나 단순히 1-호프 메시지 전달에 의존하는 MP-GNN은 위치 특징 표현(Positional Feature Representation) 등 다양한 혁신과 결합되었을 때 기존 그래프 벤치마크에서 상대적으로 뛰어난 성능을 보이며, 결과적으로 Transformer 유사 아키텍처의 실용성과 평가 순위에 제한을 둔다. 본 연구에서는 특정 작업에서 강력한 성능을 달성하기 위해 LRI 추론이 필수적이라고 할 수 있는 5개의 그래프 학습 데이터셋(PascalVOC-SP, COCO-SP, PCQM-Contact, Peptides-func, Peptides-struct)을 포함하는 ‘장거리 그래프 벤치마크(Long Range Graph Benchmark, LRGB)’를 제안한다. 우리는 기준 GNN과 그래프 Transformer 네트워크를 이러한 데이터셋에 대해 벤치마킹하여, 장거리 의존성을 효과적으로 포착하는 모델이 이들 작업에서 현저히 우수한 성능을 보임을 확인하였다. 따라서 본 데이터셋은 LRI를 포착하고자 하는 MP-GNN 및 그래프 Transformer 아키텍처의 벤치마킹과 탐색에 적합한 기준이 될 수 있다.