SUREL+: 확장 가능한 부분그래프 기반 그래프 표현 학습을 위한 워크에서 세트로의 전환

서브그래프 기반 그래프 표현 학습(SGRL)은 모델의 표현력과 일반화 능력 측면에서 유리한 점을 지녀, 최근 그래프 기반 예측 작업에서 강력한 도구로 부상하고 있다. 기존의 대부분의 SGRL 모델은 각 학습 또는 테스트 쿼리에 대해 서브그래프 추출에 따른 높은 계산 비용으로 인해 성능에 한계를 겪었다. 최근 제안된 SUREL은 오프라인에서 랜덤 워크를 샘플링하고, 이를 온라인에서 서브그래프의 대체 표현으로 활용함으로써 SGRL의 속도를 가속화하는 방식을 제시하였다. 샘플링된 워크가 다양한 쿼리 간에 재사용 가능하다는 장점 덕분에 SUREL은 확장성과 예측 정확도 측면에서 최신 기준 성능을 달성하였다. 그러나 SUREL은 샘플링된 워크 내에서 노드의 중복으로 인해 여전히 높은 계산 부담을 겪고 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 서브그래프를 워크가 아닌 노드 집합을 이용해 표현하는 새로운 프레임워크 SUREL+를 제안한다. 집합 기반 표현은 정의상 중복된 노드를 제거할 수 있지만, 크기가 불규칙할 수 있다는 문제가 있다. 이를 해결하기 위해, 노드 집합을 효율적으로 저장하고 접근할 수 있는 맞춤형 희소 데이터 구조를 설계하였으며, 병렬 배치 단위에서 집합을 결합하는 전용 연산자를 제공하였다. SUREL+는 모듈화된 아키텍처를 채택하여 다양한 종류의 집합 샘플러, 구조적 특징, 신경망 인코더를 지원함으로써 워크에서 집합으로의 축소로 인해 발생하는 구조 정보 손실을 보완한다. 링크 예측, 관계 유형 예측, 고차원 패턴 예측 등 다양한 예측 작업에 대한 광범위한 실험을 수행한 결과, SUREL+는 SUREL 대비 3~11배의 속도 향상을 달성하면서도 비교적 동일하거나 더 뛰어난 예측 성능을 유지하였다. 또한 다른 SGRL 기반 베이스라인 모델들과 비교했을 때, SUREL+는 약 20배의 속도 향상을 기록하며 예측 정확도도 크게 향상시켰다.