Cleora: 간단하고 강력하며 확장 가능한 그래프 임베딩 기법

그래프 임베딩 분야는 현재 대조 학습(contrastive learning) 기법에 의해 지배되고 있으며, 이는 명시적인 목적 함수의 정의와 긍정적·부정적 예시의 샘플링을 요구한다. 이러한 과정은 개념적이고 계산적인 부담을 동반한다. 반면에 다차원 척도법(Multidimensional Scaling, MDS)이나 라플라시안 고유맵(Laplacian eigenmap)과 같은 단순한 고전적인 비지도 학습 접근법은 번거로운 목적 함수 최적화 과정을 생략하고 데이터의 기하학적 구조를 직접 활용한다. 그러나 이러한 방법들은 행렬 고유분해와 같은 매우 비용이 큰 연산에 의존하기 때문에, 오늘날 디지털 세상에서 흔히 볼 수 있는 대규모 그래프에 확장하기 어렵다. 본 논문에서는 두 가지 장점을 결합한 Cleora 알고리즘을 제안한다. Cleora는 비지도 학습이면서도 매우 뛰어난 확장성을 갖추고 있으며, 예시 샘플링을 포함하는 전형적인 단계별 학습 프레임워크 없이도 높은 품질의 임베딩을 생성할 수 있음을 보여준다. 본 알고리즘의 직관적인 학습 목표는 노드가 자신의 이웃과 유사해야 한다는 것이며, 연결되지 않은 노드들을 명시적으로 멀리 밀어내는 과정은 필요 없다. 이 목표는 노드 이웃의 임베딩을 반복적으로 가중 평균한 후 차원별 정규화를 수행함으로써 달성된다. 평균화 연산 덕분에 알고리즘은 임베딩 공간에서 빠르게 전진하며, 일반적으로 몇 번의 반복만으로도 최적의 임베딩에 도달한다. Cleora는 다른 최신 CPU 기반 알고리즘보다 빠르게 동작하며, 링크 예측 및 노드 분류와 같은 후속 작업에서 경쟁 수준의 성능을 보인다. 우리는 Cleora가 대조 학습 방법과 유사한 데이터 추상화를 학습하지만, 훨씬 낮은 계산 비용으로 이를 달성할 수 있음을 입증한다. Cleora는 MIT 라이선스 하에 오픈소스로 공개되어 상용 사용이 가능하며, GitHub에서 https://github.com/Synerise/cleora 에서 확인할 수 있다.