17일 전

그래프 인포클러스트: 비지도 그래프 표현 학습을 위한 클러스터 수준의 노드 정보 활용

Costas Mavromatis, George Karypis
그래프 인포클러스트: 비지도 그래프 표현 학습을 위한 클러스터 수준의 노드 정보 활용
초록

비지도(또는 자기지도형) 그래프 표현 학습은 외부 지도 정보가 제공되지 않는 상황에서 다양한 그래프 데이터 마이닝 작업을 촉진하는 데 필수적이다. 이 과제의 핵심은 그래프 구조 및 노드와 엣지에 부여된 특성 정보를 저차원 공간에 효과적으로 인코딩하는 것이다. 기존의 대부분의 비지도 방법은 위상적으로 근접한 노드들 간의 표현을 유사하게 만드는 방식을 채택한다. 최근 연구에서는, 모든 노드에 공유되는 그래프 수준의 정보(예: 전역적 특성)를 활용하면 노드 표현이 그래프의 전반적인 특성을 더 잘 반영하게 되어 표현의 품질이 크게 향상됨을 보여주었다. 그러나 대부분의 그래프에서는 이러한 전역적 정보 외에도 더 많은 구조적 패턴이 존재한다. 예를 들어, 노드들은 구조적으로 유사한 특성을 가진 여러 클러스터에 속하게 되는 경향이 있다. 이러한 관찰에 착안하여, 본 연구는 클러스터 수준의 정보를 추가로 캡처하는 그래프 표현 학습 방법인 Graph InfoClust(GIC)를 제안한다. GIC는 미분 가능한 K-means 알고리즘을 활용해 클러스터를 계산하고, 동일 클러스터 내 노드 간의 상호정보량(mutual information)을 최대화함으로써 클러스터와 노드 표현을 함께 최적화한다. 이 최적화 과정은 노드 표현이 보다 풍부한 정보와 노드 간 상호작용을 포착하게 하여 표현의 품질을 향상시킨다. 실험 결과, GIC는 노드 분류, 링크 예측, 노드 클러스터링 등 다양한 하류 작업에서 기존 최고 수준의 방법들을 평균 0.9%에서 6.1%까지 우수한 성능으로 초월함을 입증하였다.