메시지 전달 없이 Transformer에서의 그래프 인덕티브 바이어스

그래프 데이터를 위한 트랜스포머는 다양한 학습 과제에서 점점 더 널리 연구되고 있으며 뛰어난 성과를 거두고 있다. 그래프 트랜스포머의 성능을 높이기 위해 그래프에 대한 인덕티브 바이어스(유도 편향)가 핵심적인 역할을 한다. 기존의 연구들은 메시지 전달(message-passing) 모듈과/또는 위치 인코딩을 활용하여 이러한 인덕티브 바이어스를 도입해왔다. 그러나 메시지 전달을 사용하는 그래프 트랜스포머는 메시지 전달 기법에 내재된 기존의 문제들을 그대로 계승하며, 다른 분야에서 사용되는 트랜스포머와는 본질적으로 다르기 때문에 연구 성과의 전이가 어려운 문제가 있다. 반면, 메시지 전달을 사용하지 않는 그래프 트랜스포머는 일반적으로 작은 데이터셋에서 성능이 낮은 편이며, 이는 인덕티브 바이어스가 더욱 중요하게 작용하는 상황에서 특히 문제가 된다. 이러한 격차를 해소하기 위해, 우리는 메시지 전달 없이 그래프 인덕티브 바이어스를 효과적으로 통합할 수 있는 새로운 그래프 트랜스포머인 그래프 인덕티브 바이어스 트랜스포머(Graph Inductive bias Transformer, GRIT)를 제안한다. GRIT은 이론적 및 실험적 근거를 바탕으로 설계된 여러 아키텍처적 개선을 포함한다. 구체적으로는: 무작위 보행 확률로 초기화된 학습 가능한 상대적 위치 인코딩, 노드 및 노드 쌍 표현을 동적으로 업데이트하는 유연한 어텐션 메커니즘, 각 계층에 차수(degree) 정보를 주입하는 방식이 포함된다. 우리는 GRIT이 표현력이 뛰어나다는 것을 증명하였으며, 이는 최단 경로 거리와 다양한 그래프 전파 행렬을 정확히 표현할 수 있음을 의미한다. 다양한 그래프 데이터셋에서 GRIT은 최신 기준(SOTA) 수준의 실증적 성능을 달성하며, 메시지 전달을 사용하지 않는 그래프 트랜스포머가 얼마나 강력한 성능을 발휘할 수 있는지를 입증한다.