대규모 분자 데이터에 대한 자기지도 그래프 트랜스포머

분자의 정보적 표현을 얻는 것은 인공지능 기반의 약물 설계 및 발굴에서 핵심적인 전제 조건이다. 최근 연구들은 분자를 그래프로 추상화하고 그래프 신경망(GNN)을 활용하여 분자 표현 학습을 수행하고 있다. 그러나 GNN의 실제 적용을 방해하는 두 가지 문제점이 존재한다: (1) 감독 학습을 위한 레이블이 부족한 분자 데이터; (2) 새로운 합성 분자에 대한 일반화 능력이 낮음. 이러한 문제를 동시에 해결하기 위해, 우리는 새로운 프레임워크인 GROVER(Graph Representation frOm self-superVised mEssage passing tRansformer)를 제안한다. GROVER는 노드, 엣지, 그래프 수준에서 철저히 설계된 자기지도 학습(self-supervised) 작업을 통해 방대한 레이블 없는 분자 데이터로부터 분자의 풍부한 구조적 및 의미적 정보를 학습할 수 있다. 이러한 복잡한 정보를 효과적으로 인코딩하기 위해, GROVER는 메시지 전달 네트워크(Message Passing Networks)를 트랜스포머 스타일 아키텍처와 통합하여 더 표현력이 풍부한 분자 인코더를 제공한다. GROVER의 유연성 덕분에, 감독 신호 없이 대규모 분자 데이터셋에서 효율적으로 학습이 가능하며, 위에서 언급한 두 가지 문제로부터 자유로워질 수 있다. 우리는 1,000만 개의 레이블 없는 분자 데이터를 기반으로 1억 개의 파라미터를 가진 GROVER를 사전 학습시켰으며, 이는 분자 표현 학습 분야에서 가장 큰 GNN 모델이자 가장 큰 학습 데이터셋이다. 이후 사전 학습된 GROVER를 활용하여 분자 특성 예측을 수행하고, 특정 작업에 맞춰 미세 조정(fine-tuning)을 진행한 결과, 11개의 도전적인 벤치마크에서 기존 최고 수준의 방법 대비 평균 6% 이상의 성능 향상을 관측하였다. 본 연구를 통해 얻은 통찰은, 잘 설계된 자기지도 학습 손실 함수와 매우 표현력이 풍부한 사전 학습 모델이 성능 향상에 큰 잠재력을 지닌다는 점이다.