9일 전

대규모 분자 데이터에 대한 자기지도 그래프 트랜스포머

Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, Junzhou Huang
대규모 분자 데이터에 대한 자기지도 그래프 트랜스포머
초록

분자의 정보적 표현을 얻는 것은 인공지능 기반의 약물 설계 및 발굴에서 핵심적인 전제 조건이다. 최근 연구들은 분자를 그래프로 추상화하고 그래프 신경망(GNN)을 활용하여 분자 표현 학습을 수행하고 있다. 그러나 GNN의 실제 적용을 방해하는 두 가지 문제점이 존재한다: (1) 감독 학습을 위한 레이블이 부족한 분자 데이터; (2) 새로운 합성 분자에 대한 일반화 능력이 낮음. 이러한 문제를 동시에 해결하기 위해, 우리는 새로운 프레임워크인 GROVER(Graph Representation frOm self-superVised mEssage passing tRansformer)를 제안한다. GROVER는 노드, 엣지, 그래프 수준에서 철저히 설계된 자기지도 학습(self-supervised) 작업을 통해 방대한 레이블 없는 분자 데이터로부터 분자의 풍부한 구조적 및 의미적 정보를 학습할 수 있다. 이러한 복잡한 정보를 효과적으로 인코딩하기 위해, GROVER는 메시지 전달 네트워크(Message Passing Networks)를 트랜스포머 스타일 아키텍처와 통합하여 더 표현력이 풍부한 분자 인코더를 제공한다. GROVER의 유연성 덕분에, 감독 신호 없이 대규모 분자 데이터셋에서 효율적으로 학습이 가능하며, 위에서 언급한 두 가지 문제로부터 자유로워질 수 있다. 우리는 1,000만 개의 레이블 없는 분자 데이터를 기반으로 1억 개의 파라미터를 가진 GROVER를 사전 학습시켰으며, 이는 분자 표현 학습 분야에서 가장 큰 GNN 모델이자 가장 큰 학습 데이터셋이다. 이후 사전 학습된 GROVER를 활용하여 분자 특성 예측을 수행하고, 특정 작업에 맞춰 미세 조정(fine-tuning)을 진행한 결과, 11개의 도전적인 벤치마크에서 기존 최고 수준의 방법 대비 평균 6% 이상의 성능 향상을 관측하였다. 본 연구를 통해 얻은 통찰은, 잘 설계된 자기지도 학습 손실 함수와 매우 표현력이 풍부한 사전 학습 모델이 성능 향상에 큰 잠재력을 지닌다는 점이다.