ChemRL-GEM: 성질 예측을 위한 기하학적 강화 분자 표현 학습

분자 특성 예측은 약물 및 재료 산업의 기초적인 과제로서, 효과적인 분자 표현 학습 기법의 개발이 매우 중요하다. 최근 그래프 신경망(GNN)의 발전은 분자 표현 학습에 GNN을 적용하는 데 큰 잠재력을 보여주고 있다. 또한, 몇몇 최근 연구들은 라벨이 부족한 분자 데이터 문제를 해결하기 위해 GNN을 사전 학습시키는 자기지도 학습(self-supervised learning) 방법의 성공적인 적용을 보고한 바 있다. 그러나 기존의 GNN 및 사전 학습 전략들은 분자를 위상적 그래프 데이터로만 취급하여 분자의 기하학적 정보를 충분히 활용하지 못하고 있다. 반면, 분자의 세로(3D) 공간 구조, 즉 분자 기하학은 분자의 물리적·화학적·생물학적 특성을 결정짓는 가장 핵심적인 요소 중 하나이다. 이를 해결하기 위해 본 연구에서는 화학 표현 학습(ChemRL)을 위한 새로운 기하학적 강화 분자 표현 학습 방법(Geometry Enhanced Molecular representation learning, GEM)을 제안한다. 먼저, 분자 내 원자, 결합, 그리고 결합 각도를 동시에 모델링할 수 있는 기하학 기반 GNN 아키텍처를 설계하였다. 구체적으로, 분자에 대해 두 가지의 별도 그래프를 구성하였는데, 첫 번째 그래프는 원자-결합 관계를 인코딩하고, 두 번째 그래프는 결합-각도 관계를 인코딩한다. 또한, 제안된 GNN 아키텍처를 기반으로, 국소적 및 전역적 분자 3D 구조를 활용하여 공간 지식을 학습할 수 있는 여러 새로운 기하학 수준의 자기지도 학습 전략을 제안하였다. 다양한 분자 벤치마크에서 제안한 ChemRL-GEM을 최첨단(SOTA) 기준 모델들과 비교한 결과, 회귀 및 분류 과제 모두에서 기존 모든 기준 모델들을 뛰어넘는 성능을 보였다. 예를 들어, 회귀 과제에서 SOTA 기준 모델 대비 평균 8.8%의 성능 향상을 기록하며, 제안된 방법의 우수성을 입증하였다.