Uni-Mol: 일관된 3D 분자 표현 학습 프레임워크

분자 표현 학습(Molecular Representation Learning, MRL)은 약물 설계와 같은 응용 분야에서 제한된 감독 데이터로부터 효과적으로 학습할 수 있다는 점에서 큰 주목을 받고 있다. 대부분의 MRL 방법은 분자를 1차원 시퀀스 토큰 또는 2차원 위상 구조 그래프로 취급함으로써, 후속 작업에 3차원 정보를 통합하는 능력이 제한되며, 특히 3차원 기하 구조 예측 또는 생성은 거의 불가능에 가까워진다. 본 연구에서는 MRL 기법의 표현 능력과 응용 범위를 크게 확장하는 보편적 MRL 프레임워크인 Uni-Mol을 제안한다. Uni-Mol은 SE(3)-등변 변환기(Transformer) 아키텍처를 공유하는 두 개의 모델로 구성된다: 2억 900만 개의 분자 구형(conformation) 데이터로 훈련된 분자 사전학습 모델과, 300만 개의 후보 단백질 포켓 데이터로 훈련된 포켓 사전학습 모델이다. 이 두 모델은 각각 독립적으로 별도의 작업에 사용되며, 단백질-리간드 결합 작업에서 함께 통합되어 활용된다. 적절한 3차원 정보 통합을 통해 Uni-Mol은 15개 분자 특성 예측 작업 중 14개에서 최신 기술(SOTA)을 초월하는 성능을 보였다. 더불어, 단백질-리간드 결합 자세 예측, 분자 구형 생성 등 3차원 공간 작업에서도 뛰어난 성능을 달성하였다. 마지막으로, 포켓 약물 가능성 예측과 같이 소수의 샘플 데이터를 가진 작업에도 Uni-Mol이 성공적으로 적용될 수 있음을 보였다. 본 모델과 데이터는 공개적으로 https://github.com/dptech-corp/Uni-Mol 에서 제공될 예정이다.