9일 전

SELFormer: SELFIES 언어 모델을 통한 분자 표현 학습

Atakan Yüksel, Erva Ulusoy, Atabey Ünlü, Tunca Doğan
SELFormer: SELFIES 언어 모델을 통한 분자 표현 학습
초록

광범위한 화학 공간에 대한 자동화된 계산적 분석은 약물 탐색 및 재료 과학과 같은 다양한 연구 분야에서 핵심적인 역할을 한다. 최근 대표적인 접근법으로는 복잡한 데이터를 효율적이고 정보적인 수치 표현으로 변환하기 위한 표현 학습 기법이 활용되고 있다. 분자 표현을 효과적으로 학습하기 위한 한 가지 방법은 화학 물질의 문자열 기반 표기법을 자연어 처리(NLP) 알고리즘을 통해 처리하는 것이다. 기존에 제안된 대부분의 방법들은 SMILES 표기법을 주로 사용해 왔지만, SMILES는 유효성과 견고성 측면에서 여러 문제를 가지고 있어, 데이터 내 숨겨진 지식을 효과적으로 탐색하는 데 장애가 될 수 있다. 본 연구에서는 이러한 문제를 해결하기 위해, 100% 유효하고 컴팩트하며 표현력이 풍부한 표기법인 SELFIES를 입력으로 사용하는 Transformer 아키텍처 기반의 화학 언어 모델인 SELFormer을 제안한다. SELFormer은 유사 약물 200만 개의 화합물로 사전 훈련된 후, 다양한 분자 성질 예측 작업에 대해 미세 조정(fine-tuning)을 수행한다. 성능 평가 결과, SELFormer은 그래프 학습 기반 접근법과 SMILES 기반 화학 언어 모델을 포함한 모든 경쟁 모델을 상회하며, 분자의 수용성 및 약물 부작용 예측에서 뛰어난 성능을 보였다. 또한 차원 축소 기법을 활용해 SELFormer이 학습한 분자 표현을 시각화한 결과, 사전 훈련된 모델만으로도 구조적 특성이 다른 분자를 구분할 수 있음을 확인하였다. 본 연구에서는 SELFormer 소프트웨어 도구와 함께 데이터셋 및 사전 훈련된 모델을 공개하였다. 종합적으로 본 연구는 화학 언어 모델링의 맥락에서 SELFIES 표기법의 우수성을 입증하며, 원하는 특성을 가진 새로운 약물 후보물질의 설계 및 탐색에 새로운 가능성을 열어준다.

SELFormer: SELFIES 언어 모델을 통한 분자 표현 학습 | 최신 연구 논문 | HyperAI초신경