2달 전

두 가지 시점의 분자 사전 학습

Jinhua Zhu; Yingce Xia; Tao Qin; Wengang Zhou; Houqiang Li; Tie-Yan Liu
두 가지 시점의 분자 사전 학습
초록

자연어 처리와 컴퓨터 비전에서의 성공에 영감을 받아, 사전 학습(pre-training)은 화학 정보학(cheminformatics)과 생물 정보학(bioinformatics) 분야, 특히 분자 기반 작업에서 많은 관심을 받고 있습니다. 분자는 원자가 결합으로 연결된 그래프(graph) 형태나 깊이 우선 탐색(depth-first-search)을 특정 규칙에 따라 적용한 SMILES 시퀀스(sequence) 형태로 표현될 수 있습니다. 기존의 분자 사전 학습 연구들은 그래프 표현만 또는 SMILES 표현만을 사용하였습니다. 본 연구에서는 두 가지 표현 방식을 모두 활용하여, 두 가지 유형의 분자 표현의 강점을 효과적으로 결합할 수 있는 새로운 사전 학습 알고리즘인 이중 시점 분자 사전 학습(dual-view molecule pre-training, 이하 DMP)을 제안합니다. DMP 모델은 두 개의 브랜치로 구성되며, 하나는 분자의 SMILES 시퀀스를 입력으로 받는 트랜스포머(Transformer) 브랜치이고, 다른 하나는 분자 그래프를 입력으로 받는 그래프 신경망(GNN, Graph Neural Network) 브랜치입니다. DMP의 학습 과정은 세 가지 작업으로 이루어져 있습니다: (1) 트랜스포머 브랜치를 통해 SMILES 시퀀스에서 마스크된 토큰(masked tokens)을 예측하는 작업, (2) 그래프 신경망 브랜치를 통해 분자 그래프에서 마스크된 원자를 예측하는 작업, 그리고 (3) 트랜스포머와 그래프 신경망 브랜치가 각각 출력하는 고차원 표현(high-level representations) 간의 일관성을 최대화하는 작업입니다. 사전 학습 후에는 경험적 결과에 따라 트랜스포머 브랜치(이것이 추천됩니다), 그래프 신경망 브랜치, 또는 두 가지 모두를 다운스트림 작업(downstream tasks)에 사용할 수 있습니다. DMP는 9개의 분자 특성 예측 작업(molecular property prediction tasks)에서 테스트되었으며, 그 중 7개에서 최신 성능(state-of-the-art performances)을 달성하였습니다. 또한 DMP는 3개의 역합성(retrosynthesis) 작업에서도 테스트되어 최신 결과(state-of-the-art results)를 얻었습니다.

두 가지 시점의 분자 사전 학습 | 최신 연구 논문 | HyperAI초신경