2달 전

MolXPT: 분자에 텍스트를 감싸는 생성적 사전 학습 방법

Zequn Liu; Wei Zhang; Yingce Xia; Lijun Wu; Shufang Xie; Tao Qin; Ming Zhang; Tie-Yan Liu
MolXPT: 분자에 텍스트를 감싸는 생성적 사전 학습 방법
초록

Generative pre-trained Transformer (GPT)는 자연어 처리 분야에서 큰 성공을 거두었으며 관련 기술이 분자 모델링에 적용되었습니다. 과학적 발견의 가장 중요한 기록이 텍스트라는 점을 고려하여, 본 논문에서는 텍스트와 분자를 통합한 언어 모델인 MolXPT를 제안합니다. 이 모델은 분자의 시퀀스 표현인 SMILES(분자의 시퀀스 표현)를 텍스트로 감싸서 사전 학습됩니다. 간단히 말해, 각 시퀀스에서 분자 이름을 탐지하고 해당 SMILES로 대체합니다. 이렇게 하면 SMILES가 주변 텍스트의 정보를 활용할 수 있으며, 그 반대도 가능합니다. 위의 감싸진 시퀀스, PubMed에서 얻은 텍스트 시퀀스 및 PubChem에서 얻은 SMILES 시퀀스는 모두 언어 모델에 입력되어 사전 학습됩니다. 실험 결과, MolXPT는 MoleculeNet에서 강력한 기준모델보다 우수한 분자 특성 예측 성능을 보였으며, 파라미터 수가 절반 미만임에도 불구하고 최고 모델과 유사한 텍스트-분자 번역 성능을 보였습니다. 또한 fine-tuning 없이 zero-shot 분자 생성을 가능하게 합니다.

MolXPT: 분자에 텍스트를 감싸는 생성적 사전 학습 방법 | 최신 연구 논문 | HyperAI초신경