2달 전

확산 언어 모델을 이용한 텍스트 안내 분자 생성

Haisong Gong; Qiang Liu; Shu Wu; Liang Wang
확산 언어 모델을 이용한 텍스트 안내 분자 생성
초록

텍스트 안내 분자 생성은 특정 텍스트 설명에 맞는 분자를 생성하는 작업입니다. 최근 대부분의 기존 SMILES 기반 분자 생성 방법은 자기 회귀 구조에 의존하고 있습니다. 본 연구에서는 이러한 자기 회귀 방법의 한계를 극복하기 위해 확산 모델을 활용한 새로운 접근 방식인 확산 언어 모델을 이용한 텍스트 안내 분자 생성(TGM-DLM)을 제안합니다. TGM-DLM은 두 단계의 확산 생성 과정을 사용하여 SMILES 문자열 내의 토큰 임베딩을 집합적이고 반복적으로 업데이트합니다. 첫 번째 단계에서는 랜덤 노이즈에서 시작하여 텍스트 설명에 의해 임베딩을 최적화하며, 두 번째 단계에서는 유효하지 않은 SMILES 문자열을 수정하여 유효한 분자 표현을 형성합니다. 우리는 TGM-DLM이 추가적인 데이터 리소스 없이 MolT5-Base라는 자기 회귀 모델보다 우수한 성능을 보임을 입증하였습니다. 이 결과는 TGM-DLM이 특정 특성을 가진 일관되고 정확한 분자를 생성하는 데 있어 뛰어난 효과를 갖음을 강조하며, 이는 약물 탐색 및 관련 과학 영역에서 새로운 가능성을 열어줍니다. 코드는 다음 링크에서 제공됩니다: https://github.com/Deno-V/tgm-dlm.

확산 언어 모델을 이용한 텍스트 안내 분자 생성 | 최신 연구 논문 | HyperAI초신경