
초록
텍스트 안내 분자 생성은 특정 텍스트 설명에 맞는 분자를 생성하는 작업입니다. 최근 대부분의 기존 SMILES 기반 분자 생성 방법은 자기 회귀 구조에 의존하고 있습니다. 본 연구에서는 이러한 자기 회귀 방법의 한계를 극복하기 위해 확산 모델을 활용한 새로운 접근 방식인 확산 언어 모델을 이용한 텍스트 안내 분자 생성(TGM-DLM)을 제안합니다. TGM-DLM은 두 단계의 확산 생성 과정을 사용하여 SMILES 문자열 내의 토큰 임베딩을 집합적이고 반복적으로 업데이트합니다. 첫 번째 단계에서는 랜덤 노이즈에서 시작하여 텍스트 설명에 의해 임베딩을 최적화하며, 두 번째 단계에서는 유효하지 않은 SMILES 문자열을 수정하여 유효한 분자 표현을 형성합니다. 우리는 TGM-DLM이 추가적인 데이터 리소스 없이 MolT5-Base라는 자기 회귀 모델보다 우수한 성능을 보임을 입증하였습니다. 이 결과는 TGM-DLM이 특정 특성을 가진 일관되고 정확한 분자를 생성하는 데 있어 뛰어난 효과를 갖음을 강조하며, 이는 약물 탐색 및 관련 과학 영역에서 새로운 가능성을 열어줍니다. 코드는 다음 링크에서 제공됩니다: https://github.com/Deno-V/tgm-dlm.