18일 전

DiffMS: 질량 분광도 조건 하에서의 확산 기반 분자 생성

Montgomery Bohde, Mrunali Manjrekar, Runzhong Wang, Shuiwang Ji, Connor W. Coley
DiffMS: 질량 분광도 조건 하에서의 확산 기반 분자 생성
초록

질량분석은 미지 분자의 구조를 규명하고 이후 과학적 발견을 이끌어내는 데 핵심적인 역할을 한다. 구조 규명 과제의 하나는 질량스펙트럼을 기반으로 조건부로 새로운 분자 구조를 생성하는 것으로, 저분자에 대한 보다 정확하고 효율적인 과학적 발견 파이프라인을 구축하기 위해, 본 연구에서는 이 과제에서 최고 수준의 성능을 달성하는 공식 제약형 인코더-디코더 생성 네트워크인 DiffMS를 제안한다. 인코더는 트랜스포머 아키텍처를 활용하여 피크 화학식과 중성 손실과 같은 질량스펙트럼 도메인 지식을 모델링하고, 디코더는 알려진 화학식의 무거운 원자 구성에 의해 제약된 이산 그래프 확산 모델이다. 잠재 표현과 분자 구조 사이를 효과적으로 연결할 수 있는 강력한 디코더를 개발하기 위해, 구조-스펙트럼 쌍이 수천 개 수준에 불과한 반면, 지문-구조 쌍은 거의 무한한 양으로 존재하므로, DiffMS는 이러한 지문-구조 쌍을 이용해 사전 훈련된 확산 디코더를 설계하였다. 기존 벤치마크에서 실시한 광범위한 실험 결과는 DiffMS가 기존 모델보다 새로운 분자 생성 성능에서 뛰어남을 보여주었다. 다양한 아블레이션 실험을 통해 확산 및 사전 훈련 전략의 효과를 입증하였으며, 사전 훈련 데이터셋 크기가 증가함에 따라 성능이 일관되게 향상됨을 확인하였다. DiffMS의 코드는 공개적으로 https://github.com/coleygroup/DiffMS 에서 제공된다.

DiffMS: 질량 분광도 조건 하에서의 확산 기반 분자 생성 | 최신 연구 논문 | HyperAI초신경