MADGEN: 질량분석이 de novo 분자 생성에 주목하다

MS/MS 스펙트럼의 주석화(구조적 화학적 동일성 할당)는 생물학적 샘플에서의 엄청난 분자 다양성과 참고 데이터베이스의 제한된 범위로 인해 여전히 중요한 과제입니다. 현재 대부분의 스펙트럼 측정값은 구조적 주석 없이 "어두운 화학 공간"에 남아 있습니다. 이 문제를 개선하기 위해, 우리는 MADGEN (Mass-spec Attends to De Novo Molecular GENeration)을 제안합니다. MADGEN은 질량 분광계 데이터에 의해 안내되는 스캐폴드 기반의 새로운 분자 구조 생성 방법입니다.MADGEN은 두 단계로 작동합니다: 스캐폴드 검색 및 스캐폴드를 시작으로 하는 스펙트럼 조건부 분자 생성. 첫 번째 단계에서는 MS/MS 스펙트럼이 주어지면, 스캐폴드 검색을 순위 결정 문제로 정식화하고 대조 학습을 사용하여 질량 스펙트럼과 후보 스캐폴드를 일치시킵니다. 두 번째 단계에서는 검색된 스캐폴드에서 출발하여, MS/MS 스펙트럼을 사용하여 주목 기반 생성 모델을 안내하여 최종 분자를 생성합니다.우리의 접근 방식은 분자 생성 탐색 공간을 제약하여 그 복잡성을 줄이고 생성 정확도를 향상시키는 역할을 합니다. 우리는 NIST23, CANOPUS, 그리고 MassSpecGym 세 가지 데이터셋에서 MADGEN을 평가하였으며, 예측 스캐폴드 검색기와 오라클 검색기를 사용하여 MADGEN의 성능을 평가하였습니다. 우리는 주목 메커니즘을 통해 생성 과정 전반에 걸쳐 스펙트럼 정보를 통합하는 것이 오라클 검색기와 함께 강력한 결과를 달성하는 데 효과적임을 입증하였습니다.