4달 전
테라스케일 질량분광계 데이터를 활용한 기계학습 기반 유기 반응 발견
Konstantin S. Kozlov, Daniil A. Boiko, Julia V. Burykina, Valentina V. Ilyushenkova, Alexander Y. Kostyukovich, Ekaterina D. Patil, Valentine P. Ananikov

초록
과학계가 대규모 데이터셋을 축적함에 따라 전통적인 처리 방법의 용량을 초과하였으며, 이는 기존 실험 데이터를 탐색할 수 있는 혁신적이고 효율적인 알고리즘의 중요성을 강조하고 있습니다. 이러한 도전에 대응하기 위해, 본 연구에서는 테라스케일 고해상도 질량분석(HRMS) 데이터 분석을 위한 머신 러닝(ML) 기반 검색 엔진을 소개합니다. 이 엔진은 새로운 동위원소 분포 중심 검색 알고리즘과 두 개의 상호 보완적인 ML 모델을 활용하여 지금까지 알려지지 않았던 화학 반응의 발견을 돕습니다. 이 방법론은 기존 데이터를 철저히 조사하여 화학 가설을 효과적으로 지원하면서 추가 실험의 필요성을 줄이는 역할을 합니다. 또한, 우리는 자동화된 반응 가설 생성을 위한 기본 방법들을 확장하였습니다. 실제 검증에서 본 접근법은 여러 반응들을 성공적으로 식별하였으며, 이전에 설명되지 않았던 변환 과정들을 밝혀냈습니다. 그 중에서도 Mizoroki-Heck 반응 내에서 발생하는 헤테로사이클-비닐 결합 과정이 두드러지게 나타나며, 이는 엔진이 복잡한 화학 현상을 해명할 수 있는 능력을 입증하고 있습니다.