HyperAIHyperAI

Command Palette

Search for a command to run...

예일대학교는 2,000명 이상의 AI 화학 전문가 팀을 구성하여 효율적인 전문화와 최적의 합성 경로 식별을 가능하게 하는 MOSAIC 프로젝트를 제안했습니다.

Featured Image

현대 합성화학은 지식의 급속한 축적과 그 응용 및 변환의 효율성 사이에서 두드러진 모순에 직면해 있습니다. 매년 수십만 편의 관련 논문이 발표되고 있으며, 활용 가능한 합성 지식의 총량은 수백만 건에 달합니다. 그러나 이러한 지식의 대부분은 비정형 텍스트 형태로 여러 데이터베이스에 흩어져 있어 단편화되어 있습니다. 전통적인 문헌 검색 및 수동 검토 방식은 시간과 노력이 많이 소요될 뿐만 아니라, 다양한 분야의 반응 유형을 체계적으로 다루기 어렵습니다. 결과적으로 문헌에 숨겨진 방대한 양의 귀중한 정보가 추출되어 실행 가능한 실험 프로토콜로 변환되는 데 어려움을 겪고 있습니다.

이러한 지식 관리의 딜레마에 직면하여, 합성 연구의 핵심 요구 사항은 높은 재현성을 갖춘 완전한 실험 절차를 효율적으로 얻는 방법에 점점 더 집중되고 있습니다. 이러한 절차에는 시약 선택, 화학량론 제어, 온도 프로그래밍 및 후처리 단계와 같은 여러 핵심 매개변수가 포함됩니다.

현재,이 분야의 발전은 주로 두 가지 측면에 의해 제한됩니다.첫째, 전문가의 경험만으로는 끊임없이 확장되는 반응 공간을 모두 포괄하기 어려워 학제 간 합성 작업에서 시행착오 비용이 많이 발생하는 경우가 많습니다. 둘째, 인공지능이 빠르게 발전하고 있음에도 불구하고, 화학 분야에서 범용 모델을 적용하는 데에는 여전히 신뢰성 부족, '착각'에 대한 취약성, 신뢰도 평가의 부재 등의 문제가 있어 실험 수준의 정밀도 요구 사항을 충족하지 못하고 있습니다. 따라서 방대하고 파편화된 화학 지식을 구조화되고 신뢰할 수 있는 합성 지침으로 변환하는 것이 화학 분야의 효율성 병목 현상을 극복하는 데 매우 중요해졌습니다.

이러한 맥락에서,예일대학교의 한 연구팀은 최근 일반화된 대규모 언어 모델을 수많은 전문 화학 전문가로 구성된 협업 시스템으로 변환하는 MOSAIC 모델을 제안했습니다.전문적인 분업을 통해 모델의 허상을 효과적으로 억제함으로써 정량화 가능한 불확실성 평가를 제공하고, 반응 설명에서 완전한 실험 프로토콜에 이르기까지 체계적인 생성을 실현하여 신약 개발 및 재료 개발과 같은 분야의 과학 연구 효율성을 크게 향상시킬 것으로 기대된다.

"인공지능 기반 화학 합성을 위한 집단 지능"이라는 제목의 관련 연구 결과가 네이처(Nature)에 게재되었습니다.

서류 주소:
https://www.nature.com/articles/s41586-026-10131-4
저희 공식 위챗 계정을 팔로우하고 백그라운드에서 "MOSAIC"이라고 답장하시면 전체 PDF 파일을 받으실 수 있습니다.

더 많은 AI 프런티어 논문: 

https://hyper.ai/papers

피스타치오 데이터베이스를 기반으로 각자의 강점을 가진 "AI 화학 전문가"를 구축할 것입니다.

본 연구는 주로 전 세계 특허 문헌에서 수집된 화학 반응에 대한 고도로 구조화된 상업용 지식 기반인 피스타치오 데이터베이스를 활용하여 수행되었습니다. 이 데이터베이스는 특허에 기록된 반응물, 생성물, 시약, 용매, 수율 및 주요 단계에 대한 텍스트 설명을 체계적으로 추출하고 표준화하여, 이러한 설명을 기계가 읽을 수 있는 형식(예: "SMILES" 문자열)으로 균일하게 인코딩합니다.연구팀은 전체 데이터 세트를 직접 사용하는 대신 엄격한 품질 선별 과정을 수행했습니다. 핵심 기준은 반응 기록에 실험 절차에 대한 상세하고 실행 가능한 설명이 포함되어야 한다는 것이었습니다.단순히 반응물과 생성물 사이의 매핑 관계만을 학습하는 것이 아니라, 이러한 접근 방식은 훈련 중인 모델이 "반응 결과가 무엇인지"뿐만 아니라 "반응을 어떻게 달성하는지"까지 학습하도록 보장합니다.

필터링된 데이터는 특수 설계된 커널 메트릭 네트워크를 통해 128차원 반응별 지문으로 변환되었습니다. 이러한 디지털 표현은 화학 반응의 핵심적인 변환 특성을 포착하는 것을 목표로 하며, 모든 지문 벡터는 함께 방대한 화학 지식 공간을 나타내는 "반응 우주"를 구성합니다. 이 벡터 공간을 기반으로, 본 연구에서는 비지도 학습 방식인 보로노이 클러스터링 알고리즘(FAISS 라이브러리 사용)을 적용하여 이를 2,489개의 겹치지 않는 특화된 영역으로 나누었습니다. 각 영역은 화학적 특성이 매우 유사한 반응 유형들을 클러스터링합니다.

궁극적으로 각 보로노이 영역 내의 응답 텍스트는 전용 Llama-3.1-8B-Instruct 모델을 독립적으로 미세 조정하는 데 사용되었습니다.그 결과, 각기 다른 강점을 가진 2,489명의 "AI 화학 전문가"가 탄생했습니다.MOSAIC 프레임워크 전체의 지식 범위와 기능 한계는 근본적으로 특허 중심의 학습 데이터 세트에 의해 결정됩니다. 이는 또한 광화학처럼 빠르게 발전하는 일부 첨단 분야에서 시스템 성능이 상대적으로 제한적인 이유를 설명해 줍니다. 이러한 분야의 내용은 기존 특허 데이터베이스에 아직 완전히 포함되어 있지 않기 때문입니다.

MOSAIC: 다수의 전문 화학 전문가로 구성된 분산형 협업 시스템.

MOSAIC 모델의 핵심 설계 아이디어는 범용 대형 언어 모델인 Llama-3.1-8B-instruct를 다수의 전문 화학 전문가로 구성된 분산형 협업 시스템으로 변환하는 것입니다.이 탐색 중심 아키텍처는 하드웨어 자원 요구량을 크게 줄여, 대규모 컴퓨팅 클러스터에 의존하지 않고 특정 작업 하위 집합을 학습하는 데 필요한 컴퓨팅 구성(예: GPU 4개)만으로도 충분합니다. 이 시스템은 전문가 분업 메커니즘을 통해 모델의 왜곡 현상을 효과적으로 억제하고 정량화 가능한 불확실성 평가를 제공하며, 전체 시스템을 재학습하지 않고도 새로운 전문가를 동적으로 추가할 수 있도록 지원하여 유연성과 지속 가능성 측면에서 상당한 이점을 보여줍니다.

모자이크 모델 디자인 컨셉

대규모 데이터셋을 학습할 때 대형 언어 모델이 직면하는 계산 및 조정 병목 현상을 극복하기 위해 MOSAIC은 세 가지 단계적 구성 요소로 구축되었습니다.

응답 유사도 측정:

본 연구에서는 화학 반응 간의 유사성을 정량화하기 위해 신경망 기반 비선형 매핑(커널 메트릭 네트워크, KMN)을 설계했습니다. 이 방법은 SMILES로 인코딩된 반응을 128차원 반응 특이적 지문(RSFP)으로 변환하고, 유클리드 거리를 이용하여 반응 범주 간의 관계를 근사화함으로써 반응의 핵심적인 변환 특징을 포착합니다.

지식 공간 클러스터링:

FAISS 라이브러리의 효율적인 인덱싱 기능을 활용하여 RSFP 벡터 공간에 대해 비지도 보로노이 클러스터링을 수행하고, 화학적 특성이 고도로 밀집된 2,498개의 특수 영역으로 자동 분할합니다. 각 영역은 특정 화학 지식 영역을 나타냅니다.

분야별 전문가 양성 교육:

각 반응 데이터 클러스터에 대해 전용 전문가 모델이 독립적으로 미세 조정됩니다. 본 연구는 2단계 훈련 전략을 사용합니다. 먼저 기본 모델을 전체 데이터셋으로 미세 조정하고, 그 다음 각 클러스터의 데이터를 활용하여 해당 전문가의 도메인 지식을 심화시킵니다. 이를 통해 전문가들은 화학에 대한 전반적인 이해를 유지하면서도 심도 있는 전문 지식을 보유할 수 있습니다.

MOSAIC은 먼저 질의 반응을 RSFP 형식으로 인코딩한 다음 FAISS를 사용하여 해당 보로노이 영역과 전문가를 신속하게 찾습니다. 예를 들어, 염화방향족 탄화수소의 부흐발트-하르트비히 커플링 반응의 경우, 시스템은 해당 분야의 전문가에게 문의하여 완전하고 읽기 쉬운 합성 절차를 생성합니다.실험적 검증 결과, 절차를 정확히 따르면 목표 생성물을 96%의 수율로 얻을 수 있는 것으로 나타났습니다.

MOSAIC은 94.81%의 TP3T 구성 요소 커버리지와 711%의 TP3T 합성 성공률을 달성했습니다.

본 연구는 다차원 평가 시스템을 통해 MOSAIC 모델의 종합적인 성능을 더욱 검증했습니다. 이 모델의 핵심 가치는 방대한 문헌 지식을 신뢰도 높은 합성 지능으로 변환하는 데 있습니다.

수확량 예측 및 핵심 구성 요소 식별 측면에서MOSAIC 모델은 실험 절차 전체 텍스트를 분석하여 반응 수율을 정량적으로 예측합니다. 아래 그림에서 볼 수 있듯이, 구간화 전략을 적용한 후 예측 구간의 중심값이 실제 수율의 중앙값과 유의미한 상관관계(R² = 0.811)를 보였습니다. 이 모델은 주요 반응 구성 요소(시약, 용매)를 식별하는 데 탁월한 성능을 보여줍니다.상위 3명의 전문가 예측을 통합한 결과, 적어도 일부 구성 요소를 정확하게 식별한 전체 성공률은 94.8%에 달합니다.예측 조건이 문헌 기록과 완전히 일치하지 않더라도, 그 결과는 종종 화학적으로 실현 가능한 대안이며, 이는 전문가의 깊이 있는 판단을 반영한다는 점에 주목할 필요가 있습니다.

모자이크 수확량 예측 분석

아래 그림에서 볼 수 있듯이, 12가지 주요 반응(스즈키 커플링, 부흐발트-하르트비히 아민화 등)에 대한 비교 테스트에서 MOSAIC은 ChatGPT-4o 및 Claude 3.5와 같은 범용 모델보다 명확하고 실현 가능한 합성 지침을 제공하는 데 있어 일관되게 우수한 성능을 보였습니다. 이러한 장점은 모델의 매개변수가 80억 개에 불과하다는 점을 고려할 때 특히 두드러지며, 도메인별 미세 조정의 효과를 입증합니다. 더욱 중요한 것은,MOSAIC은 불안정한 명령 준수 및 임의적인 응답과 같은 화학 작업에서 일반 모델이 흔히 보이는 문제점을 극복하고 안정적이고 신뢰할 수 있는 출력을 제공합니다.이는 실제 실험에 매우 중요합니다.

MOSAIC과 일반 LLM 비교

본 연구에서는 제안된 프레임워크의 실용성, 다용성 및 신뢰성을 평가하기 위해 현대 화학 합성의 기본 반응에 대한 정확하고 높은 수준의 예측을 수행함으로써 광범위한 실험적 검증을 진행했습니다. 연구진은 의약품 및 소재 개발에 중요한 광범위하게 적용 가능한 촉매 반응에 초점을 맞추었습니다. 부흐발트-하르트비히 아민화 반응에 의해 형성되는 탄소-질소 결합은 의약품 분자에서 흔히 발견되며, 이러한 까다로운 반응의 조건을 정확하게 예측했습니다. 의약품 등급의 골격 구조를 효율적으로 합성하여 천연물에서 기능성 소재에 이르기까지 다양한 응용 분야에 중요한 올레핀 변환 반응에서 특히 우수한 성능을 보여주었습니다.

더욱이, MOSAIC 모델의 실용성은 수많은 새로운 화합물의 성공적인 합성을 통해 강력하게 입증되었습니다.합성된 37개의 목표 화합물 중 35개가 모델의 첫 번째 권장 사항에 따라 성공적으로 합성되었으며, 전체 성공률은 71%였습니다.검증 범위는 고전적인 커플링 반응부터 선택적 변환에 이르기까지 모든 것을 포괄하며, 새로운 아자인돌 고리화 방법 개발을 안내하는 능력을 보여주는 혁신적인 사례 연구를 포함합니다.

무엇보다 중요한 것은 모델 내의 신뢰도 지수(가장 가까운 전문가 중심점과의 거리)가 실험 성공률과 명확한 양의 상관관계를 보인다는 점입니다. 즉, 신뢰도가 높은 예측(거리 < 100)의 성공률은 75%를 초과합니다. 이는 화학자들에게 귀중한 정량적 의사결정 지원을 제공하여 성공률이 높은 목표와 탐색적 시도 사이에 자원을 효과적으로 배분할 수 있도록 해줍니다.

화학 합성, 정밀 지능형 제조라는 새로운 시대로 진입

지능형 화학 합성을 촉진하는 세계적인 과정에서 학계와 산업계는 분자 발견에서 공정 생산에 이르는 전체 과정을 재편하기 위해 상호 보완적인 방향으로 협력하고 있습니다.

대학 연구는 미지의 영역을 개척하는 탐험과 같으며, 기초 컴퓨팅의 한계를 극복하고 과학 연구 패러다임을 혁신하는 데 중점을 둡니다.MIT 연구진은 이미지 생성에 사용되는 "확산 모델"을 화학 반응 분야에 교묘하게 적용했습니다.이 기술은 핵심 "전이 상태" 구조의 초고속 계산을 구현하여 일반적으로 며칠이 걸리는 작업을 몇 초로 단축하고, 0.08옹스트롬의 원자 수준 정밀도로 반응 예측에 대한 전례 없는 미시적 통찰력을 제공합니다.

한편, 스탠퍼드 대학교 연구팀은 연구 수행 방식 자체를 재편하는 데 전념하고 있습니다.이 시스템은 인공지능 기반의 "가상 연구실"을 구축하여 다학제적 가상 팀을 자율적으로 구성할 수 있도록 합니다.'선도 연구자 AI'의 지휘 하에 협업과 토론이 순식간에 이루어져 백신 설계와 같은 복잡한 주제에 대한 기존 접근 방식을 뛰어넘는 혁신적인 아이디어가 도출됩니다. 나아가 하버드 대학교와 같은 기관의 연구는 인공지능의 시뮬레이션 능력을 거시적 규모로 끌어올렸습니다. 이들이 제안한 통합 프레임워크는 수백만 개의 원자를 포함하는 복잡한 강유전체 물질의 정밀한 시뮬레이션을 성공적으로 구현하여 차세대 기능성 소재를 근본적으로 설계하는 데 강력한 디지털 도구를 제공합니다.

학계의 개척 정신과 비교했을 때, 기업 혁신은 최첨단 알고리즘을 생산성과 시장 경쟁력으로 전환하여 실제 문제점을 해결하는 데 더 집중합니다. 독일의 화학 대기업 BASF는 AI를 전 세계적으로 도입하여 연구 개발을 지원하는 "AI 화학자 보조 시스템"뿐만 아니라...60%는 신소재 개발 주기를 크게 단축시켰습니다.더 나아가, AI는 생산 최적화, 물류 계획 및 예측 유지보수에 깊이 통합되어 연구실에서 공장에 이르는 전체 가치 사슬에서 효율성 향상을 달성합니다.

제약 분야에서 스위스에 본사를 둔 노바티스와 같은 기업들은 인공지능(AI)을 "전 과정"에 걸쳐 적극적으로 도입하고 있습니다. 아이소모픽 랩스(Isomorphic Labs)와 슈뢰딩거(Schrödinger) 같은 전문 기업들과의 긴밀한 협력을 통해 새로운 표적 발굴, 화합물 생성, 안전성 예측부터 임상시험 설계 최적화에 이르기까지 모든 핵심 단계에 인공지능을 적용하여 신약 개발의 확실성과 성공률을 크게 향상시키고 있습니다.

학계와 산업계를 아우르는 이러한 획기적인 발전들을 살펴보면, 과거에는 개인적인 경험과 반복적인 시행착오에 크게 의존했던 전통적인 학문 분야인 화학 연구가 데이터와 알고리즘에 의해 근본적으로 재편되고 있으며, 예측 가능하고 계획 가능하며 자동화된 정밀 과학의 새로운 시대로 꾸준히 나아가고 있음을 알 수 있습니다. 질병을 정복하는 혁신적인 의약품부터 지속 가능한 발전에 기여하는 친환경 소재에 이르기까지, 이러한 광범위한 지능형 화학 합성의 변화는 우리 시대의 가장 시급한 과제들을 해결하는 데 도움이 될 전례 없는 핵심 역량을 구축하고 있습니다.

참고문헌:
1.http://edu.people.com.cn/n1/2025/0730/c1006-40532541.html
2.https://cen.acs.org/pharmaceuticals/drug-development/Q-Novartiss-biomedical-research-head/103/web/2025/01