Command Palette

Search for a command to run...

MOF-ChemUnity는 9,874개의 논문에서 15,000개의 결정 구조에 이르기까지 MOF에 대한 광범위한 지식을 재구성하여 "해석 가능한 AI" 시대로 소재 발견을 앞당깁니다.

6일 전
AI4S를 만나보세요
h.li
Featured Image

재료과학 분야에서 금속-유기 골격체(MOF)는 과학자들의 "스위스 군용 칼"로 여겨집니다. MOF는 높은 비표면적, 화학적 조절성, 그리고 구조적 다양성을 갖추고 있으며, 기체 분리 및 저장, 촉매, 그리고 감지 분야에서 폭넓게 응용됩니다. 그러나 연구자들에게 MOF의 세계는 매우 광활하고 복잡합니다. 현재까지 125,000개 이상의 MOF 골격체가 합성되었고, 수백만 개의 가능한 구조가 계산되고 예측되었습니다.

인공 지능(AI)이 MOF 연구 분야를 근본적으로 변화시켰지만,그러나 기존 방법의 대부분은 여전히 범위가 제한적이며, 주로 확장이 용이하지 않은 단일 성과 데이터 세트나 정적 데이터 세트의 추출에 초점을 맞추고 있습니다.대규모 텍스트 마이닝 데이터셋을 사용하더라도, 결정 구조와의 강력한 연관성을 확립하기보다는 문헌에서 성능을 추출하는 데 더 중점을 둡니다. 이러한 균일성을 달성하는 데 있어 주요 장애물은 표준화된 명명 규칙의 부재입니다. 예를 들어, 동일한 화합물이 문헌에서는 "HKUST-1"로, 어떤 논문에서는 "화합물 1"로 표기되고, 케임브리지 구조 데이터베이스(CSD)에서는 "FIQCEN"으로 등록될 수 있습니다. 이러한 불일치는 MOF뿐만 아니라 재료 과학에도 만연하여 사람과 대규모 언어 모델(LLM)이 여러 출처의 데이터를 일치시키는 데 어려움을 겪습니다.

이러한 배경 속에서,토론토 대학과 캐나다 국립 연구 위원회 산하 청정 에너지 혁신 연구 센터의 연구팀은 구조화되고 확장 가능하며 확장 가능한 지식 그래프인 MOF-ChemUnity를 제안했습니다.이 방법은 LLM을 활용하여 문헌에 등록된 MOF 명칭과 동의어, 그리고 CSD에 등록된 결정 구조 간의 신뢰할 수 있는 일대일 매핑을 구축하여 MOF 명칭과 동의어, 그리고 결정 구조 간의 모호성을 해소합니다. 현재 버전인 MOF-ChemUnity는 약 10,000개의 과학 논문과 15,000개 이상의 CSD 결정 구조 및 그 계산 화학적 특성을 통합하여 기계에서 처리 가능한 형식으로 제공합니다. LLM을 보완하는 지식 소스로 사용될 경우, MOF-ChemUnity는 AI 비서가 포괄적인 문헌 지식을 기반으로 추론을 수행할 수 있도록 지원합니다.전문가 평가에 따르면 검색, 구조-속성 관계 추론, 재료 추천 등의 작업에서 표준 LLM보다 정확도, 해석 가능성, 신뢰도가 더 뛰어난 것으로 나타났습니다.

"MOF-ChemUnity: 금속-유기 골격 연구를 위한 문헌 기반 대규모 언어 모델"이라는 제목의 관련 연구 결과가 ACS Publications에 게재되었습니다.

연구 하이라이트:

* MOF-ChemUnity는 모든 명칭과 이름을 식별하고 단일 물질 개체에 연결하여 출판물 간 정보 통합 및 분석을 가능하게 합니다.

* 이러한 구조는 연구자들이 높은 수준의 과학적 질문을 던질 수 있게 하고, AI 모델이 사실적이고 해석 가능한 기반을 바탕으로 MOF 화학 공간에 대해 추론할 수 있게 하여, 단일 논문을 읽거나 수동으로 데이터를 수집하는 것을 넘어서는 새로운 문헌 상호 작용 방식을 열어줍니다.

* MOF와 유사한 문제(표준 명명 규칙 부족, 데이터 이질성 등)에 직면한 도메인의 경우, MOF-ChemUnity는 통합된 정보를 위한 강력한 청사진을 제공합니다.

서류 주소:

https://pubs.acs.org/doi/10.1021/jacs.5c11789
공식 WeChat 계정을 팔로우하고 백그라운드에서 "MOF-ChemUnit"을 답글하면 전체 PDF를 받을 수 있습니다.

더 많은 AI 프런티어 논문:
https://hyper.ai/papers

데이터 세트: 포괄적인 데이터 관점 제공

MOF-ChemUnity의 데이터 기반은 두 가지 주요 데이터베이스에서 제공됩니다.CoRE MOF 2019와 QMOF는 총 31,000개 이상의 고유한 결정 구조를 담고 있습니다.연구진은 데이터의 신뢰성을 확보하기 위해 기체 흡착이나 밴드 구조 정보가 있는 항목만 보관했으며, 원본 문헌까지 추적하기 위해 CSD(Cambridge Structural Database) 참조 코드를 사용해야 했습니다.

연구자들은 텍스트 마이닝과 데이터 마이닝(TDM) 방법을 사용하여 ACS, Elsevier, RSC를 포함한 여러 출판사에서 전문 논문을 수집했습니다. 문서 형식이 XML이든 PDF이든 관계없이 후속 AI 모델의 효율적인 처리를 위해 표준화된 마크다운 파일로 변환했습니다.

매칭 워크플로우를 적용한 후, 연구팀은 93%의 15,143개 MOF 결정 구조를 성공적으로 분석하고 연관시켰으며, 9,874개 논문의 명칭 및 동의어와의 대응 관계를 확립했습니다. 더 중요한 것은,연구팀은 MOF 이름과 결정 구조를 일치시켰을 뿐만 아니라 문헌에서 참조 정보(예: 특정 MOF를 나타내는 "화합물 1")를 식별하여 각 MOF 개체가 지식 그래프에서 일대일 대응 항목을 형성하도록 보장하고, 이후의 모델 학습과 정보 추출을 위한 견고한 기반을 마련했습니다.

이를 바탕으로 연구팀은 MOF의 실험적 특성, 합성 경로, 권장 응용 분야를 추출하여 70,000개 이상의 특성 데이터 포인트와 2,500개 이상의 응용 분야 제안을 포함하는 체계적인 보물 창고를 형성하여 과학자들에게 포괄적인 데이터 관점을 제공했습니다.

ChemUnity: 구조화되고 확장 가능하며 확장 가능한 지식 그래프

MOF-ChemUnity의 핵심은 LLM 매칭 및 추출 에이전트와 지식 그래프로 구성된 모델 프레임워크입니다.

LLM 매칭 에이전트

워크플로의 첫 번째 부분은 MOF에서 명명된 엔터티 인식, 참조 확인 및 고유 엔터티 연결 문제를 해결하는 것을 목표로 합니다.연구진의 해결책은 LLM에 결정 구조 기반 정보를 제공하고, 논문에 사용된 MOF 이름과 해당 CSD 참조 코드를 매칭하는 것이었습니다. 이 정보에는 CSD 참조 코드, 격자 매개변수, 금속 노드, 공간군, 분자식, 화학명, 그리고 알려진 동의어가 포함되었으며, 모두 CSD Python API를 통해 수집되었습니다. LLM은 논문에서 어떤 고유한 MOF 이름이 주어진 CSD 참조 코드와 일치하는지 찾아, 각 논문의 CSD 참조 코드와 MOF 이름이 일대일로 대응되도록 했습니다. 또한, LLM은 MOF와 관련된 모든 참조를 찾아야 했습니다. MOF 이름 매칭과 참조 분석 작업을 분리함으로써 각 단계의 정확도를 더욱 정밀하게 평가할 수 있었고, 이는 후속 정보 추출을 위한 신뢰할 수 있는 기반을 제공했습니다. (아래 그림 참조)

MOF 데이터 매칭 및 추출을 위한 LLM 에이전트

정보 추출 워크플로

일반적인 워크플로:매칭 워크플로에서 추출된 MOF 이름은 정보 추출 통합에 사용됩니다. 이 통합에서 여러 워크플로는 MOF 이름을 수신하고 속성, 권장 애플리케이션, 합성 정보 등 이와 연관된 다양한 정보를 추출합니다.

전담 워크플로:복잡한 특성(예: 수분 안정성)의 경우, CoV(Chain of Verification) 방법을 사용하여 추출 결과의 신뢰성을 보장하고 AI에서 발생하는 "환상"을 줄입니다.

지식 그래프 MOF-ChemUnity 건설

MOF-ChemUnity를 설계할 때 연구자들은 세 가지 핵심 목표에 초점을 맞췄습니다.확장성, 결합성, 쿼리 가능성.

첫째, 지식 그래프는 확장 가능하고 추가 가능해야 하며, 문헌 및 계산 데이터베이스가 확장됨에 따라 새로운 데이터를 원활하게 통합할 수 있어야 합니다. 둘째, 문서 간 개체 분석을 지원하여 서로 다른 논문, 명명법 또는 데이터베이스에서 인용되었는지 여부와 관계없이 동일한 화합물에 대한 여러 인용을 정확하게 연관시켜야 합니다. 셋째, 로컬 및 글로벌 쿼리를 모두 지원하여 단일 MOF의 합성 조건과 같은 세분화된 쿼리와 다양한 응용 분야에서 구조-속성 추세를 파악하는 것과 같은 광범위한 분석을 모두 수행할 수 있어야 합니다.

이러한 목표를 달성하기 위해,연구팀은 고유한 노드와 관계 유형을 갖춘 패턴을 설계했습니다.각 MOF는 MOF 노드로 표현되며, 출판물, 합성 단계, 속성 및 응용 프로그램 언급은 독립적인 노드로 모델링되고 의미 관계로 연결됩니다. 생성된 지식 그래프는 40,000개 이상의 노드와 3,200,000개의 관계를 포함합니다. 전체 스키마, 전체 지식 그래프 및 개별 MOF 하위 그래프는 다음 그림과 같습니다.

지식 그래프를 사용하여 이기종 MOF 데이터 구성

그래프 향상 검색 및 생성(그래프 향상 RAG)

그래프 기반 RAG 시스템은 관련 정보를 검색하여 일반적인 질의응답을 위한 단발성 맥락(few-shot context)으로 활용합니다. 또한, 이 프레임워크는 머신러닝 기반 임베딩을 활용하여 구조적 또는 화학적으로 유사한 MOF를 식별하여 더욱 유익한 질의응답을 가능하게 합니다.핵심 구성 요소인 쿼리 도구와 Neighbor Finder 도구는 모듈식이며 AI 에이전트가 필요에 따라 호출할 수 있습니다.

MOF 권장 사항 및 임베딩 공간

화학적 및 기하학적 설명자(RAC, 기공 부피, 기공 크기 등)를 사용하여 MOF를 저차원 임베딩 공간에 투영하고, 최근접 이웃 방법을 사용하여 유사한 물질을 추천합니다. 이는 기체 흡착, 탄소 포집 및 기타 시나리오에 적용되어 인간의 경험을 머신 러닝과 호환되는 규칙으로 변환할 수 있습니다.

결과 쇼케이스: 과학자와 AI 시스템은 MOF의 완전한 지식을 최대한 활용할 수 있습니다.

연구팀은 위의 프레임워크를 사용하여 시스템 검증과 응용 프로그램 시연을 수행했습니다.

물 안정성 예측

MOF-ChemUnity의 수분 안정성 데이터 세트를 사용하여 연구진은 수분 안정성 예측에서 탁월한 성능을 보이는 분류 모델을 학습하여 80%의 정확도와 86%의 F1 점수를 달성했습니다(아래 그림 참조). 더욱 중요한 점은, MOF-ChemUnity는 분자 시뮬레이션에서 얻은 CO₂ 흡착 데이터도 포함하고 있기 때문에, 두 가지 기준을 동시에 충족하는 물질을 식별하기 위한 공동 스크리닝을 수행할 수 있다는 것입니다.

머신 러닝을 이용한 MOF의 수분 안정성 예측

전문가 추천 및 검증

전문가들은 직관, 경험 또는 전문 지식을 바탕으로 특정 응용 분야에 MOF를 권장하는 경우가 많습니다. 이러한 정보는 그 자체로도 가치가 있지만, 그 활용을 공식화하거나 체계화하는 것은 어려운 경우가 많습니다. 이 문제를 해결하기 위해 연구자들은 MOF-ChemUnity에서 전문가 권장 사항과 결정 구조 간의 상관관계를 활용하여 MOF를 구조 인식 화학 공간에 통합했습니다.

연구진은 계산적으로 유의미한 데이터를 바탕으로 메탄 저장과 이산화탄소 포집이라는 두 가지 응용 분야에서 이 방법의 효과를 평가했습니다. 아래 그림에서 볼 수 있듯이, 두 응용 분야 모두에서 인접한 MOF(모델 추천으로 표시됨)는 전문가 추천 소재와 유사한 성능을 보였습니다. 이는…전문가의 직관이 구조적 공간에 매핑되면 머신 러닝 모델은 해당 직관으로부터 학습하고 실험 데이터와 결합하여 예측을 수행할 수 있습니다.

CoRE MOF 2019 데이터베이스의 모든 재료에 대한 메탄 및 이산화탄소 흡수 분포

전문가 추천의 강도와 특이성을 평가하는 것 또한 통찰력 있는 방법입니다. 이를 위해 연구진은 전문가 추천 MOF의 성능 분포를 주변 물질 및 전체 데이터베이스에서 무작위로 추출한 물질과 비교했습니다. 메탄 저장의 경우, 전문가 추천 MOF와 주변 MOF의 평균 CH4 흡착 용량은 전체 데이터 세트의 평균보다 유의미하게 높았는데, 이는 전문가들이 메탄 저장 성능이 우수한 물질을 효과적으로 선택했음을 시사합니다. 이는 메탄 저장이 주로 기공률 및 압력 변동 조건에서의 유효 용량과 같은 직관적인 기하학적 특성에 의해 영향을 받는다는 기존 연구 결과와 일치합니다.

이와 대조적으로 이산화탄소 포집의 경우 전문가가 추천한 MOF의 성능 분포는 무작위 샘플의 성능 분포와 유사하여 이 분야에서는 전문가의 직관이 덜 신뢰할 수 있음을 나타냅니다.

문서 AI 어시스턴트 애플리케이션

Banerjee 등은 논문에서 "화합물 1"이라고 명명한 Ultralight MOF(ULMOF-5)라는 리튬 기반 MOF를 합성했습니다.표준 LLM을 사용하여 ULMOF-5의 수분 안정성을 질의할 때, 이 모델은 "환상적인" 답을 제공하여 이름은 유사하지만 관련성이 없는 Zn 기반 MOF-5와 혼동합니다. 반면, MOF-ChemUnity는 모든 참고문헌을 정확한 결정 구조와 연관시키고, 논문의 "화합물 1은 물에 용해된다"라는 문장에서 나타난 수분 안정성 라벨("불안정")을 포착합니다. 본 연구에서 제안하는 시스템은 이러한 정보를 검색하고, 인용 및 설명을 통해 근거 있는 답을 제공하여 정확성과 투명성을 향상시킬 수 있습니다.

시스템을 더욱 심층적으로 평가하기 위해 연구진은 그래프 강화 RAG와 기존 LLM(GPT-4o)의 세 가지 과제(사실 검색, 구조-속성 추론, 물질 추천)에 대한 응답을 비교했습니다. 9명의 MOF 전문가가 블라인드 설문조사를 통해 응답의 질과 신뢰성을 평가했습니다. 아래 그림 c는 그래프 강화 지원 도구가 모든 과제에서 더 높은 점수를 받았음을 보여줍니다. 전문가들은 인용 문헌, 구체적인 사례, 그리고 검증 가능한 주장에 특히 중점을 두었지만, 기준 모델의 응답은 일반적이거나 근거가 없거나 검증 불가능한 경우가 많았습니다. 이는 구조화된 과학 지식을 LLM에 통합하면 사실 신뢰도와 사용자 신뢰도를 향상시킬 수 있음을 시사합니다.

지식 그래프를 기반으로 하는 RAG는 문헌 정보를 위한 AI 보조 도구 역할을 합니다.

MOF-ChemUnity는 다른 재료 범주로 확장될 수 있습니다.

MOF-ChemUnity의 중요성은 기존 MOF 데이터 통합을 훨씬 뛰어넘어, 재료과학 연구를 위한 학제 간 확장 가능한 데이터 관리 및 분석 패러다임을 제공합니다. 최근 공유 결합 유기 골격, 제올라이트, 고분자, 다공성 물질 연구가 급속도로 발전함에 따라 다양한 재료 데이터는 높은 이질성과 일관성 없는 명명법을 보여 왔으며, 이로 인해 문서 간 및 데이터베이스 간 정보 통합은 과학적 발견을 제한하는 병목 현상으로 작용했습니다. 이러한 배경에서 MOF-ChemUnity가 구축한 지식 그래프 프레임워크는 다음과 같은 재료 범주에 대한 청사진을 제공합니다.통합된 엔터티 파싱, 핵심 관계 주석, 속성 추출 방법을 사용하면 표준화된 명명이 없거나 데이터 형식에 상당한 차이가 있는 분야에서도 다양한 소스의 데이터를 효과적으로 연결하고 체계적으로 관리할 수 있습니다.

업계 내 많은 팀도 비슷한 프로젝트를 진행하고 있습니다.예를 들어, 재료 과학에 관한 방대한 학술 문헌에는 풍부한 과학적 연구 결과가 축적되어 왔습니다. 그러나 이러한 문서에 텍스트 형태로 분산된 과학 지식은 일반적으로 연구자들이 직접 수집하고 분석하는데, 이러한 과정은 시간이 많이 소요되고 정보의 완전성을 보장하기 어렵습니다. 이러한 문서에 담긴 재료 과학 정보를 구조화된 지식으로 표현하고, 지식 연관, 융합, 추론 등의 방법을 결합하여 재료 지식 그래프를 구축하면 연구자들은 정확하고 효율적으로 정보를 수집할 수 있습니다.

베이징대학교 선전대학원 신소재학부 판펑 교수 연구팀은 최근 몇 년간 재료 지식 그래프 구축과 핵심 과학·기술적 난제 해결에 전념해 왔습니다. 연구팀은 이름 기반 모호성 해소 및 정보 검색을 위한 고정밀·효율적 프레임워크를 개발하여 MatKG라는 재료 지식 그래프를 구축했습니다. 이를 기반으로 2022년에는 재료 과학 지식의 임베딩을 가능하게 하는 의미론적 표현 프레임워크를 제안했습니다. 이 프레임워크는 다중 소스 정보 융합을 통해 재료 개체의 표현 품질을 향상시켜 재료 과학 문헌에서 리튬 이온 배터리 양극 재료 개체를 정확하게 마이닝하고 고성능 리튬 배터리 재료를 예측하는 양극 재료 지식 그래프를 구축할 수 있도록 지원합니다.
논문 제목:리튬 이온 배터리 양극을 위한 의미적 지식 그래프를 통한 재료 탐색 자동화
서류 주소:https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

한편, IUPAC 흡착 정보 파일(AIF)과 같은 표준화된 형식이 도입됨에 따라 MOF-ChemUnity는 새로운 표준을 원활하게 통합하여 데이터 통합, 추적성 및 해석성을 확보할 수 있도록 설계되었습니다. 이를 통해 새로운 문헌 보고서와 전산 시뮬레이션 데이터를 시스템에 쉽게 통합하여 데이터세트의 지속적인 확장 및 반복적 업데이트가 가능합니다. 이러한 지속 가능한 업데이트 기능은 고처리량 다중 표적 물질 스크리닝을 위한 견고한 기반을 제공하고, 물질 유전체 이니셔티브 및 FAIR 데이터 원칙의 최신 동향에 부합하며, 연구자들에게 재현 가능하고 검증 가능한 분석 프레임워크를 제공합니다.

앞으로 MOF-ChemUnity의 잠재력은 과학 보조 도구로서의 역할에도 있습니다. 자연어 상호작용 및 그래프 쿼리 도구를 통해 연구자들은 "수생 환경에서 오염물질 제거에 적합한 MOF는 높은 안정성과 특정 금속 노드를 모두 가지고 있는가?"와 같은 복잡한 질문을 던질 수 있으며, 시스템은 문헌, 실험 및 계산 데이터를 기반으로 검증 가능한 답변을 제공할 수 있습니다. 지식 그래프와 LLM을 통합하는 이 접근 방식은 재료 과학 연구에서 AI 활용의 새로운 기준을 제시합니다.

참고문헌:
1. https://pubs.acs.org/doi/10.1021/jacs.5c11789

2. https://advanced.onlinelibrary.wiley.com/doi/abs/10.1002/adfm.202201437

3. https://news.pku.edu.cn/jxky/64f28e5b50074113bfaec41af68c1971.htm