원소 주기율표를 거의 다룹니다! Meta는 1억 1천만 개의 DFT 계산 결과를 포함하는 오픈 소스 OMat24 데이터 세트를 출시했습니다.

재생 에너지에 대한 전 세계적 수요가 계속해서 증가함에 따라, 에너지 저장 기술은 에너지를 저장하고 필요할 때 방출할 수 있는 솔루션으로 점점 더 많은 주목을 받고 있습니다. 그러나 많은 재생 에너지 저장 기술은 초기 투자 비용이 높고 운영 및 유지 관리가 어려우며, 아직 연구 개발 단계나 실증 단계에 머물러 있습니다.
이를 고려하여,2020년, 아직 이름이 바뀌지 않은 Facebook 인공지능 연구소(FAIR)와 카네기 멜론 대학교가 공동으로 Open Catalyst 프로젝트를 시작했습니다.목표는 AI를 사용하여 재생 에너지 저장을 위한 새로운 촉매를 발견하는 것입니다. 이 프로젝트가 출시됨에 따라 연구팀은 촉매 시뮬레이션 데이터 세트 OC20을 출시했습니다.
OC20 데이터 세트 다운로드 주소:
https://go.hyper.ai/dYeNS
2022년에 연구팀은 OC20 데이터 세트를 기반으로 Open Catalyst 2022(OC22) 데이터 세트를 확장하여 출시하여 모델 학습을 더욱 정확하게 만들었습니다.
OC22 데이터 세트 다운로드 주소
https://go.hyper.ai/9FhFL
최근 Meta는 재료 과학 분야에서 다시 한번 새로운 획기적인 진전을 이루며, 대규모 오픈 소스 데이터 세트인 Open Materials 2024(OMat24)와 이를 지원하는 사전 학습된 모델 세트를 출시했습니다. OMat24 데이터 세트에는 구조적, 구성적 다양성에 초점을 맞춘 1억 1천만 개 이상의 밀도 함수 이론(DFT) 계산 결과가 포함되어 있습니다. 사전 훈련된 모델은 EquformerV2(eqV2) 모델을 사용하여 훈련되었으며, eqV2-M 모델은 Matbench Discovery 리더보드에서 최첨단 성능을 달성하여 기저 상태 안정성과 형성 에너지를 예측할 수 있으며, 물질 안정성을 예측하는 새로운 벤치마크를 제시합니다.
연구 하이라이트:
* OMat24 데이터 세트는 MPtrj, Materials Project, Alexandria와 같은 오픈 소스 데이터 세트를 기반으로 구축되었습니다. 이 데이터 세트에 포함된 원소는 주기율표의 거의 전체를 포괄합니다.
* 사전 학습된 모델은 eqV2-S, eqV2-M, eqV2-L의 세 가지 크기로 제공됩니다. eqV2-M 모델은 Matbench Discovery 리더보드에서 0.916의 F1 점수를 받았으며 평균 절대 오차는 원자당 20 meV에 불과합니다.

서류 주소:
https://arxiv.org/pdf/2410.12771
공식 계정을 팔로우하고 "OMat24"라고 답글을 달면 전체 논문 PDF를 받을 수 있습니다.
OMat24 데이터 세트 다운로드 주소:
https://go.hyper.ai/gALHP
오픈소스 프로젝트인 "awesome-ai4s"는 100개가 넘는 AI4S 논문 해석을 모아 방대한 데이터 세트와 도구를 제공합니다.
https://github.com/hyperai/awesome-ai4s
OMat24 데이터 세트에는 다양한 원자 구성을 포괄하는 1억 1천만 개 이상의 DFT 계산 결과가 포함되어 있습니다.
OMat24 데이터 세트는 현재 재료의 DFT 대체 모델을 훈련하는 데 사용되는 가장 큰 오픈 소스 데이터 세트 중 하나입니다.이 데이터 세트는 다양한 무기 벌크 재료에 대한 DFT 단일 지점 계산, 구조적 완화 및 분자 동적 궤적으로 구성되어 있습니다.연구진은 4억 시간 이상의 컴퓨팅 리소스를 사용하여 총 에너지, 힘(forces norm), 단위 셀 응력(stress)이 주석 처리된 약 1억 1,800만 개의 구조를 계산했습니다.
이러한 구조는 세 가지 기술을 통해 생성되었습니다. 즉, 덜거덕거리는 구조의 볼츠만 샘플링, 이니티오 분자 동역학(AIMD), 덜거덕거리는 구조의 완화입니다.

OMat24 데이터 세트는 광범위한 에너지, 힘, 응력 분포를 가지고 있습니다. 아래 그림은 OMat24 데이터 세트, MPtrj 데이터 세트, Alexandria 데이터 세트에 대한 총 에너지(eV/atom으로 표시), 힘(eV/A로 표시), 응력(GPa로 표시) 레이블의 분포를 보여줍니다.
* MPtrj 데이터 세트(Materials Project Trajectory Dataset)에는 150만 개 이상의 무기 구조에 대한 DFT 계산 결과가 포함되어 있습니다. 규모가 크고 다양성이 크기 때문에 재료 과학 및 계산 재료 과학 분야에서 중요한 응용 가치를 가지고 있습니다.
* 알렉산드리아 데이터 세트는 힘장 개발과 밀도 함수 개발 및 평가를 위한 방대한 양의 분자 속성 데이터를 제공하는 양자 화학 데이터베이스입니다.

OMat24 데이터 세트의 에너지 분포가 입력 구조로 사용된 Alexandria 데이터 세트보다 약간 높고, MPtrj 데이터 세트보다 상당히 높은 것을 볼 수 있습니다. OMat24 데이터 세트의 힘과 단위 셀 응력 분포는 MPtrj 및 Alexandria 데이터 세트보다 훨씬 높습니다.
OMat24 데이터 세트에 포함된 원소는 주기율표를 거의 모두 포괄한다는 점을 언급할 가치가 있습니다.다음 그림과 같이:

OMat24 데이터 세트는 다른 데이터 세트에 비해 장점이 있지만, 연구자들은 이 데이터 세트에도 여전히 한계가 있다고 지적했습니다. 이 데이터 세트는 PBE 및 PBE+U 수준에서 DFT 계산을 기반으로 합니다. 이 방법은 주기적인 벌크 구조만을 포함하고 있으며 점 결함, 표면, 비화학양론적 비율, 저차원 구조의 중요한 효과는 고려하지 않습니다. 따라서 본질적인 근사 오차가 존재하지만, 이러한 오차는 다른 함수형에서는 어느 정도 해결되었습니다.
아래 그림에서 보듯이, 연구진은 WBM 데이터 세트의 계산 결과와 OMat24 DFT 설정을 사용한 단일 지점 계산 결과를 비교한 결과, 두 결과 사이의 평균 절대 오차가 52.25 meV/atom임을 발견했습니다.
* WBM 데이터 세트는 DFT를 사용하여 계산된 수많은 물질의 전자 구조와 열역학적 특성(형성 에너지, 엔트로피 변화, 비열 등)을 포함하는 대규모 계산 물질 데이터베이스입니다.

EquformerV2를 모델 아키텍처로 사용하여 3개의 주요 데이터 세트를 기반으로 모델 학습을 수행합니다.
연구진은 모델을 훈련하기 위해 OMat24 데이터 세트와 MPtrj 데이터 세트, Alexandria 데이터 세트를 사용했습니다.테스트에 사용된 Alexandria 데이터 세트와 WBM 데이터 세트에는 유사한 구조가 있으므로, 연구진은 훈련용 Alexandria 데이터 세트를 하위 샘플링하여 훈련 데이터 세트와 테스트 데이터 세트 사이에 누락이 없는지 확인했습니다.
먼저, 연구진은 WBM의 초기 구조와 이완된 구조에 일치하는 모든 부분을 제거하여 새로운 알렉산드리아 하위 집합(sAlexandria)을 만들었습니다. 데이터 세트를 줄이기 위해 연구진은 총 에너지가 0eV 이상, 힘의 표준이 50eV/Å 이상, 응력이 80GPa 이상인 구조를 제거했습니다. 마지막으로, 나머지 궤적에서 10 meV/원자보다 큰 에너지 차이가 있는 구조만 샘플링되었습니다. 훈련 및 검증을 위한 결과 데이터 세트에는 각각 1,000만 개와 50만 개의 구조가 포함됩니다.
모델 아키텍처를 위해 연구진은 현재 OC20, OC22, ODAC23 리더보드에서 가장 성능이 좋은 모델인 EquiformerV2를 선택했습니다.
모델 훈련을 위해 연구자들은 3가지 전략을 탐색했습니다.
* EquiformerV2 모델은 잡음 제거 증강 목적이 있거나 없는 OMat24 데이터 세트에서만 학습되었습니다. 이러한 모델은 기존의 Materials Project 설정에 비해 기본적인 의사 퍼텐셜의 상당한 업데이트를 포함하는 데이터 세트에만 적합하기 때문에 가장 강력한 물리적 의미를 갖습니다.
* MPtrj 데이터 세트에 대해서만 학습된 EquiformerV2 모델은 잡음 제거 증강 목적이 있거나 없이 Matbench Discovery 리더보드(규정 준수 모델로 표시)와 직접 비교하는 데 사용할 수 있습니다.
* MPtrj 또는 sAlexandria 결합 데이터 세트에서 OMat24 또는 OC20을 더욱 미세 조정하여 EquiformerV2 모델을 훈련하여 Matbench Discovery 리더보드에서 가장 성능이 좋은 모델이 되었습니다(비준수 모델로 표시).
다음 표는 EquiformerV2 아키텍처를 기반으로 학습된 모델과 다양한 사양의 모델의 총 매개변수 수와 추론 처리량을 보여줍니다.

EquiformerV2로 학습된 모델은 Matbench-Discovery 순위에서 가장 좋은 성능을 보였습니다.
연구진은 Matbench-Discovery 벤치마크를 사용하여 EquiformerV2 모델을 평가했으며, 그 결과 규정을 준수하는 모델(MPtrj로만 학습)과 규정을 준수하지 않는 모델(추가 데이터로 학습) 모두 좋은 성능을 보였다는 사실이 밝혀졌습니다.EquiformerV2 모델은 리더보드에서 가장 좋은 성과를 달성했습니다(F1 점수가 주요 평가 지표입니다).
다음 그림은 Matbench-Discovery 리더보드에서 다른 비준수 모델의 성과를 보여줍니다.

결과에 따르면 eqV2-M 모델은 F1 점수가 0.916, 평균 절대 오차(MAE)가 20 meV/atom, 평균 제곱근 오차(RMSE)가 72 meV/atom으로 나타나 재료 안정성 예측에 대한 새로운 기준을 제시했습니다.
또한 MPtraj 데이터 세트로만 학습된 EquiformerV2 모델도 비평형 구조의 잡음 제거(DeNS)와 같은 효과적인 데이터 증가 전략 덕분에 좋은 성능을 보였습니다. 위 표에서 볼 수 있듯이, OMat24 데이터 세트를 기반으로 사전 학습된 모델은 정확도 면에서 기존 모델보다 우수한 성능을 발휘하며, 특히 불균형 구성을 처리할 때 그 성능이 뛰어납니다.
오픈소스, 재료과학과 AI 통합을 위한 가속기 역할
오늘날의 데이터 중심 시대에 AI는 전례 없는 속도와 정확성으로 재료 과학의 연구 패러다임을 바꾸고 있습니다. 특히, 재료 과학과 관련된 오픈 소스 AI 지식, 도구 및 데이터는 더 많은 연구자, 개발자, 심지어 애호가에게도 혁신 과정에 참여하고 재료 과학의 개발을 촉진하기 위해 함께 일할 수 있는 기회를 제공할 것입니다.
OMat24 오픈소스 데이터셋 및 모델 공개와 관련하여,Microsoft Research의 머신 러닝 전문가이자 수석 과학자인 맥스 웰링은 소셜 미디어를 통해 "새로운 SOTA 수준의 머신 러닝 힘장 기반 모델을 탄생시킨 새로운 OMat24 데이터 세트에 대해 특히 기대가 큽니다."라고 밝혔습니다.

사실, 미국 버클리 국립연구소(LBNL)는 2011년 초에 이미 재료 프로젝트를 발표했습니다.이 데이터 세트에는 결정 구조, 전자 구조, 열역학적 특성 등 무기 재료에 대한 방대한 양의 계산 데이터가 포함되어 있으며, 현재 재료 과학 연구를 위한 중요한 데이터 리소스가 되었습니다.
서류 주소:
https://go.hyper.ai/KExvK
Materials Project 데이터세트 다운로드 주소:
예를 들어, 미국 노스웨스턴 대학교는 2013년에 오픈소스 양자 물질 데이터 세트인 OQMD를 공개했습니다.여기에는 1,226,781개 재료의 열역학적 및 구조적 특성에 대한 계산 결과가 포함되어 있으며 다양한 재료 응용 분야의 고처리량 DFT 분석에 널리 사용됩니다.
서류 주소:
https://www.nature.com/articles/npjcompumats201510
OQMD 데이터 세트 다운로드 주소:
https://go.hyper.ai/X4fE5
2018년에 매사추세츠 공과대학교(MIT)에서 CGCNN 모델을 출시했습니다.이 모델은 재료 과학에서 널리 사용되고 있으며, 그래프 신경망을 통해 밴드갭, 자기성, 결정질 재료의 열역학적 안정성과 같은 재료 특성을 예측합니다.
서류 주소:
https://arxiv.org/pdf/1710.10324
2020년에 미국 국립표준기술원(NIST)은 JARVIS 오픈소스 플랫폼을 출시했습니다.재료의 특성과 전자 구조를 예측하는 데 중점을 둡니다. JARVIS-ML은 풍부한 데이터 세트와 머신 러닝 기반 소재 스크리닝 도구를 제공하는 머신 러닝 모듈로, DFT, 분자 동역학 시뮬레이션, 머신 러닝을 지원하며 연구자들이 새로운 소재를 빠르게 스크리닝하고 발견하는 데 도움을 줍니다.
서류 주소:
https://arxiv.org/abs/2007.01831
2021년에 NIST는 ALIGNN 모델을 발표했습니다.이 모델은 원자 간의 복잡한 상호 작용을 포착하기 위해 선 그래프를 도입함으로써 재료 속성 예측의 정확도를 효과적으로 향상시킬 수 있습니다.
서류 주소:
https://www.nature.com/articles/s41524-021-00650-1
고처리량 스크리닝부터 자동화된 소재 설계까지 오픈 소스는 재료 과학과 AI의 통합을 촉진하는 중요한 가속기가 되었으며, 재료 과학을 더욱 지능적이고 효율적인 새로운 시대로 이끌고 있습니다.
참고문헌:
