중산대학의 Li Huashan과 Wang Biao 연구 그룹은 높은 정확도로 재료 특성을 예측하기 위해 SEN 머신 러닝 모델을 개발했습니다.

내용 한눈에 보기: 전역 결정 대칭을 이해하고 등변 정보를 분석하는 것은 재료 특성을 예측하는 데 중요하지만, 기존의 합성 네트워크 기반 알고리즘은 이러한 요구 사항을 완전히 충족할 수 없습니다. 이 문제를 해결하기 위해 중산대학의 리화산과 왕비아오가 이끄는 연구팀은 SEN이라는 머신 러닝 모델을 개발했는데, 이 모델은 고유한 결정 대칭과 물질 구조 클러스터 간의 상호 작용을 정확하게 인식합니다.
키워드: 재료 특성 예측 딥러닝 MP 데이터베이스
저자 | 리바오주
편집자 | 산양
결정 대칭은 재료의 물리적 특성을 연구하고, 결정 구조를 이해하고, 새로운 재료를 설계하고, X선 회절과 같은 실험을 수행하는 데 중요한 역할을 합니다. 결정 대칭성을 이해하면 분석이 간소화되고, 재료 특성에 대한 이해가 높아지며, 재료 성능 계산이 더욱 효율적으로 이루어집니다. 더 중요한 점은 결정 대칭이 재료의 전하 분포, 광학적 특성, 자기적 특성 및 기타 물리적 특성에 직접적인 영향을 미칠 수 있다는 것입니다.
최근 들어 통계적 메커니즘을 기반으로 한 머신 러닝이 널리 사용되고 있습니다. 머신러닝의 관점에서 보면, 결정 대칭은 재료의 불변성과 등가성으로 볼 수 있습니다. 그러나 고급 그래프 네트워크를 기반으로 한 결정 재료에 대한 기존의 머신 러닝 알고리즘은 복잡한 재료의 불변성과 등가성을 인코딩하는 데 어려움을 겪습니다.
또한, SCAE(Stacked Capsule Autoencoder)도 원본 데이터에서 공간 대칭 특성을 직접 추출할 수 있지만, 기존 캡슐 모델은 여전히 복잡한 재료 시스템의 구조와 성능 간의 관계를 분석할 수 없습니다.
위의 과제를 고려하여,중산대학의 화산 리(Huashan Li)와 비아오 왕(Biao Wang)이 이끄는 연구 그룹은 SEN(대칭 강화 등가 분산 네트워크)이라는 머신 러닝 모델을 개발했습니다., 높은 대칭성 공간군에서 합성곱 기반 알고리즘의 낮은 성능을 극복하고 모든 공간군에서 고정밀 재료 특성 예측을 달성했습니다. 현재 관련 결과는 "Nature Communications"에 게재되었습니다.

관련 결과는 "Nature Communications"에 게재되었습니다.
신문을 받으세요:
https://www.nature.com/articles/s41467-023-40756-2
01 데이터 세트: MP 데이터베이스에 있는 6,027개의 결정 재료
연구진은 화학적 환경의 개념과 그래픽 모델의 표현 방법을 바탕으로 결정질 물질의 특성을 추출했습니다. 그들은 대상 원자의 차단 반경 내 주변 원자와 결합에 의해 화학적 환경을 정의하고, 재료 분석을 위한 오픈 소스 Python 데이터베이스인 Materials Project에서 각 원자 주변의 원자 유형, 원자 연결성 및 결합 길이를 추출했습니다.
보고된 바에 따르면,본 연구에서 밴드갭과 형성 에너지를 예측하는 데 사용된 데이터 세트는 Materials Project 데이터베이스에서 가져온 것이며, 밴드갭과 형성 에너지 데이터 세트에는 각각 6,027개(훈련 세트, 검증 세트, 테스트 세트로 8:1:1 비율로 구분)와 30,000개의 재료가 포함되어 있습니다.두 데이터 세트는 비활성 기체족, 란타넘족, 악티늄족 및 방사성 원소를 제외한 주기율표의 원소를 포함하는 64개 원소로 구성되어 있습니다.
연구진은 밀도 함수 이론(DFT) 계산을 사용하여 Materials Project 데이터베이스에 있는 6,027개의 결정질 재료의 구성을 예측하고 예측된 결론에 따라 SEN 모델의 성능을 테스트했습니다.
이 연구에 사용된 결정 대칭성과 화학적 환경 데이터는 Zenodo 데이터베이스에서 얻을 수 있습니다.
링크를 방문하세요:
https://doi.org/10.5281/zenodo.8142678
02 모델 아키텍처: 3개 모듈의 통합 교육
아래 그림과 같이,SEN 모델은 특징 추출(FE), 대칭 인식(SP), 속성 예측(PP) 모듈을 포함하는 복잡한 딥 러닝 아키텍처를 채택합니다.

SEN 아키텍처는 특징 추출, 대칭 인식, 속성 예측 모듈로 구성됩니다.
본 연구에서 연구팀은 3개 모듈의 통합된 훈련을 통해 여러 물질의 특성을 정확하게 예측하고, SEN 모델을 통해 원자 간의 상호작용을 설명했습니다.
먼저, 특징 추출 모듈은 대상 물질의 원래 단위에 있는 N개의 원자와 M개의 결합에 대한 정보를 포함하는 입력 원자 및 화학 결합 데이터를 감지합니다. 마지막으로, 고처리량 스크리닝 과정을 통해 화학양론, 결정 구조, 원자 정보, 결합 정보를 포함하는 물질 데이터 세트가 구축되었습니다.
연구진은 SEN 모델의 유일한 입력 데이터로 재료 데이터 세트를 사용하여 구조 데이터와 화학양론 데이터를 기반으로 원자 화학 환경 벡터 VmA와 원소 중량 벡터 VmE를 동시에 계산했습니다.


다층 퍼셉트론에 의해 활성화된 후, 원소 가중치 벡터는 해당 원자의 확률 벡터로 변환됩니다. 그런 다음 연구진은 원자 화학 환경 벡터와 원소 가중치 벡터 간의 원소별 연산을 통해 모든 원자 수준의 상관관계를 업데이트했고, 이를 통해 LSTM-주의 계층을 통해 물질의 화학 환경 행렬을 얻었습니다.
둘째, 본 연구에서는 캡슐 메커니즘을 혁신적으로 적용하여 재료의 물성을 예측하였다. 캡슐 메커니즘을 기반으로 설계된 대칭성 인식 모듈을 통해, 물질 화학 환경을 대칭 연산자, 합성 물질 화학 환경 및 존재 값으로 구성된 물질 캡슐로 변환하여 결정 대칭성을 인식하고 보존합니다. 더욱이, 물질의 화학적 환경 매트릭스에 대한 대칭 연산을 수행함으로써 다양한 대칭 패턴을 결정 캡슐로 일반화할 수 있습니다.
마지막으로, 속성 예측 측면에서 SEN 모델은 MLP 기반 매핑 함수를 통해 대상 재료 속성을 예측합니다.
03 SEN 모델은 높은 정확도로 재료 특성을 예측합니다.
결론 1: SEN 모델은 원자 상호작용 정보를 정확하게 인식합니다.
연구진은 특징 추출 모듈의 효과를 검증하기 위해 SEN이 결정질 물질의 밴드갭을 예측하는 능력을 평균 절대 오차(MAE)가 0.15eV 미만이 될 때까지 훈련시킨 다음, 특징 추출 모듈에서 생성된 화학적 환경 중간체 데이터를 분석했습니다.

원자 기반 화학 환경 상관 분석
구체적으로 연구진은 Y4Cu2O7의 단위 셀에 있는 각 원자의 화학적 환경 매트릭스를 추출했습니다. 원자 행렬 사이의 피어슨 계수를 계산하여 위에 표시된 상관 분석 그래프를 생성했습니다. 같은 원소 그룹의 원자들 사이의 피어슨 계수는 다른 원소 그룹의 원자들 사이의 피어슨 계수보다 훨씬 크기 때문에 Y4Cu2O7의 세 가지 원소 그룹을 명확히 구별할 수 있습니다.

6가지 물질의 원자 상관관계는 SEN 모델을 통해 학습되었습니다.
위 그림에서 보듯이, SEN 모델은 원자 상호작용 정보를 학습하고 인코딩했으며, 혼성화 현상을 성공적으로 감지했습니다. 이는 전자적 특성 예측에 매우 중요합니다.
결론 2: SEN 모델의 예측 성능은 MegNet보다 우수하다
연구진은 SEN 모델에서 화학적 환경에서 물질 특성으로의 매핑을 연구하기 위해 MP 데이터베이스에서 5가지 물질(Be(6)Ni(2), Sr(4)Ge(2)S(8), Li(2)V(2)F(12), CsAsF(6), BaB(2)F(8))을 선택했습니다. 이들 물질의 밴드갭은 각각 0 eV, 3.25 eV, 4.86 eV, 7.24 eV, 10.12 eV입니다.
밴드갭과 재료의 화학적 환경의 PDF(확률 밀도 함수) 사이에 강력한 상관관계가 있는 것으로 관찰되었습니다. 즉, 밴드갭이 증가함에 따라 PDF가 점차 확산됩니다. 아래 그림은 재료 화학 환경에서 밴드갭까지 전체 데이터 세트의 투영을 보여줍니다. 6,027개의 결정질 물질은 주요 특징 공간에 고르게 분포되어 있는 반면, 밴드갭의 변화는 전체 공간에서 연속적이고 단조롭습니다.

6027개 재료의 2D t-SNE 플롯. 원의 색깔은 밴드갭 값을 나타냅니다.
머신 러닝 모델이 학습한 특징-속성 관계가 기본적인 물리 원리와 일치하는지 확인하기 위해 연구진은 Ca-OX 물질의 화학적 환경에 대한 2D t-SNE 맵을 생성하고 다양한 물질 특성(구성, 점군, 스핀 분극 등)을 조사했습니다. 그들은 마침내 재료의 밴드갭이 복잡한 재료의 특성에 따라 달라지며, 어떤 주요 요인에 의해서도 간단히 예측될 수 없다는 것을 발견했습니다.
그럼에도 불구하고 SEN 모델은 밴드갭 예측에서 상당한 개선을 이루었습니다.SEN 모델은 테스트 데이터 세트에서 재료의 밴드 갭을 예측할 때 0.25 eV의 평균 제곱 오차(MAE)를 달성합니다. 이는 테스트 데이터 세트에서 MLP, DenseNet, TFN, SE(3) 및 EGNN 모듈이 있는 모델에서 얻은 MAE에 비해 상당한 개선입니다.

대칭성이 다른 결정 재료의 특성 예측
위의 그림 d에 표시된 것처럼 연구진은 다양한 결정계에 대해 SEN 모델과 MegNet21 모델(일반 물질 네트워크 모델)의 예측 품질을 비교했으며, 이를 통해 대칭성 인식이 물질 특성 예측에 상당한 영향을 미친다는 사실을 더욱 명확히 밝혔습니다.오차 분포도에서 볼 수 있듯이 SEN 모델의 예측 성능은 모든 결정계에서 MegNet보다 우수합니다.
또한, SEN 모델은 전체 결정 대칭을 감지하여 효과적인 특성 차원을 크게 줄입니다. 이러한 특징 정리 과정은 과잉 맞춤 문제를 완화하고 물질적 특징에서 속성으로의 매핑을 강화합니다.
이 논문은 다음을 보여줍니다.SEN 모델이 예측한 밴드갭과 형성 에너지의 평균 절대 오차는 일반적인 머신 러닝 모델보다 각각 약 22.9%와 38.3% 낮습니다.
04 AI는 소재산업의 변혁과 발전을 촉진합니다
오랫동안 신소재의 설계, 연구 개발, 재료 특성의 개량은 과학기술 진보의 원동력 중 하나로, 전자, 에너지, 의료, 항공우주 등 여러 분야에서 중요한 역할을 담당해 왔습니다. 그러나 기존의 소재 연구 개발 과정은 성능을 지속적으로 교정하고 실현 가능성을 개선하기 위해 많은 실험이 필요한 경우가 많습니다. 이 과정은 시간이 많이 걸리고 막대한 인력과 재정 자원이 필요합니다.
AI의 적용이 가속화됨에 따라 과학을 위한 AI가 점점 더 많은 주목을 받고 있으며, 소재와의 결합은 점점 더 많은 학자와 기업에게 새로운 탐구 방향이 되고 있습니다. 한편, AI는 방대한 양의 데이터를 분석하고 시뮬레이션 예측을 수행하여 새로운 소재의 발견을 가속화하고 성능을 최적화할 수 있습니다. 반면, 재료과학은 머신러닝, 자연어 처리, 고성능 컴퓨팅과 같은 핵심 AI 기술을 위한 중요한 발판이 되기도 했습니다.
AI가 새로운 소재의 설계와 응용 분야를 조용히 변화시키고 있다고 할 수 있습니다. 앞으로 더욱 강력한 AI 모델이 지속적으로 개발되고, 데이터 공유를 통한 소재 데이터베이스가 업데이트 및 확장됨에 따라 AI는 새로운 소재의 탄생을 더욱 촉진할 것으로 기대됩니다.