컬럼비아 대학 팀은 나노결정의 종단 간 분석을 달성하기 위해 처음으로 PXRDnet을 제안하고 200개의 복잡한 시뮬레이션 나노결정을 성공적으로 분석했습니다.

X선 회절(XRD)의 발견과 응용은 결정학의 발전에 있어서 중요한 이정표입니다. 이 기술을 통해 사람들은 결정의 미세구조를 깊이 이해할 수 있었고, 이는 결국 재료 과학과 인간 문명 전체의 진보를 촉진했기 때문입니다. 그러나 전통적인 방법으로는 작은 입자로 구성된 분말 나노결정을 처리할 경우 원하는 결과가 나오지 않습니다.
나노결정의 크기가 제한되어 있기 때문에(일반적으로 1000Å 미만)X선 회절 패턴에서 브래그 피크는 뚜렷한 확장을 보인다.이로 인해 구조 정보가 심각하게 크게 저하되어 결정 구조를 정확하게 규명하는 데 큰 어려움이 따릅니다. 게다가 실제 상황에서 순수한 단결정 시료를 얻는 것이 어렵기 때문에 구조 분석의 어려움은 더욱 커진다. 나노결정 구조 분석은 100년 동안 재료 과학계를 괴롭혀 온 "수세기 된 문제"가 되었습니다.
이 문제를 해결하기 위해 컬럼비아 대학과 스탠포드 대학의 연구진은 확산 모델을 기반으로 한 생성적 인공지능 구조 분석 방법인 PXRDnet을 제안했습니다.이 모델은 45,229개의 알려진 결정 구조를 훈련 데이터로 사용하고 통계적 사전 지식을 도입합니다.화학식과 정보가 부족한 제한된 크기의 확대된 분말 회절 패턴만을 조건으로 사용하더라도, PXRDnet은 다양한 대칭성과 복잡성을 지닌 200개의 시뮬레이션된 나노결정을 성공적으로 분해할 수 있었습니다.7가지 결정계의 구조가 모두 포함되어 있으며, 크기는 최대 10Å까지입니다.실험 결과에 따르면, 이 모델은 리트벨트 세분화 r 인자로 측정한 후 평균 오차가 7%에 불과해 구조적 후보 5개 중 4개를 성공적이고 검증 가능하게 식별할 수 있었습니다.
관련 연구는 "확산 모델을 통한 나노결정 분말 회절 데이터의 이니티오 구조 솔루션"이라는 제목으로 Nature Materials에 게재되었습니다.
연구 하이라이트:
* 이번 성과는 재료과학계에서 오랫동안 제기되어 온 나노결정 구조 분석의 난제를 해결하고, 나노기술, 생물의학, 에너지 저장, 전자소자 등 다양한 분야에서 혁신적인 응용을 촉진할 것으로 기대되는 효율적인 인공지능 분석 도구를 제공했다.
* 이 방법은 기존 방법의 적용 경계를 크게 뛰어넘어 많은 경우 실제 구조에 가까운 후보 솔루션을 얻습니다.
* 본 연구에서는 MP-20-PXRD 벤치마크 데이터 세트(Materials Project의 원자 20개 미만을 갖는 안정된 물질 및 이들의 시뮬레이트된 회절 데이터 포함)를 제안하고 코드 및 데이터 세트를 공개하여 후속 연구를 위한 통일된 표준을 제공했습니다.

서류 주소:
https://go.hyper.ai/r1K6b
Materials Project 온라인 재료 데이터베이스:
https://go.hyper.ai/2gCe9
데이터 세트: 제안된 MP-20-PXRD 벤치마크 데이터 세트
효과적인 모델을 얻기 위해 연구진은 PXRDnet의 종단 간 학습을 위해 MP-20-PXRD라는 벤치마크 데이터 세트를 제공했습니다.
구체적으로 연구진은 Materials Project의 MP-20 데이터 세트를 사용했습니다.이 데이터 세트는 단위 셀에 최대 20개의 원자가 포함된 Materials Project 데이터베이스에서 샘플링된 재료로 구성되어 있습니다.그런 다음 연구진은 pymatgen 패키지를 사용하여 MP-20의 모든 구조에 대한 분말 회절 패턴을 시뮬레이션했습니다.
Materials Project 온라인 재료 데이터베이스:
https://go.hyper.ai/2gCe9
시뮬레이션에서는 Q 범위가 0~8.1568 Å⁻¹인 Cu Kα 방사선을 사용했습니다.
MP-20-PXRD 데이터 세트에는 45,229개의 재료가 포함되어 있습니다.90%, 7.5% 및 2.5%의 비율은 훈련, 검증 및 테스트에 사용됩니다. MP-20-PXRD 데이터 세트는 오픈 소스로 공개되었으며, 연구자들은 이를 통해 "후발주자"들이 나노결정 구조 분석을 위한 새로운 솔루션을 더욱 탐구하도록 영감을 주기를 바라고 있습니다.
모델 아키텍처: CDVAE 기반, PXRD 회귀 분석기 도입
PXRDnet 모델은 CDVAE 아키텍처를 기반으로 설계되었습니다.이는 주로 원자 잡음 제거 분기, 변형 자동 인코더(VAE) 분기, PXRD 회귀 분기라는 세 가지 주요 분기로 구성됩니다.이들은 공유된 가우시안 잠재 코드를 통해 연결됩니다. 이러한 접근 방식을 통해 PXRDnet은 PXRD 패턴과 화학식을 바탕으로 자격을 갖춘 재료 구조 후보를 정확하게 생성하여 나노재료 구조 분석에 대한 새로운 통찰력을 제공합니다.

CDVAE 기반 골격 개발
PXRDnet을 소개할 때, 먼저 PXRDnet의 기반이 되는 CDVAE 모델을 언급하지 않을 수 없습니다.CDVAE는 재료 구조 생성 모델입니다.이는 변분 자동 인코더와 잡음 제거 확산 네트워크에서 영감을 얻었으며, 잡음으로부터 데이터를 압축 해제하는 방법을 학습하는 생성 모델입니다.
VAE와 확산 성분의 분해를 이해하기 위해 연구진은 물질의 단위 셀이 화학적 조성, 원자 수, 격자 매개변수, 원자 좌표의 네 가지 성분으로 표현될 수 있다는 것을 깨달았습니다.
CDVAE의 첫 번째 분기는 VAE를 사용하여 처음 세 가지 구성 요소를 처리합니다.인코더는 그래프 표현을 잠재 표현 z에 매핑하는 SE(3)-불변 그래프 신경망인 DimeNet입니다. 그래프 표현은 물질의 고유한 주기성을 반영하기 위해 유향 다중 그래프로 수정되었습니다. 그런 다음 연구자들은 쿨백-라이블러 발산 손실을 사용하여 잠재 표현 z를 다변수 가우시안 분포로 정규화한 다음 z에서 화학적 구성, 원자 번호 및 격자 매개변수를 디코딩했습니다.
각 예측은 잠재 코드 z를 수신하는 별도의 결정 매개변수화 다층 퍼셉트론(MLP)에 의해 생성됩니다.z는 후속 모델의 다른 모든 분기에서 재료 표현으로 사용됩니다.
CDVAE의 두 번째 분기는 잡음 제거 확산을 활용하여 잡음 조절 스코어 네트워크를 통해 구성 요소를 처리합니다.이는 구성 원자의 수와 격자 매개변수가 고정되어 있다고 가정합니다. 순방향 프로세스는 다변수 가우시안 노이즈를 사용하여 원자 좌표와 원자 종을 교란시킵니다. 역방향 프로세스는 SE(3)-등가 그래프 신경망인 GemNet을 사용하여 매개변수화됩니다. 이 과정은 위에서 설명한 잠재 코드 z에 따라 결정되며, 이는 정상적인 작동의 기초가 됩니다.
언급할 가치가 있는 것은 다음과 같습니다.역과정은 본질적으로 랑주뱅 동역학을 통해 교란된 원자 좌표와 원자 종에서 잡음을 제거하는 방법을 예측하는 것입니다.그들을 본래 위치로 이동시키고 본래의 종으로 복귀시키세요. 마찬가지로, 출력 그래프 표현은 재료의 주기성과 호환되는 방향성 다중 그래프입니다.
생성 단계에서 CDVAE는 먼저 다변수 가우시안 분포에서 잠재 코드 z ≈ N (0, I)를 샘플링합니다.결정 매개변수 다층 퍼셉트론을 사용하여 이를 디코딩하고 구성 요소의 화학적 구성, 원자 번호 및 격자 매개변수를 얻습니다. 이를 사용하여 단위 셀을 초기화할 수 있으며, 여기서 원자 위치는 N(0, I)에서 무작위로 선택됩니다. 원자 위치와 유형은 Langevin 동역학 SE(3) 등변 이미지 잡음 제거 프로세스를 통해 최적화됩니다. 전체 잡음 제거 과정 동안 격자 매개변수와 원자 번호는 변하지 않고 최종적으로 최종 물질이 얻어집니다.
특별히 설계된 PXRD 회귀기
또한 본 연구에서는 분말 X-선 회절(PXRD) 패턴을 예측하고자 하는 원하는 특성으로 설정하여, 연구진은 잠재적 물질 표현 z∈R을 변환하는 PXRD 회귀자 Fψ를 설계했습니다.256 벡터 y∈R에 매핑됨512즉, 재료의 PXRD 패턴에 대한 추정 Q-공간 특성입니다.
PXRD 회귀자는 DenseNet에서 영감을 받은 아키텍처로 매개변수화됩니다.이 아키텍처는 기존의 합성 신경망을 확장합니다..회귀 분석기는 1차원 입력과 출력을 갖춘 고밀도 연결 아키텍처를 갖춘 CrystalNet의 디자인을 기반으로 합니다. 특히, 네트워크의 주어진 깊이에 대해DenseNet은 이전 중간 데이터 표현을 다음 합성곱 계층의 입력으로 집계합니다.아래 그림과 같습니다.

연구 결과에 따르면 DenseNet은 사라지는 그래디언트 문제를 줄이고 표준 컴퓨터 비전 벤치마크에서 뛰어난 결과를 달성합니다.
실험 결과: 실제 세계 적용 가능성
일반적으로 나노구조는 크기가 1000Å 미만인 결정으로 정의되지만, 제안된 방법의 효과를 시험하기 위해 연구진은 결정 크기를 두 자릿수까지 줄이고, 푸리에 분석에 기반한 수학적 필터링 방법을 사용하여 결정 크기가 10Å와 100Å인 PXRD 방법을 시뮬레이션했습니다. 예상대로,10Å의 경우는 100Å의 경우보다 피크 확장이 더 크게 나타나 정보 저하가 더 확증되었음을 나타냅니다.아래 그림과 같습니다.

이 이미지는 연구자들이 sinc² 필터링을 사용하여 나노스케일 수축이 PXRD 피크에 미치는 영향을 어떻게 시뮬레이션했는지 보여줍니다. 그 중 회색선은 이상적인 모드를 나타내고, 보라색선은 처리 후 넓어진 PXRD 피크를 나타냅니다.모델 성능을 개선하기 위해 연구진은 싱크 필터 다음에 추가적인 가우시안 필터를 적용했습니다.이렇게 하면 회절 피크가 넓어지지만, 필터링으로 인해 생긴 날카로운 잔물결을 효과적으로 제거할 수 있습니다. 수평축은 산란 벡터의 크기를 Å⁻¹ 단위로 나타내고, 수직축은 확장된 회절 강도를 나타내며, 1은 최대 강도 값을 나타냅니다.
다음으로 연구진은 아래와 같이 PXRDnet 구조 예측을 제시했습니다. 가장 왼쪽 열은 실제 결정 구조를 보여주고, 다른 열은 리트벨트 정제 후 PXRD 패턴으로 PXRDnet에서 시뮬레이션한 직경 10Å 및 100Å의 나노결정의 재구성된 결정 구조를 보여줍니다.

연구 결과에 따르면 PXRDnet은 다양한 무기 화학 성분의 물질 구조 분석에 우수한 성능을 보였습니다.100Å 시뮬레이션 결정 크기에서는 성능이 약간 더 뛰어나지만, 더 까다로운 10Å 시뮬레이션 결정 크기에서는 여전히 뛰어납니다.예를 들어, PXRDnet은 Cs₂YCuCl₆ 및 SmMn₂SiC와 같은 물질의 결정 모양을 성공적으로 포착할 수 있으며, Cs₂YCuCl₆ 및 BaSrMnWO₆와 같은 물질의 대칭성도 성공적으로 포착할 수 있습니다. 또한 Li₅Nb₂Cu₃O₁₀ 또는 Sb₂F₁₃의 실패와 같은 극단적인 경우에도 PXRDnet은 여전히 실험에 귀중한 참고자료를 제공할 수 있습니다.
아래 그림은 실제 PXRD 패턴, PXRDnet이 예측한 원래 패턴, Rietveld 개선 후 패턴을 비교하여 예측 모델과 실제 데이터 간의 일치 정도를 보여주고, 모델의 예측 정확도를 효과적으로 향상시킬 수 있는 Rietveld의 필요성을 검증합니다. 예를 들어, 100 Å에서 Sb₂F₁₃에 대한 예측 차이는 0.681이었으나, 정밀화(AI+Rietveld) 후 0.019로 감소했습니다.

실제 PXRD 패턴, 원래 PXRDnet 예측 패턴 및 Rietveld 정제 후 패턴 비교
다음 표는 PXRDnet이 MP-20의 재료를 성공적으로 재구성할 수 있음을 보여줍니다.CDVAE-Search 기준선과 비교했을 때, PXRDnet의 예측 결과는 더욱 뛰어납니다.

연구진은 결과를 더욱 개선하기 위해 PXRDnet으로 분석된 균일하게 선택된 20개의 구조에 대해 Rietveld 정밀화를 수행하여 각 구조에 대해 상위 10개의 후보 입력을 선택했습니다. 아래 그림과 같습니다.

결과는 다음과 같습니다리트벨트 정밀화는 브래그 피크가 더 날카로운 100 Å 테스트에 특히 효과적이었으며, 테스트한 20개 구조 중 18개가 20% 미만, 15개가 10% 미만이었습니다.이는 몇 가지 사소한 문제가 있음에도 불구하고 PXRDnet이 여전히 실제 구조에 가까운 결과를 지속적으로 출력할 수 있으며, 각 경우에 적절한 인간의 개입을 통해 올바른 구조를 얻을 수 있음을 보여줍니다.
마지막으로 연구진은 IUCr 데이터베이스의 데이터를 사용하여 PXRD 테스트 성능을 실험적으로 검증했습니다. 아래 그림과 같습니다.

가장 왼쪽 열은 IUCr 데이터베이스에서 얻은 실험적으로 관찰된 PXRD 패턴을 기반으로 한 벤치마크 구조를 보여주고, 가운데 열은 PXRDnet에서 예측한 구조를 보여주고, 오른쪽 열은 TOPAS(v.7) 시뮬레이션된 PXRD와 실제 실험적으로 관찰된 PXRD를 비교한 결과를 보여줍니다.연구 결과에 따르면 PXRDnet은 시뮬레이션과 현실 간의 차이를 극복했으며, 시각적 분석과 정량적 측정 측면에서 시뮬레이션 데이터에서 얻은 결과와 비슷한 결과를 보였습니다. 이는 제안된 모델이 실제 시나리오에 적용될 수 있는 잠재력을 보여준다는 것을 보여줍니다.
AI와 재료 과학이 결합되어 수세기 동안 해결되지 않은 문제를 해결합니다.
PXRDnet의 도입으로 재료 과학계에서 수세기 동안 지속되어 온 문제가 해결되었습니다. 논문에서 언급했듯이 이 방법은 다른 구조적 솔루션과 마찬가지로 100% 성공적이지는 않지만 구조적 해명을 탐구하기 위한 후보 방법을 제공하여 성공으로 가는 더 많은 문을 열어줍니다.
물론 PXRDnet의 성공은 하룻밤 사이에 이루어진 것이 아니며, 거인들의 어깨 위에 서서 끊임없이 탐구해 온 결과입니다. 인공지능과 나노소재의 교차점에서 수많은 과학 연구자들이 획기적인 발견을 위해 끊임없이 노력하고 있습니다.
예를 들어, MIT, 스탠포드 대학 및 기타 팀이 발표한 "생성적 머신 러닝을 통한 분말 회절 패턴으로부터의 결정 구조 결정" 연구여기서는 실제 실험적 PXRD 데이터로부터 결정 구조를 밝혀낼 수 있는 획기적인 생성적 머신 러닝 모델을 소개합니다.연구진은 실험을 통해 RRUFF 데이터베이스에서 134개 실험 패턴의 구조를 예측하고 Materials Project에서 수천 개의 시뮬레이션 패턴을 예측했으며, 모델 일치율은 각각 최첨단인 42%와 67%에 도달했습니다.
서류 주소:
https://pubs.acs.org/doi/10.1021/jacs.4c10244
이 밖에도 중국과학원, 상하이교통대학, 청화대학, 중국인민대학의 팀도 관련 연구를 발표했습니다.우리는 실험적으로 안정한 결정의 구조적 분포와 PXRD 패턴을 학습하여 결정 구조를 결정할 수 있는 종단간 신경망 PXRDGen을 제안합니다.원자 정밀 구조는 PXRD 데이터에서 추출되었습니다. 이 모델은 사전 학습된 XRD 인코더, 확산/흐름 기반 구조 생성기, 리트벨트 정밀화 모듈을 계승하여 단 몇 초 만에 구조를 정확하게 분해할 수 있습니다. 관련 연구는 "생성 모델을 사용한 분말 회절 결정 구조 결정"이라는 제목으로 출판되었습니다.
서류 주소:
https://arxiv.org/abs/2409.04727
요약하자면, PXRDnet과 다른 방법에 대한 탐구를 통해 재료 과학 커뮤니티는 전통적인 방법에서 인공 지능과 재료 과학의 교차 통합으로 전환할 수 있었습니다. 이 연구는 획기적인 진전을 이루고 재료 과학계가 직면한 문제를 해결했을 뿐만 아니라, 후속 연구를 위한 새로운 아이디어와 방법을 제공하여 재료 과학의 미래 발전에 새로운 활력을 불어넣었습니다.