17일 전

기계학습 예측 오차가 DFT 정확도보다 우수함

{O. Anatole von Lilienfeld, George E. Dahl, Samuel S. Schoenholz, Bing Huang, Steven Kearnes, Patrick F. Riley, Luke Hutchison, Justin Gilmer, Felix A. Faber, Oriol Vinyals}
기계학습 예측 오차가 DFT 정확도보다 우수함
초록

우리는 유기 분자의 13개 전자기본상태 성질에 대한 빠른 기계학습(ML) 모델 구축 시 회귀 변수(regressor) 및 분자 표현 방식의 선택이 미치는 영향을 조사한다. 각 회귀 변수/표현 방식/성질 조합의 성능은 최대 약 117,000개의 고유한 분자를 포함하는 학습 데이터셋 크기에 따라 외부 샘플 오차(out-of-sample error)를 보고하는 학습 곡선을 통해 평가된다. 학습 및 테스트에 사용된 분자 구조와 성질은 하이브리드 밀도함수이론(DFT) 수준에서 계산된 QM9 데이터베이스[Ramakrishnan 등, {em Scientific Data} {bf 1}, 140022 (2014)]에서 가져오며, 전기쌍극자 모멘트, 분극성, HOMO/LUMO 에너지 및 갭, 전자 공간 확장도, 제로점 진동 에너지, 원자화 엔탈피 및 자유 에너지, 열용량, 그리고 최고 기본 진동 주파수를 포함한다. 기존 문헌에서 제안된 다양한 분자 표현 방식(쿠론 행렬, bond의 bag of bonds, BAML 및 ECFP4, 분자 그래프(MG)) 외에도, 새로 개발된 분포 기반 표현 방식인 거리 분포 히스토그램(HD), 각도 분포 히스토그램(HDA/MARAD), 이면각 분포 히스토그램(HDAD)도 고려되었다. 회귀 모델로는 선형 모델(Bayesian ridge 회귀(BR), 엘라스틱넷 정규화를 적용한 선형 회귀(EN)), 랜덤 포레스트(RF), 커널 리지 회귀(KRR), 그리고 그래프 컨볼루션(GC)과 게이트드 그래프 네트워크(GG) 두 가지 유형의 신경망을 사용하였다. 수치적 증거를 통해, 모든 성질에 대해 ML 모델의 예측값이 DFT 결과보다 실험값과 더 가까운 것으로 나타났으며, 특히 하이브리드 DFT 기준에 대한 외부 샘플 예측 오차는 화학 정확도(chemical accuracy) 수준이거나 그에 근접함을 보였다. 본 연구 결과는 전자 상관 효과를 명시적으로 고려한 양자역학적(또는 실험적) 데이터가 가용할 경우, ML 모델이 하이브리드 DFT보다 더 정확할 수 있음을 시사한다.

기계학습 예측 오차가 DFT 정확도보다 우수함 | 최신 연구 논문 | HyperAI초신경