2달 전

GemNet-OC: 대규모 및 다양한 분자 시뮬레이션 데이터셋을 위한 그래프 신경망 개발

Johannes Gasteiger; Muhammed Shuaibi; Anuroop Sriram; Stephan Günnemann; Zachary Ulissi; C. Lawrence Zitnick; Abhishek Das
GemNet-OC: 대규모 및 다양한 분자 시뮬레이션 데이터셋을 위한 그래프 신경망 개발
초록

최근 몇 년 동안 분자 시뮬레이션 데이터셋의 크기와 다양성이 수십 배로 증가하였습니다. 이러한 새로운 데이터셋은 다음과 같은 네 가지 복잡성 측면에서 크게 다릅니다: 1. 화학적 다양성(다른 원소의 수), 2. 시스템 크기(샘플당 원자 수), 3. 데이터셋 크기(데이터 샘플의 수), 4. 도메인 이동(훈련 세트와 테스트 세트의 유사성). 이러한 큰 차이에도 불구하고, 그래프 신경망(GNN)을 위한 분자 시뮬레이션에서 진전을 보여주는 주요 방법은 여전히 작은 규모와 좁은 범위의 데이터셋에 대한 벤치마크입니다. 이는 아마도 더 저렴한 훈련 컴퓨팅 요구사항 때문일 것입니다. 이에 따라 다음과 같은 질문이 제기됩니다 -- 작은 규모와 좁은 범위의 데이터셋에서 GNN의 진전이 이러한 더 복잡한 데이터셋으로 전환되는가? 본 연구에서는 먼저 대규모 오픈 촉매제 2020(OC20) 데이터셋을 기반으로 GemNet-OC 모델을 개발하여 이 질문을 조사합니다. GemNet-OC는 OC20에서 이전 최고 성능을 16% 뛰어넘으며, 훈련 시간을 10배 단축시켰습니다. 그 다음, 우리는 여러 데이터셋에서 성능에 미치는 영향을 비교하기 위해 18개의 모델 구성 요소 및 하이퍼파라미터 선택을 검토하였습니다. 결과적으로, 모델 선택에 사용된 데이터셋에 따라 최종 모델이 크게 다르다는 것을 발견했습니다. 이러한 차이의 원인을 고립시키기 위해 우리는 각각 위에서 언급한 네 가지 데이터셋 측면을 개별적으로 테스트하는 OC20 데이터셋의 여섯 개 하위 집합을 연구하였습니다. OC-2M 하위 집합에서의 결과가 전체 OC20 데이터셋과 잘 상관되면서도 훈련 비용이 크게 절감됨을 확인하였습니다. 우리의 연구 결과는 GNN 개발이 오직 작은 규모의 데이터셋에만 의존하는 일반적인 관행에 도전하지만, 중간 규모의 대표적인 데이터셋 such as OC-2M 및 효율적인 모델 such as GemNet-OC를 통해 빠른 개발 주기를 유지하면서도 일반화된 결과를 얻는 방법들을 강조합니다. 우리의 코드와 사전 학습된 모델 가중치는 오픈 소스로 공개되었습니다.注:为了保持专业性和信息完整性,部分不常见的术语在括号中标注了原文。

GemNet-OC: 대규모 및 다양한 분자 시뮬레이션 데이터셋을 위한 그래프 신경망 개발 | 최신 연구 논문 | HyperAI초신경