EGraFFBench: 원자 시뮬레이션을 위한 등변 그래프 신경망 힘장 평가

등변 그래프 신경망 힘장(Equivariant Graph Neural Network Force Fields, EGraFFs)은 그래프의 고유한 대칭성을 활용하여 원자 시스템에서 복잡한 상호작용을 모델링하는 데 큰 잠재력을 보여주고 있습니다. 최근 연구들은 등변성 기반 유도 편향(equivariance-based inductive biases)과 그래프 트랜스포머(graph transformers), 메시지 패싱(message passing) 등의 건축적 혁신을 결합하여 원자 상호작용을 모델링하는 새로운 아키텍처 개발에 큰 진전을 가져왔습니다. 그러나 이러한 EGraFFs를 실제 원자 시뮬레이션(real-world atomistic simulations)에 적용한 철저한 평가가 부족한 상태입니다.이를 해결하기 위해, 본 연구에서는 NequIP, Allegro, BOTNet, MACE, Equiformer, TorchMDNet 등 6개의 EGraFF 알고리즘을 체계적으로 벤치마킹(benchmarking)합니다. 이는 현실적인 원자 시뮬레이션에서 각 알고리즘의 능력과 한계를 이해하기 위한 목표로 수행되었습니다. 기존 벤치마킹 문헌에 기반한 8개 데이터셋에 대한 철저한 평가와 분석 외에도, 우리는 두 개의 새로운 벤치마크 데이터셋을 공개하고, 네 가지 새로운 지표와 세 가지 도전적인 과제를 제안합니다. 새로운 데이터셋과 과제는 다른 결정 구조, 온도 및 새로운 분자의 경우 외부 분포(out-of-distribution) 데이터에 대한 EGraFF의 성능을 평가하는 데 사용됩니다.흥미롭게도, 동적 시뮬레이션(dynamic simulations)을 기반으로 한 EGraFF 모델들의 평가는 에너지 또는 힘 오차가 낮다고 해서 반드시 안정적이거나 신뢰할 수 있는 시뮬레이션이나 원자 구조의 충실한 재현이 보장되지 않는다는 것을 밝혔습니다. 또한, 모든 데이터셋과 과제에서 어느 하나의 모델이 명확히 다른 모델들을 능가하지 않는다는 점을 발견했습니다. 특히, 모든 모델들이 외부 분포 데이터셋에서 불안정한 성능을 보이는 것으로 나타났으며, 이는 실제 시뮬레이션에 사용될 수 있는 힘장(force field)의 기초 모델 개발 필요성을 강조합니다.요약하자면, 본 연구는 원자 시뮬레이션 맥락에서 머신러닝 힘장을 평가하기 위한 엄격한 프레임워크를 확립하였으며, 이 영역 내에서 여전히 해결해야 할 연구 과제들을 지적하였습니다.