Molecule3D: 분자 그래프에서 3D 기하학을 예측하기 위한 벤치마크

그래프 신경망은 원자와 화학 결합을 각각 노드와 엣지로 모델링하는 분자 그래프를 처리하기 위한 유망한 방법으로 떠오르고 있습니다. 최근 연구들은 3D 분자 기하구조(결합 길이와 각도 등)가 제공될 때, 분자 특성 예측 작업의 정확성이 향상됨을 보여주었습니다. 그러나 3D 분자 기하구조를 계산하는 것은 양자 계산이 필요하며, 이는 계산적으로 매우 부담스럽습니다. 예를 들어, 작은 분자의 3D 기하구조를 정확히 계산하기 위해서는 밀도 함수 이론(Density Functional Theory, DFT)을 사용하여 수 시간의 계산 시간이 필요합니다. 본 연구에서는 분자 그래프에서 지면 상태의 3D 기하구조를 예측하기 위해 머신 러닝 방법을 제안합니다. 이를 실현하기 위해, 우리는 Molecule3D라는 벤치마크를 개발하였으며, 이 벤치마크에는 DFT로부터 도출된 약 400만 개의 분자의 정확한 지면 상태 기하구조 데이터셋을 포함하고 있습니다. 또한 데이터 처리, 분할, 학습 및 평가 등을 위한 소프트웨어 도구 세트를 제공합니다. 특히, 예측된 기하구조의 오류와 유효성을 평가하기 위해 네 가지 메트릭을 사용하도록 제안합니다. 우리는 원자 간 거리 또는 3D 공간에서의 원자 좌표를 예측하는 두 가지 베이스라인 방법을 구현하였습니다. 실험 결과, RDKit을 사용하여 3D 기하구조를 생성하는 것과 비교했을 때, 우리의 방법은 비슷한 예측 정확도를 달성하면서도 훨씬 적은 계산 비용으로 수행될 수 있음을 보였습니다. 우리의 Molecule3D는 MoleculeX 소프트웨어 라이브러리(https://github.com/divelab/MoleculeX)의 모듈로 이용 가능합니다.