2 个月前
GemNet-OC:开发用于大型和多样化分子模拟数据集的图神经网络
Johannes Gasteiger; Muhammed Shuaibi; Anuroop Sriram; Stephan Günnemann; Zachary Ulissi; C. Lawrence Zitnick; Abhishek Das

摘要
近年来,分子模拟数据集在规模和多样性方面取得了显著进展,其复杂性主要体现在四个方面:1. 化学多样性(不同元素的数量),2. 系统大小(每个样本中的原子数量),3. 数据集大小(数据样本的数量),4. 领域偏移(训练集和测试集之间的相似度)。尽管这些新数据集存在巨大差异,但在图神经网络(GNNs)用于分子模拟的研究中,小规模且单一的数据集仍然是展示进展的主要方法,这可能是因为它们对计算资源的需求较低。这就引发了一个问题——在小规模且单一的数据集上取得的GNN进展是否能够推广到这些更为复杂的大型数据集?本研究通过基于大规模的Open Catalyst 2020(OC20)数据集开发GemNet-OC模型来探讨这一问题。GemNet-OC在OC20上的表现比之前的最先进模型提高了16%,同时将训练时间缩短了10倍。随后,我们比较了18个模型组件和超参数选择对多个数据集性能的影响。结果表明,根据不同的数据集进行模型选择会导致最终模型有显著差异。为了隔离这种差异的来源,我们研究了OC20数据集的六个子集,每个子集分别测试上述四个方面的复杂性之一。我们发现,在OC-2M子集上的结果与完整的OC20数据集相关性良好,但训练成本要低得多。我们的研究结果挑战了仅在小规模数据集上开发GNNs的常见做法,但也指出了通过使用中等规模且具有代表性的数据集(如OC-2M)以及高效模型(如GemNet-OC)实现快速开发周期和可泛化结果的方法。我们的代码和预训练模型权重已开源。