GemNet-OC: Entwicklung von Graph Neural Networks für große und vielfältige Molekülsimulationsdatensätze

In den letzten Jahren sind molekulare Simulationsdatensätze aufgetreten, die um Größenordnungen größer und vielfältiger sind. Diese neuen Datensätze unterscheiden sich erheblich in vier Komplexitätsaspekten: 1. Chemische Vielfalt (Anzahl verschiedener Elemente), 2. Systemgröße (Anzahl der Atome pro Probe), 3. Datensatzgröße (Anzahl der Datenproben) und 4. Domänenverschiebung (Ähnlichkeit von Trainings- und Testset). Trotz dieser großen Unterschiede bleiben Benchmarks auf kleinen und engen Datensätzen die vorherrschende Methode, um Fortschritte in Graph Neural Networks (GNNs) für molekulare Simulation zu demonstrieren, wahrscheinlich aufgrund günstigerer Trainingsrechenanforderungen. Dies wirft die Frage auf – übersetzen sich Fortschritte in GNNs auf kleinen und engen Datensätzen in diese komplexeren Datensätze? In dieser Arbeit wird diese Frage untersucht, indem zunächst das Modell GemNet-OC anhand des großen Open Catalyst 2020 (OC20)-Datensatzes entwickelt wird. GemNet-OC übertrifft den bisherigen Stand der Technik bei OC20 um 16 % und verkürzt die Trainingszeit zehnfach. Anschließend vergleichen wir den Einfluss von 18 Modulkomponenten und Hyperparameter-Wahlen auf die Leistung in mehreren Datensätzen. Wir stellen fest, dass das resultierende Modell je nach verwendetem Datensatz zur Modellauswahl erheblich anders ausfallen würde. Um die Ursache dieser Diskrepanz zu isolieren, untersuchen wir sechs Teilmengen des OC20-Datensatzes, die jeweils einen der oben genannten vier Aspekte des Datensatzes testen. Wir finden heraus, dass die Ergebnisse im OC-2M-Teilmenge gut mit dem vollständigen OC20-Datensatz korrelieren, während sie erheblich günstiger zu trainieren sind. Unsere Erkenntnisse fordern die übliche Praxis heraus, GNNs ausschließlich auf kleinen Datensätzen zu entwickeln, zeigen aber auch Wege auf, wie schnelle Entwicklungszyklen und verallgemeinerbare Ergebnisse durch moderat große, repräsentative Datensätze wie OC-2M und effiziente Modelle wie GemNet-OC erreicht werden können. Unser Code und die vortrainierten Modellgewichte sind Open Source.关键词翻译:- Graph Neural Networks (GNNs): Graph Neural Networks (GNNs)- Open Catalyst 2020 (OC20): Open Catalyst 2020 (OC20)- GemNet-OC: GemNet-OC- OC-2M: OC-2M