2ヶ月前

GemNet-OC: 大規模かつ多様な分子シミュレーションデータセット向けのグラフニューラルネットワークの開発

Johannes Gasteiger; Muhammed Shuaibi; Anuroop Sriram; Stephan Günnemann; Zachary Ulissi; C. Lawrence Zitnick; Abhishek Das
GemNet-OC: 大規模かつ多様な分子シミュレーションデータセット向けのグラフニューラルネットワークの開発
要約

近年、分子シミュレーションのデータセットが数桁大きく、多様性も増している。これらの新しいデータセットは、以下の4つの複雑さの側面で大きく異なる:1. 化学的多様性(異なる元素の数)、2. システムサイズ(サンプルあたりの原子数)、3. データセットサイズ(データサンプル数)、4. ドメインシフト(訓練セットとテストセットの類似度)。これらの大きな違いにもかかわらず、グラフニューラルネットワーク(GNN)における分子シミュレーションの進歩を示す方法として、小さな範囲のデータセットでのベンチマークが依然として主流である。これはおそらく、より安価な訓練計算リソースを必要とするためである。この状況は次のような疑問を提起する -- 小さく限定されたデータセットでのGNNの進歩は、より複雑なデータセットにどのように反映されるのか?本研究では、まず大規模なOpen Catalyst 2020 (OC20) データセットに基づいてGemNet-OCモデルを開発し、この問題を調査した。GemNet-OCはOC20において従来の最先端技術よりも16%優れた性能を示し、さらに訓練時間を10分の1に削減した。その後、18種類のモデルコンポーネントとハイパーパラメータ選択が複数のデータセットでの性能に与える影響を比較した。その結果、モデル選択のために使用されるデータセットによって、最終的なモデルは大きく異なることが判明した。この乖離の原因を特定するために、上記4つのデータセット側面それぞれを個別にテストする6つのOC20サブセットを研究した。その結果、OC-2MサブセットではフルスケールのOC20データセットとの相関性が高く、かつ訓練コストが大幅に低いことが確認された。本研究の知見は、GNN開発において小さなデータセットのみを使用するという一般的な実践方法に挑戦しているが、同時に適切な大きさで代表的なデータセット(例:OC-2M)や効率的なモデル(例:GemNet-OC)を使用することで高速な開発サイクルと汎化可能な結果を得られる方法も指摘している。当該コードおよび事前学習済みモデルの重みはオープンソース化されている。以上が翻訳となります。ご確認ください。