HyperAIHyperAI
il y a 2 mois

GemNet-OC : Développement de réseaux neuronaux graphiques pour des ensembles de données de simulation moléculaire grands et diversifiés

Johannes Gasteiger; Muhammed Shuaibi; Anuroop Sriram; Stephan Günnemann; Zachary Ulissi; C. Lawrence Zitnick; Abhishek Das
GemNet-OC : Développement de réseaux neuronaux graphiques pour des ensembles de données de simulation moléculaire grands et diversifiés
Résumé

Ces dernières années ont vu l'émergence de jeux de données de simulation moléculaire qui sont d'ordres de grandeur plus volumineux et plus diversifiés. Ces nouveaux jeux de données diffèrent considérablement dans quatre aspects de complexité : 1. Diversité chimique (nombre d'éléments différents), 2. Taille du système (nombre d'atomes par échantillon), 3. Taille du jeu de données (nombre d'échantillons de données), et 4. Décalage de domaine (similarité entre les ensembles d'entraînement et de test). Malgré ces différences importantes, les benchmarks sur des jeux de données petits et restreints restent la méthode prédominante pour démontrer les progrès dans les réseaux neuronaux à graphes (GNN) pour la simulation moléculaire, probablement en raison des exigences moins coûteuses en termes de calcul pour l'entraînement. Cela soulève la question suivante : les progrès des GNN sur des jeux de données petits et restreints se traduisent-ils par des améliorations sur ces jeux de données plus complexes ? Cette étude examine cette question en développant tout d'abord le modèle GemNet-OC basé sur le vaste jeu de données Open Catalyst 2020 (OC20). GemNet-OC surpassant l'état de l'art précédent sur OC20 avec une amélioration de 16 % tout en réduisant le temps d'entraînement par un facteur de 10. Nous comparons ensuite l'impact de 18 composants du modèle et des choix d'hyperparamètres sur les performances dans plusieurs jeux de données. Nous constatons que le modèle résultant serait radicalement différent selon le jeu de données utilisé pour faire les choix du modèle. Pour isoler la source de cette discordance, nous étudions six sous-ensembles du jeu de données OC20 qui testent individuellement chacun des quatre aspects mentionnés ci-dessus. Nous trouvons que les résultats obtenus sur le sous-ensemble OC-2M corréllent bien avec ceux du jeu de données complet OC20 tout en étant nettement moins coûteux à entraîner. Nos conclusions remettent en question la pratique courante consistant à développer des GNN uniquement sur des jeux de données petits, mais mettent en lumière des moyens d'atteindre des cycles rapides de développement et des résultats généralisables grâce à des jeux de données modérément volumineux et représentatifs tels que OC-2M, ainsi qu'à des modèles efficaces comme GemNet-OC. Notre code et nos poids prédéfinis sont mis à disposition sous licence open-source.

GemNet-OC : Développement de réseaux neuronaux graphiques pour des ensembles de données de simulation moléculaire grands et diversifiés | Articles de recherche récents | HyperAI