HyperAIHyperAI
il y a 9 jours

ChemBERTa-2 : Vers des modèles fondamentaux chimiques

Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar
ChemBERTa-2 : Vers des modèles fondamentaux chimiques
Résumé

Les grands modèles préentraînés tels que GPT-3 ont eu un impact considérable sur le traitement du langage naturel moderne en exploitant l’apprentissage auto-supervisé pour apprendre des représentations pertinentes, facilement adaptables à une grande variété de tâches ultérieures par fine-tuning. Nous explorons la possibilité de transférer ces progrès au domaine de l’apprentissage automatique sur les molécules en construisant un modèle fondamental chimique, ChemBERTa-2, en utilisant le langage des SMILES. Bien que les données étiquetées pour les tâches de prédiction moléculaire soient généralement rares, des bibliothèques de chaînes SMILES sont facilement accessibles. Dans ce travail, nous améliorons ChemBERTa en optimisant le processus d’entraînement préalable. Nous comparons l’entraînement multi-tâches et l’entraînement auto-supervisé en variant les hyperparamètres et la taille des jeux de données d’entraînement préalable, jusqu’à 77 millions de composés provenant de PubChem. À notre connaissance, cet ensemble de 77 millions de composés constitue l’un des plus grands jeux de données utilisés à ce jour pour l’entraînement préalable sur les molécules. Nous constatons que, grâce à ces améliorations de l’entraînement préalable, notre modèle est compétitif avec les architectures les plus avancées existantes sur le benchmark MoleculeNet. Nous analysons en quoi les progrès apportés à l’entraînement préalable se traduisent par une amélioration des performances sur les tâches ultérieures.