HyperAIHyperAI
vor 9 Tagen

ChemBERTa-2: Hin zu chemischen Foundation Models

Walid Ahmad, Elana Simon, Seyone Chithrananda, Gabriel Grand, Bharath Ramsundar
ChemBERTa-2: Hin zu chemischen Foundation Models
Abstract

Große vortrainierte Modelle wie GPT-3 haben durch die Nutzung von selbstüberwachten Lernverfahren zur Erkennung bedeutungsvoller Darstellungen einen enormen Einfluss auf die moderne natürliche Sprachverarbeitung ausgeübt, die sich anschließend leicht auf eine Vielzahl von nachgeschalteten Aufgaben fine-tunnen lassen. In dieser Arbeit untersuchen wir die Möglichkeit, solche Fortschritte auf die molekulare Maschinenlernung zu übertragen, indem wir ein chemisches Grundmodell, ChemBERTa-2, unter Verwendung der SMILES-Sprache aufbauen. Während etikettierte Daten für molekulare Vorhersageaufgaben typischerweise spärlich sind, sind Bibliotheken von SMILES-Strings leicht verfügbar. In dieser Studie bauen wir auf ChemBERTa auf, indem wir den Vortrainingsprozess optimieren. Wir vergleichen Multi-Task- und selbstüberwachtes Vortrainingsverfahren, indem wir Hyperparameter und die Größe des Vortrainingsdatensatzes variieren – bis hin zu 77 Millionen Verbindungen aus PubChem. Nach unserem Wissen stellt dieser Datensatz mit 77 Millionen Verbindungen einen der größten Datensätze dar, die bisher für die Vortrainingsphase in der molekularen Maschinenlernung genutzt wurden. Wir stellen fest, dass sich durch diese Verbesserungen im Vortrainingsprozess eine Wettbewerbsfähigkeit mit bestehenden state-of-the-art-Architekturen im MoleculeNet-Benchmark-Suite erreichen lässt. Zudem analysieren wir, in welchem Maße Verbesserungen im Vortrainingsprozess sich in einer Verbesserung der Leistung auf nachgeschalteten Aufgaben niederschlagen.

ChemBERTa-2: Hin zu chemischen Foundation Models | Neueste Forschungsarbeiten | HyperAI