HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Die Erweiterung der Grenzen der Vorhersage molekularer Eigenschaften für die Arzneimittelentwicklung mittels Multitask-Learning BERT, verbessert durch SMILES-Aufzählung

{DS Cao TJ Hou AP Lu CQ Yang XX Zeng JC Yi CK Wu XC Zhang}

Abstract

Die präzise Vorhersage pharmakologischer Eigenschaften kleiner Moleküle gewinnt im Bereich der Arzneimittelentwicklung zunehmend an Bedeutung. Traditionelle Ansätze basierend auf Merkmalsingenieurwesen stützen sich stark auf handgefertigte Deskriptoren und/oder Fingerprints, die umfangreiche fachliche Expertise erfordern. Mit dem rasanten Fortschritt der Künstlichen Intelligenz haben datengetriebene tiefen Lernmethoden gegenüber herkömmlichen Merkmalsingenieur-Methoden unübertroffene Vorteile gezeigt. Allerdings leiden bestehende tiefen Lernansätze häufig unter dem Mangel an beschrifteten Daten und der Unfähigkeit, Informationen zwischen verschiedenen Aufgaben zu teilen, wenn sie zur Vorhersage molekularer Eigenschaften eingesetzt werden, was zu einer schlechten Generalisierungsfähigkeit führt. Hier präsentieren wir einen neuartigen Multitask-Lern-BERT-(Bidirektionale Encoder-Repräsentationen aus Transformer)-Rahmen, namens MTL-BERT, der die große Menge an vortrainierten Daten, Multitask-Lernen und SMILES-Enumeration (Simplified Molecular Input Line Entry Specification) nutzt, um das Problem des Datenmangels zu mildern. MTL-BERT nutzt zunächst eine große Menge an unlabeled Daten durch selbstüberwachtes Vortrainieren, um die reichhaltige Kontextinformation in SMILES-Strings zu erschließen, und feinjustiert anschließend das vortrainierte Modell gleichzeitig für mehrere nachgeschaltete Aufgaben, indem es deren gemeinsame Informationen ausnutzt. Gleichzeitig dient die SMILES-Enumeration als Datenverstärkungsstrategie während des Vortrainierens, der Feinjustierung und der Testphase, um die Datenvielfalt erheblich zu erhöhen und dabei zu helfen, zentrale relevante Muster aus komplexen SMILES-Strings zu lernen. Die experimentellen Ergebnisse zeigen, dass das vortrainierte MTL-BERT-Modell mit nur geringfügiger zusätzlicher Feinjustierung auf den meisten der 60 praktischen molekularen Datensätze eine deutlich bessere Leistung erzielt als die derzeit besten Methoden. Zudem nutzt das MTL-BERT-Modell Aufmerksamkeitsmechanismen, um sich auf die SMILES-Zeichenmerkmale zu konzentrieren, die für die Ziel-Eigenschaften entscheidend sind, was die Interpretierbarkeit des Modells erhöht.

Benchmarks

BenchmarkMethodikMetriken
molecular-property-prediction-on-bbbp-1Cano-BERT
ROC-AUC: 89.2
molecular-property-prediction-on-bbbp-1STL-BERT
ROC-AUC: 89.6
molecular-property-prediction-on-bbbp-1MTL-BERT
ROC-AUC: 93.0

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Die Erweiterung der Grenzen der Vorhersage molekularer Eigenschaften für die Arzneimittelentwicklung mittels Multitask-Learning BERT, verbessert durch SMILES-Aufzählung | Forschungsarbeiten | HyperAI