HyperAIHyperAI
vor 9 Tagen

Die Erweiterung der Grenzen der Vorhersage molekularer Eigenschaften für die Arzneimittelentwicklung mittels Multitask-Learning BERT, verbessert durch SMILES-Aufzählung

{DS Cao, TJ Hou, AP Lu, CQ Yang, XX Zeng, JC Yi, CK Wu, XC Zhang}
Abstract

Die präzise Vorhersage pharmakologischer Eigenschaften kleiner Moleküle gewinnt im Bereich der Arzneimittelentwicklung zunehmend an Bedeutung. Traditionelle Ansätze basierend auf Merkmalsingenieurwesen stützen sich stark auf handgefertigte Deskriptoren und/oder Fingerprints, die umfangreiche fachliche Expertise erfordern. Mit dem rasanten Fortschritt der Künstlichen Intelligenz haben datengetriebene tiefen Lernmethoden gegenüber herkömmlichen Merkmalsingenieur-Methoden unübertroffene Vorteile gezeigt. Allerdings leiden bestehende tiefen Lernansätze häufig unter dem Mangel an beschrifteten Daten und der Unfähigkeit, Informationen zwischen verschiedenen Aufgaben zu teilen, wenn sie zur Vorhersage molekularer Eigenschaften eingesetzt werden, was zu einer schlechten Generalisierungsfähigkeit führt. Hier präsentieren wir einen neuartigen Multitask-Lern-BERT-(Bidirektionale Encoder-Repräsentationen aus Transformer)-Rahmen, namens MTL-BERT, der die große Menge an vortrainierten Daten, Multitask-Lernen und SMILES-Enumeration (Simplified Molecular Input Line Entry Specification) nutzt, um das Problem des Datenmangels zu mildern. MTL-BERT nutzt zunächst eine große Menge an unlabeled Daten durch selbstüberwachtes Vortrainieren, um die reichhaltige Kontextinformation in SMILES-Strings zu erschließen, und feinjustiert anschließend das vortrainierte Modell gleichzeitig für mehrere nachgeschaltete Aufgaben, indem es deren gemeinsame Informationen ausnutzt. Gleichzeitig dient die SMILES-Enumeration als Datenverstärkungsstrategie während des Vortrainierens, der Feinjustierung und der Testphase, um die Datenvielfalt erheblich zu erhöhen und dabei zu helfen, zentrale relevante Muster aus komplexen SMILES-Strings zu lernen. Die experimentellen Ergebnisse zeigen, dass das vortrainierte MTL-BERT-Modell mit nur geringfügiger zusätzlicher Feinjustierung auf den meisten der 60 praktischen molekularen Datensätze eine deutlich bessere Leistung erzielt als die derzeit besten Methoden. Zudem nutzt das MTL-BERT-Modell Aufmerksamkeitsmechanismen, um sich auf die SMILES-Zeichenmerkmale zu konzentrieren, die für die Ziel-Eigenschaften entscheidend sind, was die Interpretierbarkeit des Modells erhöht.