HyperAI
vor 3 Tagen

PLAME: Die Nutzung vorab trainierter Sprachmodelle zur Erstellung verbesserter multipler Proteinsequenzalignments

Hanqun Cao, Xinyi Zhou, Zijun Gao, Chenyu Wang, Xin Gao, Zhi Zhang, et al
PLAME: Die Nutzung vorab trainierter Sprachmodelle zur Erstellung verbesserter multipler Proteinsequenzalignments
Abstract

Die Vorhersage von Proteinstrukturen ist für die Arzneimittelentwicklung und das Verständnis biologischer Funktionen entscheidend. Obwohl kürzliche Fortschritte wie AlphaFold eine bemerkenswerte Genauigkeit erreicht haben, basieren die meisten Faltungsmodelle stark auf multiplen Sequenzalignments (MSAs), um die Vorhersageleistung zu verbessern. Diese Abhängigkeit begrenzt ihre Effektivität bei Proteinen mit geringer Homologie und Waisenproteinen, bei denen MSA-Informationen dünn gesät oder gar nicht vorhanden sind. Um diese Einschränkung zu überwinden, schlagen wir PLAME vor, ein neues MSA-Designmodell, das evolutionäre Einbettungen aus vortrainierten Protein-Sprachmodellen nutzt. Im Gegensatz zu bestehenden Methoden führt PLAME vortrainierte Repräsentationen ein, um die evolutionäre Information zu erweitern, und verwendet einen Erhaltungs-Diversitäts-Verlust, um die Generierungsgüte zu verbessern. Zudem schlagen wir eine neue Methode zur Auswahl von MSAs vor, um hochwertige MSAs effektiv zu filtern und die Faltungsleistung zu steigern. Wir stellen außerdem ein sequenzqualitativisches Bewertungsmaß vor, das eine orthogonale Perspektive bietet, um die Qualität von MSAs zu bewerten. Bei der AlphaFold2-Benchmark für Proteine mit geringer Homologie und Waisenproteine erreicht PLAME den Stand der Technik in der Verbesserung der Faltungsleistung und der sequenzqualitativen Bewertung; Konsistente Verbesserungen wurden auch bei AlphaFold3 nachgewiesen. Abschweifungsstudien bestätigen die Effektivität der MSA-Auswahlmethode, während umfangreiche Fallstudien an verschiedenen Proteintypen Einblicke in das Verhältnis zwischen der Vorhersagegüte von AlphaFold und den Merkmalen von MSAs geben. Darüber hinaus zeigen wir, dass PLAME als Adapter dienen kann, um eine Genauigkeit im Niveau von AlphaFold2 bei der Inferenzgeschwindigkeit von ESMFold zu erreichen.