DLPAlign: Ein auf Deep Learning basierender progressiver Alignierungsmethoden für mehrere Proteinsequenzen
In diesem Paper wurde ein neuartiger und einfacher Ansatz vorgestellt, um die Genauigkeit der progressiven mehrfachen Proteinsequenzalignment-Methode zu verbessern. Wir haben ein Entscheidungsmodell auf Basis von Faltungsneuralen Netzen (Convolutional Neural Networks, CNN) und bidirektionalen langen kurzen Gedächtnisnetzen (Bidirectional Long Short-Term Memory, Bi-LSTM) trainiert und die Eingabeproteinsequenzen progressiv durch die Berechnung unterschiedlicher Posterior-Wahrscheinlichkeitsmatrizen aligniert.Zur Evaluierung dieser Methode haben wir ein mehrfaches Sequenzalignment-Tool namens DLPAlign implementiert und dessen Leistung mit elf führenden Alignmentsmethoden anhand dreier empirischer Benchmark-Daten (BAliBASE, OXBench und SABMark) verglichen. Unsere Ergebnisse zeigen, dass DLPAlign die besten Gesamtscores pro Spalte auf allen drei Benchmarks erzielt. Bei der Bewertung anhand der 711 Familien mit geringer Sequenzähnlichkeit (durchschnittlicher PID ≤ 30 %) übertraf DLPAlign die zweitbeste MSA-Software um etwa 2,8 %. Zudem haben wir die Leistung von DLPAlign und anderer Alignments-Tools anhand einer realen Anwendung, nämlich der Vorhersage von Protein-Sekundärstrukturen an vier SARS-CoV-2-relevanten Proteinsequenzen, verglichen. In allen Fällen lieferte DLPAlign die bestmöglichen Ergebnisse.