Proteine Sekundärstrukturvorhersage mit tiefen konvolutiven Neuralfeldern

Die Vorhersage der Proteinzweistruktur (SS) ist wichtig für die Untersuchung von Proteinstruktur und -funktion. Wenn nur sequenzielle (Profil-)Informationen als Eingabe-Feature verwendet werden, können aktuell die besten Vorhersageverfahren eine Q3-Akkuratesse von etwa 80 % erzielen, was sich in den letzten zehn Jahren nicht verbessert hat. Hier stellen wir DeepCNF (Deep Convolutional Neural Fields) zur Vorhersage der Proteinzweistruktur vor. DeepCNF ist eine Erweiterung des tiefen Lernens von Conditional Neural Fields (CNF), das wiederum eine Kombination von Conditional Random Fields (CRF) und flachen neuronalen Netzen darstellt. DeepCNF kann nicht nur komplexe Sequenz-Struktur-Beziehungen durch eine tiefe hierarchische Architektur modellieren, sondern auch die Abhängigkeiten zwischen benachbarten SS-Labels, wodurch es viel leistungsfähiger als CNF ist. Experimentelle Ergebnisse zeigen, dass DeepCNF auf den Testproteinen von CASP und CAMEO jeweils eine Q3-Akkuratesse von etwa 84 %, einen SOV-Wert von etwa 85 % und eine Q8-Akkuratesse von etwa 72 % erreichen kann, was deutlich besser ist als die aktuellen populären Vorhersageverfahren. Als allgemeines Framework kann DeepCNF auch verwendet werden, um andere Eigenschaften der Proteinstruktur wie Kontaktnummer, ungeordnete Regionen und Solvatibilität zuvorzusagen.