HyperAIHyperAI
vor 18 Tagen

PS4: Ein Datensatz der nächsten Generation für die Vorhersage der Sekundärstruktur einzelner Proteinsequenzen

{Omar Peracha}
Abstract

Die Vorhersage der sekundären Struktur von Proteinen ist ein Teilproblem des Proteinfaltungsprozesses. Ein leichtgewichtiges Algorithmus, das in der Lage ist, die sekundäre Struktur präzise allein aus der Aminosäuresequenz eines Proteins vorherzusagen, könnte somit eine nützliche Eingabedatenquelle für die Vorhersage der tertiären Struktur darstellen und die Abhängigkeit von Mehrfachsequenzalignment (MSA)-Daten, wie sie in den derzeit besten Modellen üblich ist, verringern. Dies könnte wiederum zur Entwicklung von Proteinfaltungs-Algorithmen führen, die auf sogenannten „orphan proteins“ (nicht annotierten Proteinen) besser performen und aufgrund reduzierter computacionaler Anforderungen für Forschung und industrielle Anwendung weitaus zugänglicher werden. Leider sind bestehende Datensätze für die Vorhersage sekundärer Strukturen klein, was einen Engpass für den Fortschritt automatisierter Vorhersagemethoden darstellt. Zudem sind die Proteinketten in diesen Datensätzen oft nicht eindeutig identifiziert, was die Nutzung externer Domänenwissen durch Forscher bei der Entwicklung neuer Algorithmen erschwert.Wir präsentieren PS4, einen Datensatz mit 18.731 nicht-redundanten Proteinketten und ihren jeweiligen Q8-Sekundärstrukturbezeichnungen. Jede Kette ist durch ihre PDB-Code-ID eindeutig identifiziert, und der Datensatz ist zudem gegenüber anderen in der Literatur häufig verwendeten Datensätzen zur sekundären Struktur nicht-redundant. Durch Ablationsstudien, bei denen sekundärstrukturvorhersagende Algorithmen auf dem Trainingsset von PS4 trainiert wurden, erreichen wir state-of-the-art-Q8- und Q3-Accuracy auf dem CB513-Testset im Zero-Shot-Setting, ohne weitere Fine-Tuning. Darüber hinaus stellen wir ein Software-Toolkit für die wissenschaftliche Gemeinschaft bereit, mit dem die Evaluationsalgorithmen ausgeführt, Modelle von Grund auf trainiert und neue Proben in den Datensatz integriert werden können.Alle notwendigen Codes und Daten, um unsere Ergebnisse nachzuvollziehen und neue Inferenzen vorzunehmen, sind unter https://github.com/omarperacha/ps4-dataset verfügbar.

PS4: Ein Datensatz der nächsten Generation für die Vorhersage der Sekundärstruktur einzelner Proteinsequenzen | Neueste Forschungsarbeiten | HyperAI