HyperAIHyperAI

Command Palette

Search for a command to run...

PS4: Ein Datensatz der nächsten Generation für die Vorhersage der Sekundärstruktur einzelner Proteinsequenzen

Omar Peracha

Zusammenfassung

Die Vorhersage der sekundären Struktur von Proteinen ist ein Teilproblem des Proteinfaltungsprozesses. Ein leichtgewichtiges Algorithmus, das in der Lage ist, die sekundäre Struktur präzise allein aus der Aminosäuresequenz eines Proteins vorherzusagen, könnte somit eine nützliche Eingabedatenquelle für die Vorhersage der tertiären Struktur darstellen und die Abhängigkeit von Mehrfachsequenzalignment (MSA)-Daten, wie sie in den derzeit besten Modellen üblich ist, verringern. Dies könnte wiederum zur Entwicklung von Proteinfaltungs-Algorithmen führen, die auf sogenannten „orphan proteins“ (nicht annotierten Proteinen) besser performen und aufgrund reduzierter computacionaler Anforderungen für Forschung und industrielle Anwendung weitaus zugänglicher werden. Leider sind bestehende Datensätze für die Vorhersage sekundärer Strukturen klein, was einen Engpass für den Fortschritt automatisierter Vorhersagemethoden darstellt. Zudem sind die Proteinketten in diesen Datensätzen oft nicht eindeutig identifiziert, was die Nutzung externer Domänenwissen durch Forscher bei der Entwicklung neuer Algorithmen erschwert.Wir präsentieren PS4, einen Datensatz mit 18.731 nicht-redundanten Proteinketten und ihren jeweiligen Q8-Sekundärstrukturbezeichnungen. Jede Kette ist durch ihre PDB-Code-ID eindeutig identifiziert, und der Datensatz ist zudem gegenüber anderen in der Literatur häufig verwendeten Datensätzen zur sekundären Struktur nicht-redundant. Durch Ablationsstudien, bei denen sekundärstrukturvorhersagende Algorithmen auf dem Trainingsset von PS4 trainiert wurden, erreichen wir state-of-the-art-Q8- und Q3-Accuracy auf dem CB513-Testset im Zero-Shot-Setting, ohne weitere Fine-Tuning. Darüber hinaus stellen wir ein Software-Toolkit für die wissenschaftliche Gemeinschaft bereit, mit dem die Evaluationsalgorithmen ausgeführt, Modelle von Grund auf trainiert und neue Proben in den Datensatz integriert werden können.Alle notwendigen Codes und Daten, um unsere Ergebnisse nachzuvollziehen und neue Inferenzen vorzunehmen, sind unter https://github.com/omarperacha/ps4-dataset verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp