HyperAIHyperAI
il y a 18 jours

PS4 : un jeu de données de nouvelle génération pour la prédiction de la structure secondaire à partir d'une seule séquence protéique

{Omar Peracha}
Résumé

La prédiction de la structure secondaire des protéines constitue un sous-problème du repliement protéique. Un algorithme léger capable de prédire avec précision la structure secondaire à partir uniquement de la séquence des résidus protéiques pourrait ainsi fournir une entrée utile pour la prédiction de la structure tertiaire, tout en réduisant la dépendance aux jeux de données de profils d’alignement multiple (MSA), souvent requis dans les modèles actuellement les plus performants. Cela pourrait à terme permettre le développement d’algorithmes de repliement protéique plus efficaces sur les protéines « orphelines » et plus accessibles à la fois pour la recherche et l’adoption industrielle, grâce à une réduction des ressources computationnelles nécessaires à leur exécution. Malheureusement, les jeux de données existants pour la prédiction de la structure secondaire sont de petite taille, ce qui constitue un goulot d’étranglement dans le rythme d’avancement de cette tâche. En outre, les chaînes protéiques présentes dans ces jeux de données sont souvent non identifiées, ce qui limite la capacité des chercheurs à intégrer des connaissances externes lors du développement de nouveaux algorithmes.Nous présentons PS4, un jeu de données comprenant 18 731 chaînes protéiques non redondantes, accompagnées de leurs étiquettes respectives de structure secondaire Q8. Chaque chaîne est identifiée par son code PDB, et le jeu de données est également non redondant par rapport aux autres jeux de données de structure secondaire couramment utilisés dans la littérature. Nous menons des études d’ablation en entraînant des algorithmes de prédiction de structure secondaire sur l’ensemble d’entraînement PS4, et obtenons des performances de pointe en termes de précision Q8 et Q3 sur l’ensemble de test CB513, dans une configuration « zero-shot », sans aucun ajustement fin (fine-tuning) supplémentaire. En outre, nous mettons à disposition un toolkit logiciel pour la communauté, permettant d’exécuter nos algorithmes d’évaluation, d’entraîner des modèles à partir de zéro et d’ajouter de nouvelles données au jeu.Tout le code et les données nécessaires pour reproduire nos résultats et effectuer de nouvelles inférences sont disponibles à l’adresse suivante : https://github.com/omarperacha/ps4-dataset

PS4 : un jeu de données de nouvelle génération pour la prédiction de la structure secondaire à partir d'une seule séquence protéique | Articles de recherche récents | HyperAI