HyperAIHyperAI

Command Palette

Search for a command to run...

PS4 : un jeu de données de nouvelle génération pour la prédiction de la structure secondaire à partir d'une seule séquence protéique

Omar Peracha

Résumé

La prédiction de la structure secondaire des protéines constitue un sous-problème du repliement protéique. Un algorithme léger capable de prédire avec précision la structure secondaire à partir uniquement de la séquence des résidus protéiques pourrait ainsi fournir une entrée utile pour la prédiction de la structure tertiaire, tout en réduisant la dépendance aux jeux de données de profils d’alignement multiple (MSA), souvent requis dans les modèles actuellement les plus performants. Cela pourrait à terme permettre le développement d’algorithmes de repliement protéique plus efficaces sur les protéines « orphelines » et plus accessibles à la fois pour la recherche et l’adoption industrielle, grâce à une réduction des ressources computationnelles nécessaires à leur exécution. Malheureusement, les jeux de données existants pour la prédiction de la structure secondaire sont de petite taille, ce qui constitue un goulot d’étranglement dans le rythme d’avancement de cette tâche. En outre, les chaînes protéiques présentes dans ces jeux de données sont souvent non identifiées, ce qui limite la capacité des chercheurs à intégrer des connaissances externes lors du développement de nouveaux algorithmes.Nous présentons PS4, un jeu de données comprenant 18 731 chaînes protéiques non redondantes, accompagnées de leurs étiquettes respectives de structure secondaire Q8. Chaque chaîne est identifiée par son code PDB, et le jeu de données est également non redondant par rapport aux autres jeux de données de structure secondaire couramment utilisés dans la littérature. Nous menons des études d’ablation en entraînant des algorithmes de prédiction de structure secondaire sur l’ensemble d’entraînement PS4, et obtenons des performances de pointe en termes de précision Q8 et Q3 sur l’ensemble de test CB513, dans une configuration « zero-shot », sans aucun ajustement fin (fine-tuning) supplémentaire. En outre, nous mettons à disposition un toolkit logiciel pour la communauté, permettant d’exécuter nos algorithmes d’évaluation, d’entraîner des modèles à partir de zéro et d’ajouter de nouvelles données au jeu.Tout le code et les données nécessaires pour reproduire nos résultats et effectuer de nouvelles inférences sont disponibles à l’adresse suivante : https://github.com/omarperacha/ps4-dataset


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp