Connaissances-Design : Pousser les limites de la conception de protéines par raffinement des connaissances

Des études récentes ont démontré des performances compétitives dans la conception de protéines, dont l’objectif est de trouver une séquence d’acides aminés qui se replie selon une structure souhaitée. Toutefois, la plupart de ces approches négligent l’importance de la confiance prédictive, ne couvrent pas l’étendue vaste de l’espace protéique et ne intègrent pas les connaissances courantes sur les protéines. En observant les succès remarquables des modèles pré-entraînés sur diverses tâches liées aux protéines, ainsi que le fait que la rétention de la structure est fortement corrélée à la confiance du modèle, nous nous demandons si cette connaissance pourrait permettre d’aller au-delà des limites actuelles de la conception protéique. À cette fin, nous proposons un module conscient des connaissances, qui affine les résidus de faible qualité. Nous introduisons également un mécanisme de récupération de mémoire permettant de réduire de plus de 50 % le temps d’entraînement. Nous évaluons de manière extensive notre méthode sur les jeux de données CATH, TS50 et TS500. Nos résultats montrent que la méthode Knowledge-Design surpasser la méthode précédente PiFold d’environ 9 % sur le jeu de données CATH. En particulier, Knowledge-Design est la première méthode à atteindre un taux de récupération supérieur à 60 % sur les benchmarks CATH, TS50 et TS500. Nous fournissons également une analyse complémentaire pour démontrer l’efficacité de notre approche. Le code sera rendu publiquement disponible.