Conditionnement et modélisation des chaînes latérales pour la conception de séquences protéiques à atomes complets avec FAMPNN

Les méthodes de conception de séquences protéiques à base d'apprentissage profond les plus avancées ne modélisent pas la conformation des chaînes latérales des protéines pendant la génération de séquences, malgré le rôle important que joue l'agencement tridimensionnel des atomes des chaînes latérales dans la conformation, la stabilité et la fonction globale des protéines. Au lieu de cela, ces modèles raisonnent implicitement sur les interactions cruciales des chaînes latérales en se basant uniquement sur la géométrie du squelette principal et sur la séquence d'acides aminés. Pour remédier à cette situation, nous présentons FAMPNN (Full-Atom MPNN), une méthode de conception de séquences qui modélise explicitement à la fois l'identité de la séquence et la conformation des chaînes latérales pour chaque résidu. La distribution par jeton de l'identité discrète d'un acide aminé et de sa conformation continue est apprise avec un objectif combiné de perte entropique croisée catégorielle et de diffusion. Nous démontrons que l'apprentissage conjoint de ces distributions est une tâche hautement synergie qui améliore non seulement la récupération des séquences mais atteint également un niveau d'état de l'art en matière de paquetage des chaînes latérales. De plus, les avantages tirés du modèle explicite à atomes complets s'étendent de la récupération des séquences aux applications pratiques de conception protéique, telles que la prédiction zéro-shot des mesures expérimentales d' liaison et de stabilité.