Ensemble De Données Sur Les Mutations Protéiques ProteinGym
L'ensemble de données contient un total d'environ 1,5 million de variantes faux-sens provenant de 87 expériences de séquençage DMS.
papier"Améliorer l'efficacité des modèles de langage protéique avec un minimum de données de laboratoire grâce à l'apprentissage en quelques étapes"En utilisant cet ensemble de données comme ensemble de données de référence, les résultats ont été publiés dans Nature Communications, une filiale de Nature