ProtTrans : Vers la Déchiffrement du Langage du Code de la Vie par l'Apprentissage Profond Auto-Supervisé et le Calcul Haute Performance

La biologie computationnelle et la bioinformatique offrent des mines de données considérables à partir de séquences protéiques, idéales pour les modèles de langage issus du traitement automatique de la langue naturelle (NLP). Ces modèles de langage atteignent de nouvelles frontières en matière de prédiction avec des coûts d'inférence faibles. Dans cette étude, nous avons formé deux modèles auto-régressifs (Transformer-XL, XLNet) et quatre modèles d'auto-encodeur (BERT, Albert, Electra, T5) sur des données provenant de UniRef et BFD contenant jusqu'à 393 milliards d'acides aminés. Les modèles de langage ont été entraînés sur le superordinateur Summit à l'aide de 5616 GPU et d'un TPU Pod jusqu'à 1024 cœurs. La réduction de dimensionnalité a révélé que les plongements bruts des modèles de langage protéiques issus de données non étiquetées capturaient certaines caractéristiques biophysiques des séquences protéiques. Nous avons validé l'avantage d'utiliser ces plongements comme entrée exclusive pour plusieurs tâches ultérieures. La première était une prédiction par résidu de la structure secondaire des protéines (précision tristate Q3 = 81%-87%) ; la seconde concernait des prédictions par protéine de la localisation sous-cellulaire des protéines (précision décistate : Q10 = 81%) et leur solubilité dans le membrane versus l'eau (précision bistate Q2 = 91%). Pour les prédictions par résidu, le transfert des plongements les plus informatifs (ProtT5) a pour la première fois surpassé l'état de l'art sans utiliser d'informations évolutives, évitant ainsi des recherches coûteuses dans les bases de données. En résumé, les résultats suggèrent que les modèles de langage protéiques ont appris certains aspects de la grammaire du langage de la vie. Pour faciliter les travaux futurs, nous avons rendu nos modèles disponibles sur https://github.com/agemagician/ProtTrans.