DistilProtBert : un modèle linguistique protéique distillé utilisé pour distinguer les protéines réelles de leurs variants aléatoirement mélangés
Récemment, des modèles d’apprentissage profond, initialement développés dans le domaine du traitement du langage naturel (NLP), ont été appliqués avec succès à l’analyse des séquences protéiques. Un inconvénient majeur de ces modèles réside dans leur taille, en termes de nombre de paramètres à estimer et de ressources computationnelles nécessaires. Récemment, des modèles « distillés », fondés sur le concept de réseaux enseignant-élève, ont été largement utilisés en NLP. Dans cette étude, nous avons adapté ce concept au problème de l’analyse des séquences protéiques en développant DistilProtBert, une version distillée du modèle performant ProtBert. En appliquant cette approche, nous avons réduit de 50 % la taille du réseau et le temps d’exécution, ainsi que de 98 % les ressources computationnelles requises pour le pré-entraînement par rapport au modèle ProtBert. En utilisant deux tâches publiées, nous avons montré que la performance du modèle distillé s’approche de celle du modèle complet. Nous avons ensuite évalué la capacité de DistilProtBert à distinguer les séquences protéiques réelles des séquences aléatoires, une tâche particulièrement difficile lorsque la composition est préservée au niveau des acides aminés simples (singulets), des dipètes et des triplètes. En effet, les algorithmes traditionnels d’apprentissage automatique éprouvent des difficultés à résoudre ce type de problème. Ici, nous démontrons que DistilProtBert se comporte très bien sur des versions aléatoirement mélangées (shuffled) du protéome humain au niveau du singulet, du doublet et même du triplet, avec des scores AUC respectifs de 0,92, 0,91 et 0,87. Enfin, nous proposons que, en examinant le petit nombre de classifications erronées (c’est-à-dire les séquences mélangées classées comme protéiques par DistilProtBert), il pourrait être possible d’identifier de manière de novo des protéines potentielles de type naturel à partir de permutations aléatoires de séquences d’acides aminés.