HyperAIHyperAI
il y a 2 mois

Pré-formation de représentations bidirectionnelles profondes de séquences protéiques avec des informations structurales

Seonwoo Min; Seunghyun Park; Siwon Kim; Hyun-Soo Choi; Byunghan Lee; Sungroh Yoon
Pré-formation de représentations bidirectionnelles profondes de séquences protéiques avec des informations structurales
Résumé

Pour combler l'écart exponentiellement croissant entre le nombre de séquences protéiques non étiquetées et celui des séquences protéiques étiquetées, plusieurs études ont adopté l'apprentissage semi-supervisé pour la modélisation des séquences protéiques. Dans ces études, les modèles ont été pré-entraînés avec une quantité importante de données non étiquetées, et les représentations obtenues ont été transférées à diverses tâches en aval. La plupart des méthodes de pré-entraînement s'appuient uniquement sur le modèle de langage et présentent souvent des performances limitées. Dans cet article, nous introduisons un nouveau schéma de pré-entraînement appelé PLUS (Protein sequence representations Learned Using Structural information), qui signifie « représentations de séquences protéiques apprises en utilisant des informations structurales ». PLUS combine le masquage du modèle de langage et une tâche de pré-entraînement spécifique aux protéines, nommée prédiction intra-famille. PLUS peut être utilisé pour pré-entraîner diverses architectures de modèles. Dans cette étude, nous utilisons PLUS pour pré-entraîner un réseau neuronal récurrent bidirectionnel, que nous désignons par PLUS-RNN. Nos résultats expérimentaux montrent que PLUS-RNN surpasse les autres modèles de taille similaire uniquement pré-entraînés avec le modèle de langage dans six des sept tâches biologiques protéiques les plus courantes. De plus, nous présentons les résultats de nos analyses d'interprétation qualitative pour illustrer les forces de PLUS-RNN. PLUS offre une nouvelle approche pour exploiter les relations évolutives parmi les protéines non étiquetées et est largement applicable à diverses tâches en biologie des protéines. Nous anticipons que l'écart entre le nombre de protéines non étiquetées et celui des protéines étiquetées continuera à croître exponentiellement, et que la méthode de pré-entraînement proposée jouera un rôle encore plus important.

Pré-formation de représentations bidirectionnelles profondes de séquences protéiques avec des informations structurales | Articles de recherche récents | HyperAI