DLPAlign : une méthode d'alignement progressive basée sur le deep learning pour plusieurs séquences protéiques
Cet article propose une nouvelle approche simple et efficace visant à améliorer la précision de la méthode progressive d’alignement multiple de séquences protéiques. Nous avons entraîné un modèle de prise de décision basé sur des réseaux de neurones convolutifs (CNN) et des réseaux de mémoire à long terme à double sens (Bi-LSTM), et nous avons réalisé l’alignement progressif des séquences protéiques d’entrée en calculant des matrices de probabilités a posteriori différentes.Pour évaluer cette méthode, nous avons développé un outil d’alignement multiple de séquences appelé DLPAlign, et comparé ses performances avec celles de onze méthodes d’alignement de pointe sur trois benchmarks empiriques (BAliBASE, OXBench et SABMark). Nos résultats montrent que DLPAlign obtient les meilleurs scores globaux sur les trois benchmarks. Lorsqu’il est évalué sur les 711 familles à faible similitude (avec une similarité moyenne PID ≤ 30 %), DLPAlign améliore d’environ 2,8 % les performances de la deuxième meilleure logiciel d’alignement multiple. En outre, nous avons comparé la performance de DLPAlign et d’autres outils d’alignement sur une application réelle, à savoir la prédiction de la structure secondaire protéique sur quatre séquences protéiques liées au SARS-CoV-2, et DLPAlign a fourni les meilleurs résultats dans tous les cas.