F5C-finder : Un modèle linguistique biologique explicable et ensembliste pour prédire les modifications par 5-formylcytidine de l'ARNm

En tant que modification épigénétique prévalente et dynamiquement régulée, le 5-formylcytidine (f5C) joue un rôle crucial dans divers processus biologiques. Cependant, les méthodes expérimentales traditionnelles pour la détection de f5C sont souvent laborieuses et chronophages, limitant ainsi leur capacité à cartographier les sites f5C à travers l'ensemble du transcriptome. Bien que les approches computationnelles offrent une alternative rentable et à haut débit, aucun modèle de reconnaissance pour f5C n'a été développé jusqu'à présent. Inspiré par les modèles linguistiques du traitement automatique des langues naturelles, cette étude présente f5C-finder, un modèle basé sur un réseau neuronal ensembliste utilisant l'attention multi-têtes pour l'identification de f5C. Cinq méthodes distinctes d'extraction de caractéristiques ont été employées pour construire cinq réseaux neuronaux artificiels individuels, qui ont ensuite été intégrés par apprentissage ensembliste pour créer f5C-finder. Les validations croisées à 10 plis et les tests indépendants montrent que f5C-finder atteint des performances de pointe (state-of-the-art, SOTA) avec des valeurs AUC respectivement de 0,807 et 0,827. Ces résultats soulignent l'efficacité des modèles linguistiques biologiques dans la capture à la fois de l'ordre (séquentiel) et du sens fonctionnel (sémantique) au sein des génomes. De plus, l'interprétabilité intégrée permet de comprendre ce que le modèle apprend, établissant ainsi un pont entre l'identification des éléments séquentiels clés et une exploration plus approfondie de leurs fonctions biologiques.