GCBLANE : Un réseau attentionnel bi-directionnel convolutif amélioré par graphe pour une prédiction améliorée des sites de liaison des facteurs de transcription

L’identification des sites de liaison des facteurs de transcription (TFBS) est essentielle pour comprendre la régulation génique, car ces sites permettent aux facteurs de transcription (TF) de se lier à l’ADN et de moduler l’expression des gènes. Malgré les progrès réalisés dans le séquençage à haut débit, l’identification précise des TFBS reste un défi en raison de la volumétrie des données génomiques et de la complexité des motifs de liaison. GCBLANE, un réseau neuronal à attention bidirectionnel à mémoire à long terme (LSTM) convolutif amélioré par un graphe, est proposé pour relever ce défi. Il intègre des couches convolutives, des couches d’attention à plusieurs têtes et des couches récurrentes avec un réseau neuronal de type graphe afin de détecter les caractéristiques clés pour la prédiction des TFBS. Sur 690 jeux de données ChIP-Seq du projet ENCODE, GCBLANE a atteint une AUC moyenne de 0,943, et sur 165 jeux de données ENCODE, une AUC de 0,9495, surpassant ainsi des modèles avancés utilisant des approches multimodales, y compris des informations sur la forme de l’ADN. Ces résultats mettent en évidence l’efficacité de GCBLANE par rapport aux autres méthodes. En combinant l’apprentissage basé sur les graphes avec l’analyse séquentielle, GCBLANE représente une avancée significative dans la prédiction des TFBS.