SSNet décrypte l'ADN à longue distance pour l'épissage ARN
Une équipe de l’Université de Tokyo, menée par le professeur Kenta Nakai et la doctorante Yuna Miyachi, a développé SSNet, un modèle d’intelligence artificielle basé sur un Transformateur hiérarchique pour la prédiction de l’épissage de l’ARN. Publiée dans la revue Nucleic Acids Research, cette approche surmonte une limite majeure de l’analyse génomique : la difficulté à identifier les signaux régulateurs situés à des milliers de paires de bases des sites d’épissage. Contrairement aux modèles traditionnels adaptés du traitement automatique du langage naturel, SSNet est spécialement conçu pour les séquences d’ADN, qui possèdent des propriétés structurelles uniques nécessitant une résolution à l’échelle du nucléotide. Pour analyser des séquences allant jusqu’à 100 000 paires de bases sans surcharge informatique, SSNet divise le génome en blocs locaux, en extrait les motifs, puis fusionne ces informations via un mécanisme d’attention hiérarchique. Cette architecture maintient une précision élevée tout en restant rapide. Les chercheurs peuvent également visualiser les scores d’attention du modèle, identifiant ainsi les régions d’ADN qui influencent réellement l’épissage. Dans des tests comparatifs, SSNet a établi un nouveau standard en matière de prédiction des sites d’épissage et de détection des épissages aberrants. Il a démontré une sensibilité particulière aux régulateurs éloignés, notamment sur le gène DMD et des variants pathogènes répertoriés dans ClinVar. Comme le souligne l’équipe, cette capacité à modéliser des interactions génomiques à très longue portée, tout en restant interprétable biologiquement, constitue une avancée majeure. Au-delà de la recherche fondamentale, SSNet ouvre des perspectives cliniques et pharmaceutiques. Il pourrait servir au criblage des variants non codants d’importance incertaine, à l’étude de l’organisation tridimensionnelle du génome, et au développement de thérapies par oligonucléotides ciblant des anomalies d’épissage. En rapprochant la précision computationnelle des réalités biologiques, ce framework pose les bases d’une médecine génomique de précision plus fiable.
