HyperAI
Back to Headlines

Nouvel Algorithme miniQuant : Une Solution Précise et Économique pour la Quantification des Isotypes Génétiques

il y a 2 jours

Une équipe de scientifiques a développé miniQuant, un nouvel algorithme capable de résoudre avec précision les problèmes de quantification des isoformes géniques. Ce défi complexe implique de déterminer la proportion relative de différentes versions d'un même gène dans un échantillon biologique, une tâche rendue particulièrement ardue par la diversité des séquences géniques et leur longueur variable. Dans des tests de simulation, miniQuant-H s'est montré particulièrement performant. Il a atteint une erreur médiane absolue relative (MARD) de 0,1249, ce qui est nettement inférieur à celle des outils actuels pour les courts (0,1505-0,3555) et les longs lectures (0,2515-0,9394). Ces résultats ont été validés sur des données réelles issues de l'initiative LRGASP, où miniQuant-H a été testé avec des mélanges de contrôle standardisés. Pour des marqueurs de contrôle ERCC simples, miniQuant-H a atteint une précision comparable à celle des outils de courte lecture, sans subir d'erreurs de mappage. Pour les plus complexes, comme les isoformes SIRV, miniQuant-H a même produit les erreurs moyennes les plus faibles. Ces performances soulignent sa capacité à traiter une large gamme de séquences géniques, y compris celles aux structures multifonctionnelles. Les chercheurs ont ensuite appliqué miniQuant à l'étude du processus de différenciation des cellules souches embryonnaires (ESCs) humaines vers le tissu épithélial pharyngé (PE) et les cellules germinales primordiales-like (PGCs). Leur analyse a permis d'identifier 151 bases de l'isoforme de transformation lors de la transition ESC-PE et 161 bases lors de la transition ESC-PGC. Par exemple, le gène MAT2B, bien que son expression globale reste stable, montre une variation significative dans ses isoformes, ce qui pourrait influencer les capacités de la cellule à réguler son cycle cellulaire. L'une des forces majeures de miniQuant est sa capacité à combiner des données de courts et de longs reads. Les méthodes actuelles basées uniquement sur les longs reads, tels que les reads cDNA-ONT, peuvent être limitées par des erreurs d'échantillonnage importantes dans les conditions de séquençage standard. Par exemple, si l'expression d'un gène est présente à un niveau moyen de 75e percentile, les outils basés sur les longs reads peuvent sous-estimer la quantité spécifique de ce gène en raison des erreurs d'échantillonnage. En revanche, miniQuant-H utilise une modélisation mathématique sophistiquée et des fonctions de combinaison pour intégrer les données de courts reads, permettant ainsi une quantification plus précise et adaptative des isoformes géniques, même à des niveaux d'expression très différents. Cette recherche a également fait avancer la technologie de séquençage RNA de deux manières. Premièrement, elle a établi un cadre mathématique rigoureux pour évaluer la fiabilité de la quantification des isoformes géniques. Deuxièmement, elle a fourni un outil logiciel intelligent qui peut choisir les stratégies de séquençage les plus optimales en fonction des caractéristiques spécifiques des données et de l'organisation génique. Cette approche hybride représente un progrès significatif dans le domaine, offrant une alternative plus robuste et flexible aux méthodes existantes. Selon un expert du domaine, "Il s'agit de la première approche scientifique à informer leschercheurs sur quels gènes sont complexes, quels gènes sont simples, et quand ils devraient choisir différentes technologies de séquençage. Jusqu'à présent, tout le monde s'appuyait sur le ressenti et l'expérience pour décider. Aujourd'hui, nous offrons une norme scientifique." Un autre examinateur a qualifié cette étude de "rédemption d’un débat interne ancien et toujours ouvert." À l'heure actuelle, miniQuant est disponible sur la plateforme GitHub (https://github.com/Augroup/miniQuant), avec des modèles pré-entraînés pour diverses plates-formes et profondeurs de séquençage, incluant cDNA-PacBio, cDNA-ONT, et dRNA-ONT. À mesure que la précision et le coût des technologies de séquençage de longues lectures continuent de s'améliorer, cette méthode d'intégration intelligente des longs et courts reads s'inscrit comme une solution prometteuse pour accroître la précision et l'efficacité des études transcriptomiques, ouvrant ainsi de nouveaux horizons pour la recherche sur les isoformes géniques, une étape cruciale pour comprendre les mécanismes moléculaires sous-jacents à de nombreux processus biologiques.

Related Links