Neuer Algorithmus miniQuant löst Gen-Quantifizierungsprobleme
Wissenschaftler haben einen neuen Algorithmus namens miniQuant entwickelt, der das Problem der Quantifizierung von Genisomeren löst. Bei der Validierung durch mehrere Standards zeigte sich, dass miniQuant-H eine ausgezeichnete Performance aufweist. In simulierten Daten erreichte das Verfahren bei einer Vielzahl von Sequenzierungstiefen ein mittlerer relativer Abstand (MARD) von 0,1249, was deutlich besser ist als die bisherigen kurzen (0,1505-0,3555) und langen (0,2515-0,9394) Leseabschnitte. Bei der Echtdatenerprobung nutzte das Team Daten aus dem LRGASP-Konsortium, insbesondere standardisierte synthetische Transkripte wie ERCC und SIRV. Da ERCC-Transkripte nur einfache Isomere enthalten und keine Alternative Splicing-Varianten aufweisen, zeigte miniQuant-H hierbei eine Genauigkeit, die der von kurzen Leseabschnitten entspricht. Bei komplexeren SIRV-Transkripten, die alternative Splicing-Varianten beinhalten, erzielte miniQuant-H sogar noch bessere Ergebnisse mit einem niedrigeren durchschnittlichen Fehler. Ein weiterer Schritt führte das Forschungsteam dazu, miniQuant in embryonalen Stammzellen (ESCs) zu verwenden, um den Prozess der Zellentwicklung zu untersuchen. Es gelang ihnen, 151 Gene (ESC zu Pharynxendoderm, PE) und 161 Gene (ESC zu präprimordialen Keimzellen, PGC) zu identifizieren, bei denen während des Entwicklungsprozesses alternative Splicing-Varianten auftreten. Ein Beispiel ist das MAT2B-Gen, dessen Gesamtausdruck stabil ist, aber seine Isomere in unterschiedlichen Modellen ändern, was möglicherweise die Fähigkeit der Zelle, die Entwicklung zu steuern, beeinflusst. Ein weiterer wichtiger Aspekt der Studie betrifft hochexprimierte Gene im Bereich des 82. bis 99. Percentils (TPM von 30,60 bis 1.077,09). Bei diesen Genen neigen lange Leseabschnitte aufgrund von Sequenzierungsfehlern zu unzuverlässigen Ergebnissen, wenn sie in tieferen Sequenzierungstiefen (z.B. 600.000 cDNA-ONT-Leseabschnitte) verwendet werden. MiniQuant-H hingegen kombiniert Daten von kurzen und langen Leseabschnitten, um auch bei hohen Ausdruckswerten stabile und genaue Ergebnisse zu liefern. Im Vergleich zu bestehenden Integrationsmethoden zeigte miniQuant-H signifikante technische Vorteile. Zum Beispiel verwendet StringTieMix eine einfache Leseabschnittszuordnung, indem jeder kurze Leseabschnitt der längste unterstützte Isomere zugeordnet wird. Dies führt jedoch zu Einschränkungen in der Simulation von Daten. MiniQuant-H dagegen nutzt komplexe maschinelles Lernen und ähnliche Funktionen, um eine präzisere und anpassungsfähigere Datensynthese zu erreichen. Diese Arbeit hat zwei wesentliche Aspekte vorangetrieben: Erstens wurde ein mathematischer Rahmen für die Bewertung der Zuverlässigkeit von Genisomer-Quantifizierung etabliert. Zweitens bietet sie Softwarewerkzeuge, die auf spezifische Datenmerkmale und Genstruktur anpassungsfähig sind, um optimale Strategien für die Sequenzierungstechnik auszuwählen. Zur Zusammenfassung: Dies ist die erste wissenschaftliche Methode, die Forschern ermöglicht, komplexe und einfache Gene sowie den geeigneten Sequenzierungstechnique präzise zu quantifizieren. Die bisherige Praxis basierte weitgehend auf subjektiven Eindrücken und Erfahrungen, während miniQuant nun ein wissenschaftliches Standardleitfaden darstellt. Ein Experte beurteilte die Studie, dass sie "ein langes ungelöstes Problem in der Spitzenforschung beantwortet". Aktuell ist die miniQuant-Software auf der GitHub-Plattform (https://github.com/Augroup/miniQuant) öffentlich verfügbar und bietet Vorbereitungss Modelle für verschiedene Sequenzierungsplattformen und Tiefen, einschließlich cDNA-PacBio, cDNA-ONT und dRNA-ONT. Mit der weiteren Verbesserung der Long-Read-Sequenzierungstechnik in Bezug auf Kosten und Genauigkeit, verspricht diese intelligente Integration von kurzen und langen Leseabschnitten, den Forschungsbereich der Transkriptgruppenstudien erheblich zu fördern und präzisere Lösungen für genetische Fragen bereitzustellen.