HyperAI
Back to Headlines

علماء يطورون خوارزمية جديدة لتحسين تقدير الجينات البديلة بدقّة في تسلسل RNA

منذ 9 أيام

بعد عقدين من البحث العلمي والتكنولوجي، حققت تقنية تسلسل الـ RNA (RNA Sequencing) تقدمًا هامًا بفضل خوارزمية جديدة تم تطويرها حديثًا. فريق الأستاذ كين فاي أو من جامعة ميشيجان الأمريكية نشر دراسة في مجلة Nature Biotechnology تكشف عن خوارزمية تُسمى "miniQuant" التي تمكن الباحثين من حل مشكلة تحديد كميات الأيزومورفات الجينية (Gene Isoforms) بشكل أكثر دقة. كما أوضح كين فاي أو، "هذا الموضوع كان محل نقاش لسنوات عديدة لكنه لم يكن يحظى بتعريف رياضي يعتمد على العلوم البياناتية." في الفهم الشائع، يُفترض أن كل جين ينتج بروتينًا واحدًا فقط، ولكن الواقع يشير إلى أن الجين الواحد يمكن أن ينتج العديد من الإيزومورفات المessenger RNA (mRNA) عبر عملية تعرف بـ "القص البديل" (Alternative Splicing). هذه الايزومورفات تعزز التعقيد البيولوجي، لكن تحديد مستوى تعبيرها بدقة كان يمثل تحديًا رئيسًا في مجال البيوинформاتika (Bioinformatics). تتراوح تقنيات التسلسل الحديثة بين الجيل الثاني والجيل الثالث. الجيل الثاني، مثل منصة Illumina، يتميز بقراءات قصيرة (حوالي 150 زوجًا من القواعد)، ولكنه ذو سعة كبيرة ومنخفض التكلفة. أما الجيل الثالث، مثل منصات PacBio وOxford Nanopore Technologies (ONT)، فيوفر قراءات طويلة تصل لآلاف الأزواج من القواعد، مما يسمح بتغطية جزيئات الـ RNA بأكملها، ولكنه ذو سعة أقل وأعلى تكلفة. هذا التناقض يترك الباحثين في حيرة من أمرهم حول اختيار التقنية المناسبة. المشكلة الجذرية تكمن في أن الإيزومورفات المختلفة للجينات تشترك في سلاسل الـ exons، مما يجعل من الصعب تعيين القراءات القصيرة بشكل دقيق لجيناتها الأصلية. في المقابل، القراءات الطويلة رغم قدرتها على تغطية النصوص الكاملة، فإن ضحالة التسلسل قد تؤثر على دقة تحديد الجينات ذات التعبير المنخفض. لحل هذه الإشكالية، اقترح الفريق البحثي مفهوم الـ K-value، وهو مؤشر يتم حسابه باستخدام عدد الشرط المعمم (Generalized Condition Number) لتقييم درجة الغموض في عملية تحديد الإيزومورفات. يتم تعريف الـ K-value كنسبة القيم الفردية الموجبة الأكبر إلى الأصغر في مصفوفة احتمالات تعيين القراءات للإيزومورفات. لقد أظهرت الدراسات الرياضية أن الـ K-value المرتفع يرتبط بزيادة خطأ التحديد النسبي، مما يعني أن الجينات ذات الـ K-value العالي تكون أكثر عرضة للأخطاء في تحديد الإيزومورفات. الفريق قام بتحليل أكثر من 17,000 مجموعة بيانات عامة من مشاريع GTEx، TCGA، وENCODE للتحقق من فعالية نظرية الـ K-value. النتائج أظهرت زيادة متوسطة في المتوسط الحسابي للفروق النسبية المطلقة (MARD) بمعدل 0.1830، 0.1559، و0.1721 على التوالي في هذه المشاريع مع زيادة الـ K-value من 1 إلى 25 وأكثر. هذا الارتباط ظل ثابتًا في ظروف بيولوجية مختلفة وفي مشاريع بيانات ذات جودة متفاوتة، مما يؤكد على ثبات الـ K-value كمؤشر للخطأ الكمي. بناءً على هذا الإطار النظري، طور الفريق برنامج "miniQuant" الذي يعمل على دمج مزايا القراءات القصيرة والطويلة بشكل ذكي. يحتوي miniQuant على وضعين: الوضع الأول miniQuant-L يستخدم القراءات الطويلة فقط، بينما الوضع الثاني miniQuant-H هو الوضع المبتكر الذي يدمج البيانات من القراءات القصيرة والطويلة. يستخدم برنامج miniQuant-H نماذج تعلم آلي لتحديد أفضل نسبة وزن بين القراءات القصيرة والطويلة لكل جماعة جينات بناءً على خصائص الجين والبيانات. على سبيل المثال، يتم تخصيص وزن أعلى للقراءات الطويلة للجينات المعقدة (عالية الـ K-value) لتجنب أخطاء الفصل، بينما يتم زيادة وزن القراءات القصيرة للجينات ذات التعبير المنخفض لمنع الأخطاء الناتجة عن نقص العينات. في اختبارات المعايرة، أثبت miniQuant-H فعاليته بشكل كبير. بلغ متوسط MARD في البيانات المحاكاة 0.1249، وهو أفضل من أدوات القراءات القصيرة (0.1505-0.3555) وأدوات القراءات الطويلة (0.2515-0.9394). في البيانات الحقيقية، تم استخدام بيانات الجينات القياسية من مشروع LRGASP. بالنسبة للجينات القياسية ERCC، والتي لا تعاني من أخطاء الفصل، أدوات القراءات القصيرة كانت أفضل من أدوات القراءات الطويلة، بينما حافظ miniQuant-H على نفس المستوى من الدقة. أما بالنسبة للجينات القياسية SIRV الأكثر تعقيدًا، فقد حقق miniQuant-H أقل متوسط للخطأ. طبق الباحثون برنامج miniQuant في دراسة تتعلق بتحول الإيزومورفات خلال تفريق الخلايا الجذعية البشرية. تم تحديد 151 جينًا يتحول فيها الإيزومورفات أثناء تفريق الخلايا الجذعية إلى الخلايا الجنينية الأولية و161 جينًا أثناء تفريقها إلى الخلايا الجنينية الشبيهة. هذه الأحداث تحمل أهمية بيولوجية كبيرة، حيث يُظهر جين مثل MAT2B استقرارًا في مستواه العام من التعبير لكنه يمر بتغيرات ملحوظة في استخدام الإيزومورفات، مما قد يؤثر على قدرة الخلية على تنظيم الانتحار الخلوي. يقدم برنامج miniQuant تطورًا في تقنيات تسلسل الـ RNA من خلال توفير إطار نظري لتقدير التعقيد الكمي للجينات وأداة برامجية قادرة على اختيار الاستراتيجية الأمثل بناءً على خصائص البيانات والجينات. يعلق كين فاي أو قائلاً: "هذه هي المرة الأولى التي يتم فيها تقديم معايير علمية دقيقة لتحديد أي الجينات هي المعقدة وأي هي البسيطة، بالإضافة إلى متى يجب استخدام تقنيات التسلسل المختلفة." وقد أشاد المراجعون بالبحث لأنه "يقدم حلًا لمشكلة بقيت عالقة لفترة طويلة." يعد miniQuant متاحًا كتطبيق مفتوح المصدر على منصة GitHub، مع توفر نماذج مسبقة التدريب لمنصات التسلسل المختلفة ومعدلات السعة المتاحة، بما في ذلك cDNA-PacBio، cDNA-ONT، وdRNA-ONT. مع انخفاض تكاليف تقنيات القراءات الطويلة وتحسين دقتها، يتوقع أن يكون هذا الأسلوب الذكي في دمج مزايا القراءات القصيرة والطويلة حلاً أكثر دقة واقتصادية للمشاكل المتعلقة بدراسة الترانسكربوم (Transcriptome).

Related Links