HyperAI
Back to Headlines

تحدي الستوما الافتراضي: تدريب نموذج للتنبؤ بآثار كبت الجينات في الخلايا

منذ 9 ساعات

تحدي الخلية الافتراضية من معهد Arc: مقدمة موجزة الخلفية كشف معهد Arc مؤخرًا عن تحدي الخلية الافتراضية، الذي يتطلب من المشاركين تدريب نموذج قادر على التنبؤ بتأثير إسكات جين باستخدام تقنية CRISPR في نوع خلية لم يتم رؤيته تمامًا أو جزئيًا. الهدف من هذا التحدي هو تطوير نموذج يمكنه محاكاة ما يحدث للخلية عند تغيير بعض المعلمات، مما سيوفر تأثيرًا كبيرًا على تسريع التقدم في مجال الأبحاث البيولوجية والطبية. البيانات التدريبية يتكون مجموعة البيانات التدريبية من مصفوفة نادرة ومetadata متعلقة بها. تشمل البيانات حوالي 220,000 خلية، ولكل خلية يوجد ترانسكربوم (transcriptome)، وهو ناقل نادر يمثل عدد الجزيئات الـ RNA (المessages) التي يرمزلها الجين المعني. من بين هذه الخلايا، حوالي 38,000 خلية غير مشوهة (unperturbed)، أي أن أي جين لم يتم إسكاته باستخدام CRISPR. هذه الخلايا الخاضعة للرقابة (control cells) مهمة للغاية لأنها تقدم نقطة مرجعية للقياس. على سبيل المثال، إذا اخترنا جين TMSB4X، وهو الجين الأكثر إسكاتًا في قاعدة البيانات، سنلاحظ أن الخلية التي تم إسكات TMSB4X فيها لديها عدد أقل بكثير من الجزيئات الـ RNA مقارنة بالخلايا الخاضعة للرقابة. نموذج التحدي قد يتساءل البعض لماذا لا نقوم فقط بقياس عدد جزيئات الـ RNA قبل وبعد إسكات الجين، ولماذا نحتاج إلى الخلايا الخاضعة للرقابة؟ المشكلة تكمن في أن قراءة الترانسكربوم تتسبب في تدمير الخلية، مما يشبه تأثير المراقب. لذلك، نحن مجبرون على استخدام مجموعة من الخلايا الأساسية كنقطة مرجعية. هذه الخلايا ليست متجانسة تمامًا قبل التشويه، مما يجعل من الصعب فصل الإشارة الحقيقية (التشويه) عن الضوضاء الناجمة عن التنوع. نُمَثِّل التعبير الجيني الملاحظ في الخلايا المشوهة كالتالي: [ \hat{X}p \sim \hat{T}_p(\mathcal{D}{\text{basal}}) + H(\mathcal{D}{\text{basal}}) + \varepsilon, \quad \varepsilon \sim P\varepsilon ] حيث: - (\hat{X}_p) هي التعبير الجيني المتنبأ به في الخلية المشوهة. - (\hat{T}_p) هو النموذج الذي يحاكى التحول الحاصل في الخلية بسبب التشويه. - (H) هي الدالة التي تمثل الضوضاء الناجمة عن التنوع بين الخلايا. - (\varepsilon) هو الخطأ العشوائي. النموذج الأساسي من Arc: STATE قبل الكشف عن تحدي الخلية الافتراضية، أطلق Arc نموذج STATE الخاص بهم، والذي يحاول حل التحدي باستخدام نموذجين مبنيين على متحولات (transformers). هذان النموذجان هما: 1. نموذج الانتقال الحالة (State Transition Model - ST): هذا النموذج يعتبر "محاكي الخلية"، حيث يأخذ إما ترانسكربوم خلية خاضعة للرقابة أو غلاف الخلية المنتج بواسطة النموذج الثاني (SE)، بالإضافة إلى متجه تم تمثيله كـ one-hot يمثل التشويه المعني، وينتج الترانسكربوم المشوه. 2. نموذج الغلاف الحالة (State Embedding Model - SE): هذا النموذج مشابه لنموذج BERT ويتم تدريبه باستخدام مهمة التنبؤ المقنع (masked prediction). الهدف منه هو إنتاج غلاف معنى غني للخلايا لتحسين التعميم بين أنواع الخلايا المختلفة. نموذج الانتقال الحالة (ST) نموذج الانتقال الحالة هو متحول نسبيًا بسيط ذو هيكل Llama، يعمل على: - مجموعة من الترانسكربومات (أو غلافات SE) للخلايا الخاضعة للرقابة. - مجموعة من المتجهات one-hot التي تمثل تشويه الجين لكل خلية. يتم تمرير كل من المجموعتين عبر مُشفِّرات مستقلة، وهي عبارة عن شبكات متعددة الطبقات (MLPs) ذات 4 طبقات مع تنشيطات GELU. إذا كان العمل مباشرة في مساحة التعبير الجيني (أي إنتاج ترانسكربوم كامل)، يتم تمرير المخرجات عبر مُفكِّك تم تعلمه. يتم تدريب النموذج باستخدام الاختلاف المتوسط الأقصى (Maximum Mean Discrepancy)، حيث يتعلم النموذج تقليل الفرق بين توزيعات الاحتمالات للخلية المشوهة والخلية الخاضعة للرقابة. نموذج الغلاف الحالة (SE) لفهم كيفية عمل نموذج SE، من الضروري فهم بعض الأساسيات البيولوجية: - الجين: يتكون من أجزاء مترافقة (exons) وأجزاء غير مترافقة (introns). - النسخ السابق للـ mRNA (pre-mRNA): هو نتيجة النسخ الأولي للـ DNA. - التشذيب البديل (Alternative Splicing): هو عملية اختيارية لإزالة الأجزاء غير المترافقة وترك بعض الأجزاء المترافقة، مما يؤدي إلى إنتاج بروتينات مختلفة من نفس الجين. يتم إنتاج غلاف جيني واحد من خلال الحصول على تسلسل الأحماض الأمينية لجميع البروتينات البديلة التي يرمزلها الجين المعني. يتم تغذية هذه التسلسلات إلى ESM2، وهو نموذج لغة البروتينات من FAIR يحتوي على 15 مليار معلمة. ينتج ESM2 غلافًا لكل حمض أميني، ويتم تجميعها بمتوسط بسيط للحصول على غلاف البروتين البديل (transcript). بعد ذلك، يتم تجميع غلاف البروتين البديل مع بقية غلافات البروتينات البديلة للحصول على غلاف الجين. يتم توضيب الغلاف الجيني في البعد المطلوب للنموذج باستخدام مُشفِّر تم تعلمه: [ \tilde{g}_j = \text{SiLU}(\text{LayerNorm}(g_j \mathbf{W}_g + \mathbf{b}_g)) ] بعد ذلك، يتم تمثيل كل خلية بالـ 2048 جينًا الأولى مرتبة حسب مستوى التعبير اللوغاريتمي. يتم بناء "جملة الخلية" من غلافات هذه الجينات: [ \tilde{\mathbf{c}}^{(i)} = \left[\mathbf{z}{\text{cls}}, \tilde{\mathbf{g}}_1^{(i)}, \tilde{\mathbf{g}}_2^{(i)}, \ldots, \tilde{\mathbf{g}}_L^{(i)}, \mathbf{z}{\text{ds}}\right] \in \mathbb{R}^{(L+2) \times h} ] حيث: - (\mathbf{z}{\text{cls}}) هو الرمز المستخدم كغلاف الخلية. - (\mathbf{z}{\text{ds}}) هو الرمز المستخدم لفصل تأثيرات البيانات المحددة للمجموعة. يتم تدريب النموذج عن طريق تغطية 1280 جينًا لكل خلية، ويتطلب النموذج التنبؤ بهذه الجينات. يتم اختيار هذه الجينات بحيث تكون لديها نطاق واسع من مستويات التعبير. التقييم فهم كيفية تقييم تقديماتك أمر حاسم لتحقيق النجاح. اختار Arc ثلاثة مقاييس للتقييم: 1. تمييز التشويه (Perturbation Discrimination): يهدف إلى تقييم مدى قدرة نموذجك على الكشف عن الاختلافات النسبية بين التشوهات. يتم حساب المسافات المانهاتنية (Manhattan distances) بين جميع الترانسكربومات المشوهة المismeasured في مجموعة الاختبار (الحقيقة الأرضية التي نحاول التنبؤ بها) (y_t) وكل الترانسكربومات المشوهة الأخرى (y_p^n) وبين الترانسكربوم المتنبأ به (\hat{y}t). يتم ترتيب النتائج وحساب الترتيب كما يلي: [ r_t = \sum{p \neq t} \mathbf{1}{d(\hat{y}_t, y_p) < d(\hat{y}_t, y_t)} ] ثم يتم التطبيع بحجم مجموعة الترانسكربومات: [ \text{PDisc}_t = \frac{r_t}{T} ] حيث 0 يعني التطابق المثالي. يتم حساب الدرجة النهائية كمتوسط جميع (\text{PDisc}_t) ثم يتم تطبيعها: [ \text{PDiscNorm} = 1 - 2\text{PDisc} ] التعبير المتفاوت (Differential Expression): يهدف إلى تقييم ما نسبة الجينات المتضررة حقًا التي تم التعرف عليها بشكل صحيح. يتم حساب القيمة الـ p لكل جين باستخدام اختبار rang-sum de Wilcoxon مع تصحيح الروابط. يتم تطبيق إجراء Benjamini-Hochberg لتعديل القيم الـ p، وذلك لتقليل عدد الأخطاء الإيجابية الزائفة. يتم حساب الدرجة النهائية كما يلي: إذا كان حجم مجموعة الجينات المتوقعة أقل من حجم مجموعة الجينات الحقيقية، يتم حساب تقاطع المجموعتين وتقسيمها على عدد الجينات المتضررة الحقيقية: [ DE_p = \frac{G_{p,pred} \cap G_{p,true}}{n_{p,true}} ] إذا كان حجم مجموعة الجينات المتوقعة أكبر من حجم مجموعة الجينات الحقيقية، يتم اختيار مجموعة الجينات المتوقعة الأكثر تعبيرًا (التنبؤات الأكثر ثقة) (\tilde{G}{p,pred})، ثم حساب تقاطعها مع مجموعة الجينات الحقيقية: [ DE_p = \frac{\tilde{G}{p,pred} \cap G_{p,true}}{n_{p,true}} ] يتم حساب الدرجة النهائية بمتوسط جميع (DE_p). الخاتمة إذا أثار هذا التحدي اهتمامك، كيف يمكنك البدء؟ حظي Arc بتوفير دفتر ملاحظات Colab يوضح عملية تدريب نموذج STATE بالكامل. بالإضافة إلى ذلك، سيتم إطلاق نموذج STATE قريبًا على منصة transformers، مما يجعل البدء باستخدام النماذج المدربة مسبقًا بسيطًا للغاية. إليك كيفية البدء: ```python import torch from transformers import StateEmbeddingModel model_name = "arcinstitute/SE-600M" model = StateEmbeddingModel.from_pretrained(model_name) input_ids = torch.randn((1, 1, 5120), dtype=torch.float32) mask = torch.ones((1, 1, 5120), dtype=torch.bool) mask[:, :, 2560:] = False outputs = model(input_ids, mask) ``` نتمنى لك التوفيق في المشاركة في هذا التحدي! تقييم الحدث من قبل المختصين يُعتبر تحدي الخلية الافتراضية من معهد Arc خطوة مهمة نحو تسريع الأبحاث البيولوجية والطبية. استخدام النماذج الافتراضية يمكنه توفير الوقت والتكاليف والجهد المطلوب لإجراء التجارب التجريبية. كما أنه يسمح باختبار آلاف المرشحين للأدوية دون الحاجة إلى لمس الصفيحات البتري (petri dishes). هذا التحدي يفتح آفاقًا جديدة للتعاون بين علماء الحاسوب والأحياء، مما يعزز الابتكار ويحسن فهماً مشتركًا للمشاكل البيولوجية المعقدة. معهد Arc هو منظمة بحثية رائدة في مجال الذكاء الاصطناعي والبيولوجيا الخلوية، ويعمل على تطوير أدوات وتقنيات تساهم في تقدم الأبحاث الطبية.

Related Links