Command Palette
Search for a command to run...
جامعة كولومبيا وجامعة ستانفورد تتعاونان! يُمكّن Squidiff محاكاة النسخ الجيني متعددة السيناريوهات، مما يُسهم في تطوير الطب الدقيق وطب الفضاء.

في أبحاث بيولوجيا الخلية، تُعدّ الخلايا الحية أنظمةً مُبدِّدةً مُعقَّدةً بعيدةً عن التوازن الكيميائي، وتظلُّ استجابتها الجماعية للمُحفِّزات الخارجية سؤالًا علميًا جوهريًا يسعى العلماء جاهدين لاكتشافه. لا تُنظَّم هذه الاستجابة بشكلٍ مُشتركٍ من خلال تباين الأنسجة الداخلية والإشارات الخارجية فحسب، بل غالبًا ما تُظهر أيضًا خصائص ديناميكية غير خطية غير متوقعة. على الرغم من أن تقنية تسلسل الخلية الواحدة تُتيح لنا تحليل التركيب غير المُتجانس للخلايا بشكلٍ غير مُتحيِّز، إلا أن التتبُّع الدقيق للتغيرات في كامل مجموعة النسخ بعد التحفيز لا يزال يُواجه تحدياتٍ كبيرة.
للتغلب على هذا القيد، طوّر المجتمع العلمي سابقًا نماذج تعلّم آلي متنوعة مثل scGen وCellOT. مع ذلك، يُعاني أداء هذه النماذج من ضعف في التنبؤ بالتحولات الديناميكية عالية الدقة، وتعتمد معظمها على تصميم خاص بالمهمة، مما يحدّ بشكل كبير من قابلية تطبيقها. وقد أحدث ظهور نماذج الانتشار نقلة نوعية في هذا المجال: فمن خلال توليد بيانات مُحسّنة بشكل تكراري، يُمكن الحصول على خصائص توزيع بيانات أكثر ثراءً، مما يوفر نهجًا جديدًا لحل المشكلات المذكورة. حاليًا، حاولت بعض الدراسات دمج نماذج الانتشار مع مُرمّزات التباين التلقائي (VAEs) أو تطبيق عملية الانتشار في الفضاء الكامن، مما أدى إلى توليد بيانات أحادية الخلية عالية الدقة بنجاح وتحسين كفاءة النمذجة.ومع ذلك، فإن تطبيق نماذج الانتشار في السيناريوهات الرئيسية مثل التنبؤ باستجابة اضطراب الجينات، والتنبؤ باستجابة اضطراب الأدوية، واستنتاج مسار تطور الخلايا لا يزال مجالًا غير متطور..
وفي هذا السياق،قامت فرق بحثية من جامعة كولومبيا وجامعة ستانفورد وآخرين بتطوير الإطار الحسابي Squidiff.تم بناء هذا الإطار على نموذج انتشار ضمني منزوع الضوضاء مشروطًا ويمكنه التنبؤ بالاستجابات النسخية لأنواع مختلفة من الخلايا تحت تأثير التمايز واضطراب الجينات والعلاج الدوائي.تتمثل ميزتها الأساسية في قدرتها على دمج المعلومات النهائية من أدوات تحرير الجينات ومركبات الأدوية:في التنبؤ بتمايز الخلايا الجذعية، لا يقتصر دور سكويديف على التقاط الحالات الخلوية العابرة بدقة فحسب، بل يحدد أيضًا تأثيرات اضطراب الجينات غير المضافة وخصائص الاستجابة الخاصة بكل خلية. كما طبّق فريق البحث سكويديف في أبحاث الأعضاء الوعائية، حيث نجح في التنبؤ بآثار التعرض للإشعاع على أنواع مختلفة من الخلايا، وتقييم الفعالية الوقائية للأدوية الواقية من الإشعاع.
وقد تم نشر نتائج البحث ذات الصلة، بعنوان "Squidiff: التنبؤ بالتطور الخلوي والاستجابات للاضطرابات باستخدام نموذج الانتشار"، في مجلة Nature Methods.

عنوان الورقة:
https://www.nature.com/articles/s41592-025-02877-y
قم بمتابعة حسابنا الرسمي على WeChat وقم بالرد بـ "Squidiff" في الخلفية للحصول على ملف PDF كامل.
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers
مجموعة البيانات: تغطية كاملة لسيناريوهات متعددة + مراقبة الجودة الموحدة
لتدريب إطار عمل Squidiff بشكل كامل والتحقق من أدائه،قام فريق البحث ببناء مجموعة بيانات متعددة السيناريوهات تتضمن بيانات محاكاة وبيانات تجريبية حقيقية، تغطي اتجاهات بحثية رئيسية مثل تمايز الخلايا، واضطراب الجينات، وعلاج الأدوية، واستجابة الأعضاء الوعائية للإشعاع.خضعت جميع البيانات لعملية مراقبة جودة موحدة: تم تصفية الخلايا منخفضة الجودة التي تتجاوز نسبة جينات الميتوكوندريا فيها 20% أو تقل عن 1000 جين، وأُزيلت الجينات منخفضة التعبير الجيني، وفي بعض الحالات، تم استبعاد الجينات ثنائية الخلية والجينات المرتبطة بالإجهاد. وأخيرًا، تم تصحيح اختلافات عمق التسلسل باستخدام التطبيع اللوغاريتمي لضمان إمكانية المقارنة بين مجموعات البيانات.
فيما يتعلق بالبيانات المحاكاة، استخدم الفريق أداة Splatter القائمة على توزيع جاما بواسون الهرمي لتوليد بيانات تسلسل الحمض النووي الريبي أحادي الخلية الاصطناعي، ومحاكاة خصائص التباين والتباين في التعبير عن scRNA-seq الحقيقي، للتحقق من القدرات الأساسية للنموذج في إعادة بناء النسخ والاستدلال دون الحاجة إلى معالجة بيولوجية مسبقة إضافية.
تم الحصول على بيانات تمايز الخلايا من مجموعة بيانات متاحة للعامة لتمايز الخلايا الجذعية متعددة القدرات البشرية المُستحثة (iPSC) في الأديم الباطن، وتحتوي على نسخ من 4800 خلية من اليوم 0 (حالة iPSC) إلى اليوم 3 (حالة الأديم الباطن المحددة). استخدم النموذج بيانات اليوم 0 واليوم 3 كمجموعة تدريب، وبيانات اليومين 1 و2 كمجموعة اختبار. تم اختيار أفضل 203 جينات شديدة التغير للنمذجة. أُدخلت ضوضاء غاوسية أثناء التدريب، وحُددت 1000 خطوة انتشار. تم الحصول على متغيرات دلالية للتمايز بحساب متوسط الفرق في التمثيلات الكامنة، ثم استُخدم الاستيفاء الخطي لمحاكاة مسار النمو من اليوم 0 إلى اليوم 3 لتقييم قدرة النموذج على التنبؤ بعملية التمايز الديناميكي.
جاءت بيانات اضطراب الجينات من تجربة فحص CRISPR على خلايا K562.شملت الدراسة ما يقارب 10,000 خلية، تشمل كلاً من جينات ZBTB25 وPTPN12 المُعطَّلة، بالإضافة إلى عينة الضبط البرية. قُسِّمت البيانات إلى ثلاث مجموعات: "عينة الضبط + PTPN12"، و"عينة الضبط + ZBTB25"، و"عينة الضبط + PTPN12". استُخدمت المجموعتان الأوليتان للتدريب، بينما استُخدمت المجموعة الأخيرة للاختبار. بعد التدريب، استُخرجت المتغيرات الخاصة باضطراب الجينات وجُمعت لمحاكاة التغيرات النسخية الناتجة عن اضطراب الجينات المزدوجة المُشترك، مما يُثبت قدرة النموذج على رصد التأثيرات غير المُضافة.
تدمج بيانات معالجة الأدوية عينات متعددة من الخلايا والأدوية.يتضمن ذلك ملفات تعريف التعبير الجيني لورم الأرومة الدبقية المُعالج بستة أدوية، بما في ذلك الإيتوبوسيد، وبيانات استجابة الورم الميلانيني لمجموعات الأدوية. أثناء التدريب، يتعلم النموذج تمثيلات اضطرابية محددة لكل دواء، ويدمج عينات أدوية غير معروفة من مجموعة بيانات sci-Plex3. من خلال الجمع بين بنية SMILES ومعلومات الجرعة وبصمات المركبات، يحقق النموذج تنبؤًا عامًا بتأثيرات اضطراب الأدوية غير المعروفة.
تعتمد بيانات العضو الوعائي على التجارب الأصلية.تم تمييز الخلايا البطانية، والخلايا الجدارية، والأرومات الليفية من الخلايا الجذعية المحفزة متعددة القدرات البشرية السليمة. في اليوم الخامس، خضعت الخلايا لإشعاع نيوتروني أو فوتوني، وجُمعت بيانات scRNA-seq في اليوم الحادي عشر، مما شكّل مكتبة موارد تضم 72 عضوًا وحوالي 60,000 خلية. وتم التحقق من صحة البيانات متعددة الوسائط من خلال قياسات ELISA لعوامل الالتهاب. في النمذجة، استخدم الفريق بيانات من اليوم صفر واليوم الحادي عشر لتدريب النموذج، واستيفاء البيانات للتنبؤ بحالات الخلايا في نقاط زمنية وسيطة. في سيناريوهات العلاج بالإشعاع وG-CSF، استُخدمت بيانات الخلايا البطانية فقط للتدريب، مما أدى إلى توليد نسخ مُضطربة لجميع أنواع الخلايا الثلاثة. وأخيرًا، تم التحقق من صحة الأهمية البيولوجية للنتائج المتوقعة من خلال التعبير التفاضلي والتحليل شبه الزمني.
Squidiff: نموذج انتشار مشروط يدمج DDIM والترميز الدلالي
من أجل التنبؤ بدقة بالاستجابة الديناميكية للنسخة الجينية تحت اضطرابات مختلفة مثل التمايز، والتطوير، وتحرير الجينات، والعلاج الدوائي، قام فريق البحث بتطوير Squidiff، وهو إطار عمل حوسبة ذكي يعتمد على نموذج الانتشار المشروط.كما هو موضح في الشكل أدناه، يدمج هذا النموذج بشكل عميق نموذج الانتشار الضمني لإزالة الضوضاء الشرطية (DDIM) مع تقنية الترميز الدلالي لبناء بنية تعاونية ثلاثية المراحل من "الترميز - الانتشار - فك الترميز". لا يقتصر دور هذا النموذج على توليد بيانات النسخ الجيني بكفاءة تتوافق مع الخلفية البيولوجية فحسب، بل يُنظم أيضًا حالة الخلية بمرونة من خلال المتغيرات الكامنة، وهو قابل للتطبيق على نطاق واسع في مختلف سيناريوهات البحث، مثل تمايز الخلايا، واضطراب الجينات، والعلاج الدوائي.

يتكون جوهر Squidiff من مُشفِّر دلالي ووحدة انتشار DDIM مشروطة. يستخدم المُشفِّر الدلالي مُدركًا متعدد الطبقات (MLP) لرسم خريطة بيانات تسلسل الحمض النووي الريبي أحادي الخلية في مساحة دلالية منخفضة الأبعاد، مما يُولِّد متغيرات دلالية (Z_sem) تحتوي على معلومات عن نوع الخلية والاضطراب. في سيناريوهات أبحاث الأدوية، يدمج هذا المُشفِّر بصمات الفئات الوظيفية المُعايرة (r_FCFP)، مُشفِّرًا البنية الجزيئية للدواء كمتجه ذي 2048 بُعدًا مُدمجًا في المساحة الدلالية. وللتنبؤ باضطرابات الدواء غير المعروفة، يتضمن النموذج أيضًا وحدة مُحوِّل تدعم إدخال سلاسل SMILES للأدوية ومعلومات الجرعة، مما يُحقق دمجًا عميقًا بين المعلومات البيولوجية والكيميائية.
تتبع وحدة DDIM المشروطة تصميمًا مزدوج العملية للانتشار الأمامي (انتشار الفضاء الجيني) والانتشار العكسي (الانتشار العكسي في الفضاء الجيني).أثناء عملية الانتشار الأمامي، يتم تحويل بيانات التعبير الجيني الأصلية (x₀) تدريجيًا إلى ضوضاء نقية تقريبًا (x₀) من خلال 1000 تكرار.في هذه العملية، تقترب أنواع الخلايا الثلاثة النموذجية تدريجيًا من التوزيع الغاوسي، بينما يلتقط Z_sem بفعالية الاختلافات البيولوجية في التعبير الجيني، مفرقًا بوضوح بين الظروف التجريبية المختلفة في الفضاء الكامن. أثناء عملية الانتشار الخلفي، تُستخدم شبكة تنبؤ بالضوضاء مزودة بتضمين موضعي جيبي (ε).باستخدام خطوة الوقت (t) و Z_sem كظروف مزدوجة، تم إعادة بناء النسخ البيولوجي المهم من x_T من خلال إزالة الضوضاء التكرارية، مما أدى إلى استعادة ملف النسخ الأصلي بنجاح.

يركز تدريب النموذج على فقدان التنبؤ بالضوضاء باعتباره هدف التحسين الأساسي، ويستخدم محسن Adam (معدل التعلم 1×10⁻⁴) ويعتمد على تسريع وحدة معالجة الرسومات.من خلال تنسيق تنظيم خطوات الوقت والمتغيرات الدلالية، يمكن للنموذج محاكاة التطور المستمر لحالات الخلايا، مما يوفر الدعم للتنبؤ بالمسار الديناميكي.
بالمقارنة مع أجهزة ترميز التباين التلقائي التقليدية، يتمتع Squidiff بمزايا كبيرة:دون الحاجة إلى افتراض التوزيع الغاوسي، يلتقط هذا النموذج أنماط التعبير الجيني المعقدة من خلال تقليل الضوضاء بدقة، مما يُحسّن درجة F1 بمقدار 27% في التنبؤ بأنواع الخلايا النادرة (<5%). ويُقدم بشكل مبتكر استراتيجية "الاستيفاء التدريجي"، التي تُولّد مسارات تمايز مستمرة من خلال الجمع الخطي للمتغيرات الدلالية في الفضاء الكامن، ويُحدد بنجاح حالات الخلايا العابرة التي تُغفلها النماذج التقليدية بسهولة (مثل سلائف الأديم المتوسط في تمايز الخلايا الجذعية متعددة القدرات).
بالإضافة إلى ذلك، يوفر النموذج طريقتين للتلاعب بالمتغيرات الكامنة: "الإضافة" تجمع التمثيل الأصلي مع اتجاه الاضطراب (Δz_sem)، كما هو موضح في الشكل f أدناه، لتحويل توزيع التعبير الجيني وعكس تأثير الاضطراب؛ "الاستيفاء" يستخدم الاستيفاء الخطي، كما هو موضح في الشكل g أدناه، لتوليد حالات مستمرة من خلال الحصول على نقاط وسيطة على خط اتصال المتجه، وبالتالي تحقيق انتقال سلس لأنواع الخلايا.

عرض توضيحي متعدد السيناريوهات باستخدام سكويديف: التقاط دقيق للتغيرات النسخية في تمايز الخلايا، والاضطرابات، والاستجابة للإشعاع
للتحقق بشكل منهجي من قدرات التنبؤ بالنسخ الجيني لـ Squidiff، أجرى فريق البحث التحقق التجريبي في أربعة مجالات رئيسية: تمايز الخلايا، واضطراب الجينات والأدوية، وتطور الأعضاء الوعائية، والأضرار الإشعاعية.
في مجال التنبؤ بتمايز الخلايا، كما هو موضح في الشكل أدناه، درب الفريق النموذج باستخدام بيانات اليوم صفر واليوم 3 فقط، استنادًا إلى مجموعة بيانات تمايز الخلايا الجذعية متعددة القدرات إلى الأديم الباطن. وتم تحديد اتجاه التمايز بحساب فروق المتغيرات الدلالية، ونجح Squidiff في التنبؤ بالحالة الوسيطة بين اليومين 1 و2. وقد رصد النموذج بدقة انخفاض تنظيم مؤشر تعدد القدرات MMOG، وزيادة تنظيم عامل الأديم الباطن GATA6، وحدد التعبير المؤقت لمؤشر الأديم المتوسط DBX1. وبالمقارنة مع الطرق التقليدية، يمكن لبيانات النسخ الجيني التي يولدها Squidiff إعادة بناء مسار مستمر يتسق إلى حد كبير مع مسار النمو الفعلي.

ويظهر النموذج أداءً متميزًا في التنبؤ بالاضطرابات الجينية والدوائية.بالنسبة لتجارب إخراج الجينات المزدوجة في خلايا K562، يمكن لـ Squidiff التنبؤ بدقة بالتأثيرات غير المضافة دون معرفة مسبقة، وتتفوق قوتها على الأساليب الحالية.في تجارب الأدوية، تمكن النموذج من التنبؤ بالتأثيرات التآزرية للأدوية المركبة باستخدام بيانات دواء واحد فقط، وتحديد التأثيرات المحددة لدواء بابيسيبت على الخلايا السرطانية بدقة. علاوة على ذلك، ومن خلال دمج مُحوِّل مُركّب دوائي، كان أداء النموذج التنبئي لدواء sglt1 المجهول مُشابهًا لأداء النماذج المتخصصة، مما يُظهر قدرة ممتازة على التعميم.

في أبحاثهم على العضويات الوعائية (BVO)، تمكن الفريق بنجاح من التنبؤ بحالات الخلايا في نقاط زمنية وسيطة متعددة باستخدام نموذج BVO المستحث بواسطة الخلايا الجذعية متعددة القدرات.لم يقتصر النموذج على إعادة إنتاج مسارات تمايز الأنواع الرئيسية الثلاثة من الخلايا - الخلايا البطانية، والأرومات الليفية، والخلايا الجدارية - بل حدد أيضًا المرحلة الوسيطة لتمايز الخلايا الجدارية إلى خلايا بطانية، والتي يصعب رصدها بالطرق التقليدية. أظهر تحليل التعبير الجيني أن التغيرات الجينية المميزة في البيانات المتوقعة كانت متوافقة إلى حد كبير مع أنماط النمو المعروفة.

في دراسات أضرار الإشعاع، تنبأ النموذج بدقة بآثار الإشعاع على أنواع مختلفة من الخلايا باستخدام بيانات تدريب الخلايا البطانية فقط. أظهر التحليل أن الخلايا في مراحل نموها المبكرة كانت أكثر حساسية للإشعاع، وتم تأكيد الجينات ذات التعبير التفاضلي والمسارات ذات الصلة التي تنبأ بها النموذج تجريبيًا. في التنبؤ بالتأثيرات الوقائية لعامل تحفيز مستعمرات الخلايا المحببة (G-CSF)، كشف النموذج عن آليات الدواء الوقائية ضد أنواع مختلفة من الخلايا: تنشيط مسارات تكوين الأوعية الدموية في الخلايا الليفية، وتثبيط مسارات موت الخلايا المبرمج في الخلايا البطانية، وتعزيز الاستقرار الجينومي في الخلايا الجدارية. أظهر التحقق التجريبي انخفاضًا ملحوظًا في موت الخلايا بعد العلاج بعامل تحفيز مستعمرات الخلايا المحببة (G-CSF)، مما يدل على موثوقية تنبؤات النموذج.

وتوضح تجارب النظام هذه أن Squidiff لا يستطيع فقط التنبؤ بدقة بالتغيرات في حالة الخلية في ظل سيناريوهات بيولوجية مختلفة، بل يستطيع أيضًا التقاط الحالات العابرة واستنتاج الاضطرابات غير المعروفة، مما يوفر أداة حسابية قوية وموثوقة للتنبؤ باستجابات الخلايا.
نموذج جديد يعتمد على الذكاء الاصطناعي لأبحاث الخلية الواحدة
في المجال متعدد التخصصات لعلم الأحياء أحادي الخلية والذكاء الاصطناعي، فإن التقدم في تكنولوجيا نموذج الانتشار الذي تمثله Squidiff يدفع الابتكار التعاوني بين الأوساط الأكاديمية والصناعة.
وعلى مستوى البحث الأكاديمي، تواصل فرق جامعية مرموقة في جميع أنحاء العالم تحقيق اختراقات في عمق واتساع نمذجة الخلية الواحدة.نجح فريق بحثي بجامعة تورنتو في كندا في تطوير وإصدار scGPT، وهو أول نموذج لغوي أساسي واسع النطاق لعلم الأحياء أحادي الخلية.يعتمد النموذج على بنية محول توليدي مُدرّب مسبقًا، وقد تم تدريبه على أكثر من 33 مليون نقطة بيانات خلوية تغطي 51 عضوًا/نسيجًا بشريًا و441 دراسة مستقلة. يغطي النموذج بشكل شامل أنواعًا متعددة من الخلايا وحالاتها الفسيولوجية والمرضية، ويقدم أطلسًا غنيًا بتنوع الخلايا البشرية.
عنوان الورقة:scGPT: نحو بناء نموذج أساسي لتحليل الجينومات المتعددة للخلية الواحدة باستخدام الذكاء الاصطناعي التوليدي
عنوان الورقة:
https://biorxiv.org/content/10.1101/2023.04.30.538439
في نفس الوقت،ركز فريق جامعة ستانفورد على الابتكار في البعد المكاني، من خلال تطوير إطار النمذجة المكانية الزمنية ثلاثي الأبعاد Spateo.استنادًا إلى خوارزميات قابلة للتطوير ودقيقة، يمكن لهذا الإطار إعادة بناء نماذج كاملة للأجنة والأعضاء ثلاثية الأبعاد من بيانات شريحة الأنسجة ثنائية الأبعاد المستمرة، وبناء نظام رقمي مكاني متعدد المستويات من السمات الجزيئية للخلية الفردية إلى مورفولوجيا الجنين العيانية.
عنوان الورقة:النمذجة المكانية الزمنية للصور المجسمة الجزيئية
عنوان الورقة:
https://www.cell.com/cell/fulltext/S0092-8674(24)01159-0
ويقوم مجتمع الأعمال بتحويل هذه النتائج الأكاديمية إلى أدوات عملية، مما يدل على قيمتها الكبيرة في تطوير الأدوية وعلاج الأمراض وغيرها من السيناريوهات.يعد Cell2Sentence-Scale 27B (C2S-Scale 27B)، الذي طورته شركة Google بالتعاون مع جامعة ييل ومؤسسات أخرى، أحد أكبر النماذج الأساسية في العالم لتحليل الخلية الفردية.هذا النموذج، المبني على عائلة نماذج جيما مفتوحة المصدر، يضم 27 مليار معلمة، وهو قادر على تحليل أنماط التعبير الجيني في الخلايا الفردية بدقة، والتنبؤ بدقة باستجابات الخلايا للتدخلات الدوائية. وقد دُمج النموذج حاليًا في منصة فحص الأدوية من جوجل هيلث، مما يدعم تصميم علاجات مركبة مخصصة للأورام الباردة، ويُسرّع تطوير أنظمة العلاج المناعي.وتأتي ممارسة مهمة أخرى من التعاون بين معهد آرك غير الربحي وشركات مثل 10x Genomics، التي يركز نموذجها STATE على محاكاة الاستجابات الخلوية الديناميكية.ويدمج هذا المشروع بيانات المراقبة من 170 مليون خلية وبيانات التدخل من 100 مليون خلية، مما يتيح إجراء محاكاة دقيقة للتغيرات النسخية في الخلايا تحت العلاج الدوائي، أو تحرير الجينات، أو التعرض للإشعاع.
ليس من الصعب أن نرى أنه من الاستكشاف المتعمق الذي يقوم به المجتمع الأكاديمي للنماذج الأساسية للخلية الفردية إلى التنفيذ واسع النطاق للتكنولوجيا من قبل الصناعة،تساهم تقنية النمذجة الانتشارية التي ابتكرتها شركة Squidiff في دفع أبحاث الخلية الواحدة من "تحليل حالة الخلية" إلى "التنبؤ بمصير الخلية".ولا تعمل هذه القفزة على تسريع التقدم في مجالات مثل تطوير الأدوية وعلاج السرطان فحسب، بل ستوفر أيضًا الدعم التكنولوجي الأساسي للاتجاهات الطبية المستقبلية مثل الطب الدقيق والطب التجديدي، مما يؤدي إلى إطلاق العنان بشكل مستمر للإمكانات الهائلة للابتكار المدفوع بالذكاء الاصطناعي في علوم الحياة.
المقالات المرجعية:
1.https://mp.weixin.qq.com/s/yCR_GC0Ln80st2tHcv08-Q
2.https://mp.weixin.qq.com/s/GegQB65w4nZG6ZXvnyU9dw