تم اختياره لـ ICLR 2025! يحقق نموذج Celcomen الذي اقترحته جامعة كامبريدج إمكانية التعرف على الاستدلال السببي في تحليل النسخ المكاني لأول مرة

في علم الأحياء، يقوم ملف التعبير الجيني للخلية بتشفير المعلومات حول خصائصها الجوهرية والبيئة الخارجية للأنسجة. إن كشف العلاقة بين السبب والنتيجة بين هذين التأثيرين أمر بالغ الأهمية لفهم التفاعلات المعقدة داخل الخلايا وبينها بشكل كامل. ولتحقيق هذه الغاية، هناك حاجة إلى إطار عمل قوي لفك الارتباط السببي.
الفصل السببي هو أسلوب تعلم آلي يهدف إلى فصل الميزات المفيدة عن الميزات غير ذات الصلة من خلال الكشف عن العلاقات السببية في البيانات، وبالتالي تقليل اعتماد النموذج على الارتباطات الزائفة وتحسين قوة النموذج وقدرته على التعميم. إلى جانب تطوير نظريات التعلم الآلي مثل الفصل السببي، عزز التقدم التكنولوجي في مجال علم الأحياء أيضًا تطوير النسخ المكاني، مما يسمح للباحثين بقياس التعبير الجيني والإحداثيات المكانية للخلايا في وقت واحد بدقة الخلية الواحدة، وإجراء تجارب اضطراب مثل إخراج الجينات على نطاق واسع في العينات المكانية.
لكن،غالبًا ما تتجاهل الأساليب الحسابية الحالية في تحليل النسخ المكاني نمذجة الاضطرابات السببية على المستويات الخلوية والأنسجة.وهذا أمر بالغ الأهمية لكشف الآليات وراء حالات المرض في الأنسجة. على سبيل المثال، يمكن لنموذج الخلايا الافتراضية التنبؤ بتأثيرات التغيرات في البيئة الدقيقة والبيئة الكبيرة (مثل عمر المتبرع، وأنسجة الخلايا، والعلاج الدوائي، وإخراج الجينات بوساطة gRNA، وما إلى ذلك) على التعبير الجيني، ولا يستطيع نموذج الأنسجة الافتراضية تقدير تأثير البيئة على خلية واحدة فحسب، بل يستنتج أيضًا تأثير خلية واحدة على البيئة المحيطة بها والأنسجة بأكملها.
وبناء على هذا،اقترح فريق بحثي من جامعة كامبريدج نموذجًا للأنسجة الافتراضية يسمى Celcomen، وهو عبارة عن شبكة عصبية بيانية جديدة تعتمد على السببية الرياضية لاكتشاف أسرار تنظيم الجينات داخل الخلايا وبين الخلايا في النسخ المكاني وبيانات الخلية الواحدة.أثبت الباحثون قدرة Celcomen على كشف واستعادة التفاعلات بين الجينات في البيانات النسخية المكانية الحقيقية والمحاكاة ذاتيا.
وقد تم اختيار النتائج ذات الصلة لمؤتمر ICLR 2025 تحت عنوان "تقدير تأثير اضطراب الخلية الفردية والأنسجة في النسخ المكاني عبر فك التشابك السببي المكاني".
أبرز الأبحاث:
* تثبت الدراسة إمكانية توسيع نموذج الخلية الافتراضية إلى نموذج الأنسجة الافتراضية
* تقترح الدراسة أول نموذج يمكن التعرف عليه سببيًا في تحليل النسخ المكاني
* استنتج تنظيم الجينات من خلال دمج بيانات الخلية المفردة المنفصلة وبيانات الخلية المفردة المكانية

عنوان الورقة:
https://openreview.net/forum?id=Tqdsruwyac
يجمع مشروع المصدر المفتوح "awesome-ai4s" أكثر من 200 تفسير لورقة AI4S ويوفر مجموعات بيانات وأدوات ضخمة:
https://github.com/hyperai/awesome-ai4s
مجموعة البيانات: المحاولة الأولى لاستخدام مجموعة بيانات Perturbmap
ولإثبات فعالية Celcomen في التقاط تأثيرات الاضطرابات بشكل صحيح في سياق مكاني، قام الباحثون بمعاييرها على مجموعة بيانات النسخ الكاملة في الجسم الحي والتي تقيس انخفاض الجينات في النسخ المكاني.يُسمى Perturbmap. تحتوي مجموعة بيانات Perturbmap على نموذج فأر لدراسة سرطان الرئة KP، بالإضافة إلى عمليات إخراج محتملة لجين Jak2 أو Tgfbr2. تشرح مجموعة البيانات 5 مناطق مكانية كمناطق آفة، وهي أجزاء من 1) سرطان النوع البري KP، أو 2) سرطان KP مع خروج جين Jak2، أو 3) سرطان KP مع خروج جين Tgfbr2، كما هو موضح أدناه:

في عملية تقييم قدرات شركة Celcomen،مجموعة بيانات الطحال الجنيني التي يستخدمها الباحثون تأتي من https://developmental.cellatlas.io/fetalimmune،عند تقديمه في شكل معياري لوغاريتمي، فمن الواضح أن تحويل اللوغاريتم وتطبيع حجم المكتبة تم إجراؤهما؛مجموعة بيانات الورم الأرومي الدبقي من 10x Genomics،تم إجراء نفس تطبيع حجم المكتبة، وعدد الدقائق لكل مليون (CPM)، والتحويل اللوغاريتمي إلى القاعدة e؛ بالإضافة إلى ذلك، تم الاحتفاظ فقط بالجينات المعبر عنها في 100 خلية على الأقل.
هندسة النموذج: إطار عمل جديد للتحليل السببي
يحقق نموذج سيلكومين المقترح في هذه الدراسة إمكانية التعرف على الاستدلال السببي والقدرة على تفسير النموذج بشكل أكبر من خلال الجمع بين ميكانيكا لاغرانج والاستدلال السببي. ببساطة، تعني القدرة على التعريف ما إذا كان النموذج قادرًا على تحديد العلاقات السببية بوضوح في ظل وجود بيانات كافية وافتراضات معقولة، بدلاً من التسبب في نفس نتائج الملاحظة بسبب افتراضات متعددة مختلفة أو إعدادات النموذج - وهذا يوفر إطارًا جديدًا للتحليل السببي لأبحاث النسخ المكاني.
يعتمد Celcomen على ثلاثة افتراضات أساسية: ① يجب أن يتطابق الارتباط الجيني المتوقع بين الجيران من الدرجة الأولى تمامًا مع البيانات المرصودة؛ ② يجب أن يتطابق الارتباط الجيني المتوقع داخل نفس النقطة/الخلية المكانية مع البيانات المرصودة تمامًا؛ ③ افتراض الكفاية السببية: لا يوجد سبب مشترك غير قابل للقياس بين أزواج الجينات المدروسة.
كما هو موضح في الشكل التالي:ينقسم Celcomen إلى قسمين: وحدة الاستدلال (CCE) ووحدة التوليد (SCE):

(أ) وحدة الاستدلال (CCE):يمكن تعلم العلاقات بين الجينات من بيانات النسخ المكانية (بيانات RNA-seq المكانية) واختياريا من بيانات RNA-seq للخلية المنفصلة (بيانات scRNA-seq المنفصلة). تُظهر أزواج الخلايا-الخلايا المميزة في البيانات المكانية، والخلايا الفردية في بيانات RNA-seq للخلية الفردية، كيف يمكن لـ CCE التمييز بين التفاعلات الجينية داخل الخلايا (H′ab) والتفاعلات الجينية بين الخلايا (Hab).
(ب) وحدة التوليد (SCE):يتم استخدام العلاقات بين الجينات التي تم تعلمها بواسطة CCE لمحاكاة سلوك الأنسجة المعاكس للواقع بعد اضطرابات الخلايا أو الجينات.
* السيناريوهات المضادة للواقع: وهي طريقة تستخدم لدراسة السلوك المحتمل للأنسجة البيولوجية في ظل ظروف افتراضية مختلفة، وتستخدم بشكل أساسي في الاستدلال السببي ومحاكاة التدخل والنمذجة الطبية الحيوية. يتضمن ذلك بناء سيناريو افتراضي لكيفية اختلاف سلوك الكائن الحي البيولوجي عما يتم ملاحظته بالفعل إذا تم تغيير عامل رئيسي (على سبيل المثال، إخراج الجين، أو التدخل الدوائي، أو التغيير في البيئة الخارجية، وما إلى ذلك).
نتائج البحث: نموذج سيلكومين يمكن التعرف عليه في فك تشابك العلاقات السببية
وقد تحقق الباحثون من إمكانية التعرف على نموذج Celcomen في تعلم الهياكل السببية وفك تشابك العلاقات السببية من خلال التجارب على البيانات الاصطناعية المتسقة ذاتيا والبيانات الواقعية.
تتمتع شركة Celcomen بقدرة قوية على الاتساق الذاتي والقدرة على التعرف
كما هو موضح في الشكل أدناه، في مجموعة البيانات الاصطناعية، يظهر Celcomen باستمرار اتساقًا قويًا بين تفاعلات الجينات المستنتجة والبيانات الحقيقية، مما يشير إلى أن Celcomen يتمتع بتناسق ذاتي قوي وبالتالي إمكانية التعرف عليه.
* الاتساق الذاتي: في الإحصاء والتحسين والتعلم الآلي، يعني الاتساق الذاتي عادةً أن افتراضات النموذج واستنتاجاته وعمليات التحسين يمكن أن تتقارب إلى حل مستقر.
* إمكانية التعرف: تشير إلى ما إذا كان من الممكن تحديد معلمات النموذج أو التأثيرات السببية للعلاقة السببية بشكل فريد استنادًا إلى البيانات الملاحظة في نموذج الاستدلال السببي.

كما أكد الباحثون أيضًا ضمانات التعرف على نموذج Celcomen على البيانات البشرية الحقيقية من خلال تطبيقه على أقسام النسخ المكاني للعديد من أجنة البشر، ولاحظوا معاملات ارتباط سبيرمان بين مصفوفتي التفاعل بين الجينات في نطاق 0.5-0.6. علاوة على ذلك، فإن التفاعلات الجينية الملتقطة معقولة بيولوجيًا في المصفوفات داخل الخلايا وبينها لأنها تتبع العمليات البيولوجية داخل الخلايا وبينها المعروفة.
يوضح هذا إمكانية التعرف على مادة Celcomen، مما يؤكد استقرارها وقوتها المفترضة بما يتجاوز البيانات النظرية والاصطناعية، ويمكن أيضًا ملاحظتها في عينات بشرية حقيقية.
القدرة على الفصل السببي: يمكن لـ Celcomen فصل مصادر التباين الداخلي والخارجي في النسخ الجيني بنجاح
ثم قام الباحثون باختبار قدرة Celcomen على فك تشابك البرامج التنظيمية الجينية داخل الخلايا وبينها (القدرة على الفصل). لقد قاموا بتطبيق Celcomen في بيئة سريرية بشرية حقيقية لتحليل مجموعة بيانات النسخ المكاني بدقة خلية واحدة لورم الدماغ البشري (سرطان الدماغ)، كما هو موضح في الشكل أدناه. توصل الباحثون إلى أن شركة Celcomen تمكنت بنجاح من كشف مصادر التنوع الجيني الداخلي والخارجي.

التحقق من صحة الواقع المكاني في الجسم الحي: أداء Celcomen أفضل بكثير من خط الأساس العشوائي
ولإثبات فعالية Celcomen بشكل أكبر، أجرى الباحثون اختبارًا معياريًا على مجموعة بيانات النسخ الكامل في الجسم الحي Perturbmap. وأظهرت النتائج أنه بالنسبة لجميع الآفات، تراوح ارتباط سبيرمان بين التوقعات والقياسات الحية من 0.28 إلى 0.47. لتقييم أهمية هذا الأداء، قارن الباحثون النموذج بخط أساس عشوائي، حيث تم تشغيل Celcomen على بيانات مختلطة عشوائيًا. تظهر النتائج أن أداء Celcomen أفضل بشكل ملحوظ من خط الأساس العشوائي بقيمة p تبلغ 0.0079، كما هو موضح في الشكل أدناه (راجع):

باختصار، يفتح النموذج المقترح في هذه الدراسة طريقًا جديدًا لتحقيق القدرة على التفسير الميكانيكي من خلال الاستدلال السببي. وكما أظهرت التجارب، فبفضل القدرة على التعرف السببي لنموذج Celcomen، تمكن الباحثون من استعادة قيم معلمات الشبكة العصبية بدقة عالية. كان للتقدم الذي أحرزته شركة سيلكومين تأثيرات كبيرة على المجال الطبي الحيوي، على سبيل المثال من خلال الكشف عن كيفية تسبب المرض في فشل الأنسجة وتسهيل فرضيات قابلة للاختبار حول فائدة العلاجات. ستستمر قيمة شركة Celcomen في النمو مع تقدم التكنولوجيا، مما يؤدي إلى تحسينات في نمذجة الأمراض والفهم الميكانيكي.
الذكاء الاصطناعي يفتح آفاقًا جديدة في مجال النسخ المكاني
إن النتائج ذات الصلة التي تم التوصل إليها في هذه الدراسة هي تطور آخر في مجال النسخ المكاني - حيث تعد تكنولوجيا النسخ المكاني واحدة من الاختراقات الكبرى في مجال المعلوماتية الحيوية في السنوات الأخيرة. لقد غيرت هذه التكنولوجيا بشكل كبير نموذج البحث الطبي الحيوي من خلال توفير ميزات جزيئية مفصلة وموضعية مكانيًا، مما يتيح للباحثين البيولوجيين توضيح بنية الأنسجة ووظيفتها بدقة غير مسبوقة.
في السنوات القليلة الماضية، حققت تكنولوجيا النسخ المكاني تطوراً سريعاً وتم تجميع البيانات بشكل مستمر. وعلى هذا الأساس، أشارت المقالة "تعليق العدد الخاص من مجلة نيتشر ميثودز: استخدام "مفتاح" الذكاء الاصطناعي لفتح "قفل" الـأوميكس المكاني" المنشورة في أغسطس 2024 إلى أنيتمتع الذكاء الاصطناعي بالقدرة على إطلاق العنان للإمكانات الكاملة لعلم الجينوم المكاني، مما يسهل دمج مجموعات البيانات المعقدة واكتشاف رؤى طبية حيوية جديدة.
على وجه التحديد، يمكن للذكاء الاصطناعي تسهيل دمج النسخ المكاني وscRNA-seq، مما يسمح للباحثين بقياس ملفات تعريف التعبير الجيني المكاني على مستوى النسخ على مستوى الخلية الواحدة. بالإضافة إلى ذلك، من خلال دمج بيانات الجينوم المكاني والتصوير النسيجي، يمكن للذكاء الاصطناعي إنشاء خرائط نسيجية مكانية ثلاثية الأبعاد عالية الدقة وشاملة تغطي مجموعة واسعة من الوسائط الجينومية. مع تزايد عدد مجموعات البيانات المتاحة، يمكن تدريب نماذج اللغة الكبيرة متعددة الوسائط (MM-LLMs) على الوميكس المكاني، والتصوير الطبي، وبيانات النصوص السريرية للمهام في مجال البحث الطبي الحيوي والطب الدقيق.
أكتوبر 2023نشرت مجموعة الأبحاث التابعة لتشانغ شي هوا في معهد الرياضيات وعلوم الأنظمة، التابع للأكاديمية الصينية للعلوم، ورقة بحثية في مجلة Nature Computational Science.نشر بحثًا بعنوان "دمج بيانات النسخ المكانية عبر ظروف وتقنيات ومراحل نمو مختلفة". أسس هذا العمل أداة تحليل متكاملة جديدة، STAligner، لبيانات النسخ المكانية لشرائح متعددة من الأنسجة البيولوجية من تقنيات مختلفة، ونقاط زمنية مختلفة للتطور، وحالات مرضية مختلفة. ويمكن أن يساعد الباحثين على اكتشاف رؤى بيولوجية جديدة مهمة عند إجراء تحليل النسخ المكاني.
*الورقة الأصلية:
https://www.biorxiv.org/content/10.1101/2022.12.26.521888v1.full.pdf
من أجل حل التحديات المتعددة الأوجه التي تواجه تحليل بيانات النسخ المكاني، في يوليو 2024،مجموعة الأبحاث التابعة للأستاذ المشارك تشانغ تشيانغفينج في كلية علوم الحياة، جامعة تسينغهوا/مركز الابتكار المتقدم في علم الأحياء البنيوي/مركز تسينغهوا-بكين المشترك لعلوم الحياة،تم نشر ورقة بحثية بعنوان "اكتشاف وحدة الأنسجة في بيانات النسخ المكاني بدقة خلية واحدة عبر تضمين الخلايا مع مراعاة التفاعل بين الخلايا" على الإنترنت في مجلة Cell Systems. طورت هذه الدراسة خوارزمية الذكاء الاصطناعي SPACE (تحليل بيانات النسخ المكاني عبر تضمين الخلايا "الواعي بالتفاعل") استنادًا إلى إطار التعلم العميق للمشفر التلقائي للرسم البياني، والذي يمكنه تحديد أنواع الخلايا المكانية واكتشاف وحدات الأنسجة من بيانات النسخ المكاني بدقة خلية واحدة، ويمكن استخدامه لأبحاث النسخ المكاني واسعة النطاق.
وبالنظر إلى المستقبل، ومن خلال الاستفادة من قوة الحوسبة القوية وخوارزميات التعلم العميق للذكاء الاصطناعي، من المتوقع أن يفتح الباحثون أبعادًا جديدة لتحليل النسخ المكاني، وتحسين كفاءة أبحاث الأمراض، وتطوير الأدوية، والطب الشخصي بشكل كبير، وتمكين العلماء من استكشاف التباين المكاني للأنظمة البيولوجية بدقة غير مسبوقة، وبالتالي تحقيق اكتشافات علمية رائدة.
مراجع:
1.https://openreview.net/forum?id=Tqdsruwyac
2.https://www.thepaper.cn/newsDetail_forward_28521641
3.https://www.cas.cn/syky/202310/t20231020_4981872.shtml