IJCAI 2025 | التحقق من صحة 7 مجموعات بيانات: يحقق scSiameseClu أداء SOTA في مهام التجميع أحادية الخلية غير الخاضعة للإشراف

في الماضي، كان تركيز أبحاث علوم الحياة منصبًّا على مستوى "المجموعات السكانية". من خلال تقنية تسلسل الحمض النووي الريبي (RNA-Seq) التقليدية، يُمكننا الحصول على متوسط التعبير الجيني للخلايا في مجموعة سكانية، ولكن هذا يعني أن خصائص بعض الخلايا النادرة قد تكون غامضة.ويأمل الباحثون اليوم بشكل متزايد في سماع أصوات "الخلايا الفردية".
يُعد تسلسل الحمض النووي الريبوزي أحادي الخلية (scRNA-seq) تقنيةً ثوريةً تُمكّن من التقاط المعلومات الجينية الشاملة لخلية واحدة وسط صخب ونشاط مجموعة الخلايا، مما يكشف عن سماتٍ معقدةٍ خفية. لفهم هذه المعلومات المعقدة،هناك خطوة أساسية مطلوبة - وهي تجميع الخلايا.يعد تجميع الخلايا على أساس التشابه في التعبير الجيني عملية صعبة.
تتميز بيانات scRNA-seq بضوضاء عالية، وتناثر كبير، وتعدد أبعاد كبير. حتى أكثر طرق الشبكات العصبية البيانية (GNNs) فعاليةً تُعاني حاليًا من مشاكل "عدم كفاية بناء الرسم البياني" و"انهيار التمثيل".كما هو موضح في الشكل أدناه، تقاربت نتائج تمثيل كلٍّ من scNAME القائمة على التعلم العميق وscGNN القائمة على الشبكة العصبية البيانية تدريجيًا، مما يشير إلى درجات متفاوتة من انهيار التمثيل. بعبارة أخرى، لا تزال أداة التجميع القادرة على الحفاظ على الاختلافات الخلوية غير موجودة.

لمعالجة هذه المعضلة، اقترحت فرق بحثية من الأكاديمية الصينية للعلوم، وجامعة شمال شرق الزراعة، وجامعة ماكاو، وجامعة جيلين، إطارًا جديدًا لتجميع التوائم، scSiameseClu، لتفسير بيانات تسلسل الحمض النووي الريبوزي (RNA-seq) للخلية الواحدة. يهدف هذا الإطار إلى التقاط المعلومات المعقدة بين الخلايا وتحسينها، مع تعلم تمثيلات تمييزية وقوية على مستوى الجينات والخلية في الوقت نفسه.يتضمن الإطار ثلاث وحدات رئيسية: التحسين المزدوج، والاندماج المزدوج، وتجميع الإرسال الأمثل.من خلال هذا التصميم، يمكن لـ scSiameseClu التخفيف بشكل فعال من مشكلة انهيار التمثيل، وتحقيق تصنيف أكثر وضوحًا لمجموعات الخلايا، وتوفير أداة قوية لتحليل بيانات scRNA-seq.
تم اختيار البحث ذي الصلة، المعنون "scSiameseClu: إطار عمل التجميع السيامي لتفسير بيانات تسلسل الحمض النووي الريبي للخلية الواحدة"، لـ IJCAI 2025، وتم نشر نسخة مسبقة منه على arXiv.
أبرز الأبحاث:
* يمكن لبرنامج scSiameseClu التقاط معلومات معقدة من التعبير الجيني وخرائط الخلايا لتعلم تضمينات الخلايا التمييزية والقوية، مما يؤدي إلى تحسين نتائج التجميع والمهام اللاحقة؛
* تم تقديم وحدات رئيسية وبناء إطار عمل كامل لـ "التعزيز والاندماج والتجميع"؛
* تتفوق scSiameseClu على طرق SOTA في التجميع والمهام البيولوجية الأخرى.

عنوان الورقة:
اتبع الحساب الرسمي ورد على "إطار عمل التجميع المزدوج" للحصول على ملف PDF كامل
مزيد من أوراق البحث الرائدة في مجال الذكاء الاصطناعي:
https://hyper.ai/papers
7 مجموعات بيانات واقعية تغطي أنسجة وأنواعًا متعددة
لتقييم أداء scSiameseClu بشكل شامل، أجرى فريق البحث تجارب على سبع مجموعات بيانات scRNA-seq حقيقية.تم استبعاد الجينات المُعبَّر عنها في أقل من ثلاث خلايا، وتطبيعها، وتحويلها لوغاريتميًا (logTPM)، واختيار جينات شديدة التباين بناءً على متوسطات وعتبات تشتت مُحددة مسبقًا. تتكون مجموعات البيانات المُعالجة مسبقًا هذه من ثلاث عينات من الفئران وأربع عينات من البشر، تغطي أنواعًا مُتنوعة من الخلايا (مثل: شبكية العين، والرئة، والكبد، والكلى، والبنكرياس)، مع اختلافات في أعداد الجينات، وأعداد أنواع الخلايا، ودرجة الندرة. تُقدم الصورة التالية لمحة عامة عن مجموعات البيانات المُستخدمة.

الوحدات الثلاث لإطار التجميع المزدوج
يُعدّ scSiameseClu الذي اقترحه فريق البحث إطار عمل لتجميع البيانات ثنائي التجميع، ويعتمد على مُرمِّزات رسومية مُحسَّنة. ويتكوّن الإطار من ثلاث وحدات:
(أ) وحدة التعزيز المزدوجة؛
(ii) وحدة الاندماج السيامية؛
(ثالثا) التجميع الأمثل للنقل من أجل التعلم الذاتي الإشرافي.

وحدة التحسين المزدوجة
وحدة التعزيز المزدوجة في هذه الدراسة هي "تعزيز التعبير الجيني + تحسين خريطة الخلية"،لتحسين متانة النموذج تجاه الضوضاء وقدرته على التعميم على مجموعات بيانات مختلفة، أضاف فريق البحث ضوضاء غاوسية لمحاكاة التقلبات الطبيعية في التعبير الجيني، مما عزز المتانة على مستوى الجينات. ومن خلال اعتماد استراتيجيات اضطراب الحافة وانتشار الرسم البياني، أنتج الفريق مصفوفات مجاورة مُحسّنة، على التوالي، لمعالجة الرسم البياني للخلايا من وجهات نظر مختلفة ولكنها متكاملة، مما مكّن النموذج من رصد التفاعلات المتنوعة بين الخلايا.
وحدة الاندماج المزدوج
وحدة الاندماج المزدوج (SFM) هي التصميم المبتكر الأساسي لـ scSiameseClu.تم اعتماد استراتيجية تجمع بين "تحسين الارتباط المتبادل" و"دمج المعلومات التكيفي".على وجه التحديد، يقوم الأول ببناء مشفر ذاتي لمعالجة مصفوفة التعبير الجيني المعززة ومصفوفة خريطة الخلية بشكل منفصل، ومواءمتها ودمجها في الفضاء الكامن؛ ويقوم الأخير بدمج علاقات الخلايا من خلال تضمين التجميع، والتعلم الذاتي الارتباط، وإعادة التنظيم الديناميكي، وتصفية المعلومات المكررة بشكل فعال والاحتفاظ بالميزات التمييزية في الفضاء الكامن، مما يتيح له تعلم التمثيلات القوية والمعنوية، وبالتالي تحسين أداء التجميع مع تجنب انهيار التمثيل.
بالإضافة إلى ذلك، يقدم الإطار مصطلح تنظيم الانتشار لتقييد اتساق التضمين الأصلي والتضمين بعد انتشار الرسم البياني باستخدام تباعد جينسن-شانون، مما يخفف من مشكلة التنعيم الزائد للشبكات العصبية البيانية مع الحفاظ على تدفق المعلومات.
التجميع الأمثل للإرسال
استخدم فريق البحث أولاً توزيع t للطلاب لحساب التشابه بين الخلايا ومراكز المجموعات، ثم استخدم خوارزمية Sinkhorn لمواءمة وتصحيح التوزيع المتوقع.ويضمن هذا توازن توزيع المجموعة ويتجنب مشكلة الانهيار.
التحقق المتعدد من الأداء المتفوق لإطار scRNA-seq
إن الأداء المتفوق لإطار عمل scRNA-seq في التجميع هو ثمرة عمليات تحقق تجريبية مكثفة. أولًا، أُجريت مقارنة شاملة مع الطرق السائدة. اختار فريق البحث تسعة نماذج معيارية متطورة، بما في ذلك طرق التجميع التقليدية، وطرق تعتمد على الشبكات العصبية العميقة، وطرق تجميع تعتمد على الشبكات العصبية البيانية. باستخدام مجموعات البيانات السبع الواقعية المذكورة أعلاه، قيّم الفريق الأداء باستخدام ثلاثة مقاييس تجميع معروفة على نطاق واسع: الدقة (ACC)، والمعلومات المتبادلة المعيارية (NMI)، ومؤشر راند المُعدَّل (ARI).
تُظهر النتائج أن scSiameseClu يتمتع بميزة واضحة في جميع المؤشرات الثلاثة. ليس فقط لأن النتيجة الإجمالية أعلى، بل لأن الأداء مستقر أيضًا عبر مجموعات البيانات المختلفة.كما يمكن رؤيته من المقارنة البصرية لمجموعة بيانات خلايا الكبد البشرية، يمكن لـ scSiameseClu إنشاء مجموعات ذات حدود واضحة وفصل جيد مقارنة بنماذج المعايير الأخرى، ويمكنه التمييز بشكل فعال بين أنواع الخلايا المختلفة.

ثانيًا، في التجارب اللاحقة، أجرى فريق البحث شرحًا لأنواع الخلايا. في مجموعة بيانات البنكرياس البشري، استخدموا أداة Seurat لتحديد الجينات ذات التعبير التفاضلي والجينات الواسمة. ثم قارنوا أفضل 50 جينًا واسمًا تم تحديدها بواسطة scSiameseClu وطرق أخرى بالمعيار الذهبي. أظهرت النتائج أن معظم المجموعات كانت متشابهة بشكل يتجاوز 90%، مما يُطابق بدقة أنواع الخلايا المعروفة. كما حدد النموذج الجينات الواسمة لكل مجموعة.
وأظهرت تجارب تصنيف الخلايا الإضافية أيضًا أن scSiameseClu تفوق على النموذج الأساسي في مؤشرات متعددة مثل الدقة وقيمة F1، مما يؤكد مزاياه في الكشف عن تباين الخلايا والتمييز بين الأنواع.


أخيرًا، في تجارب الاستئصال، أزال فريق البحث المكونات الرئيسية لـ scSiameseClu (بما في ذلك فقدان SFM، وفقدان ZINB، وفقدان OTC) من مجموعة بيانات خلايا شبكية فئران شيخار، وقارنوها بالنموذج الكامل لتقييم فعالية كل وحدة من وحدات الإطار. أظهرت النتائج أن كل مكون حسّن الأداء بشكل ملحوظ، بينما أدى غياب أي مكون إلى انخفاضه. أظهر تفكيك وحدة SFM بشكل أكبر، وإزالة التحسين المعتمد على الخلية، والتحسين المعتمد على الجهد، وتنظيم الانتشار، وفقدان إعادة البناء، انخفاضًا في الأداء. ومع ذلك، أظهر scSiameseClu، مع تضمين جميع مكوناته، تحسينات كبيرة في الأداء، مما يُظهر تكامله الفعال للمعلومات الجينومية والخلوية.

نحو عصر جديد من ازدهار علم الأحياء الحسابي
من منظور علم الأحياء الحسابي، نجح scSiameseClu بشكل فعال في حل المشكلة طويلة الأمد المتمثلة في تحليل التباين الخلوي في علم الأحياء من خلال الاستفادة من أساليب مثل التعزيز المزدوج، والاندماج التوأمي، وتجميع النقل الأمثل في علوم الكمبيوتر.يمكن القول إنها مجرد نوع جديد من أدوات التجميع وواحدة من العديد من المحاولات الناشئة في مجال التكامل العميق بين الأساليب الحسابية وعلوم الحياة.علاوة على ذلك، ومع التطور السريع لخوارزميات الذكاء الاصطناعي وعلم الأحياء، تظهر نتائج جديدة باستمرار.
اقترح فريق البروفيسور تشانغ يانغ في الجامعة الوطنية في سنغافورة إطار عمل عالي الدقة للتنبؤ ببنية الحمض النووي الريبي (RNA) قائم على التعلم العميق، ويُسمى DRfold2. يدمج DRfold2 نموذج لغة مركب RNA مُدرّب مسبقًا (RCLM) ووحدة بنية خالية من الضوضاء للتنبؤ ببنية الحمض النووي الريبي من البداية إلى النهاية. نُشرت نتائجهم على منصة bioRxiv للمطبوعات المسبقة تحت عنوان "التنبؤ ببنية الحمض النووي الريبي من البداية باستخدام نموذج لغة مركب وتعلم من البداية إلى النهاية خالي من الضوضاء".
عنوان الورقة:
https://www.biorxiv.org/content/10.1101/2025.03.05.641632v1
اقترح فريق بحثي من كلية بايلور للطب في الولايات المتحدة الأمريكية إطار عمل قائم على التعلم العميق للتنبؤ بتعديلات ما بعد الترجمة البروتينية، يُسمى DeepMVP. يدمج DeepMVP مجموعة بيانات PTMAtlas عالية الجودة للتنبؤ بدقة بمواقع PTM والتغيرات الناتجة عن المتغيرات غير المترجمة. نُشرت نتائجهم في مجلة Nature Methods تحت عنوان "DeepMVP: نماذج التعلم العميق المُدربة على بيانات عالية الجودة تتنبأ بدقة بمواقع PTM والتغيرات الناتجة عن المتغيرات".
عنوان الورقة:
https://www.nature.com/articles/s41592-025-02797-x