البحث والتطوير المستقل! اقترح فريق معهد البحوث الطبية العسكرية نظام MIDAS، والذي يمكن استخدامه للتكامل الفسيفسائي لبيانات متعددة الأوميكس للخلية الواحدة

كما نعلم جميعًا، الخلايا هي أصغر وحدات بناء الحياة. يحتوي جسم الإنسان على 40-60 تريليون خلية، والتي تشكل أساس نمونا وتطورنا. إن إجراء البحوث على مستوى الخلية الواحدة أمر بالغ الأهمية لفهم نمو الخلايا وتطورها بشكل دقيق، فضلاً عن تشخيص الأمراض وعلاجها.
في السنوات الأخيرة، برزت تقنية تسلسل الخلية الفردية كموضوع ساخن في أبحاث علم الأحياء الجزيئي. لقد أنتجت الصناعة كمية كبيرة من بيانات تسلسل الخلية الفردية حول القضايا البحثية السريرية والأساسية مثل المرض والتطور. ومع ذلك، فإن البيانات الضخمة من مجموعات الجينوم المختلفة، وتقنيات التسلسل المختلفة، وعينات التسلسل المختلفة متناثرة ومتنوعة مثل بلاط الفسيفساء على الأرض.إن كيفية دمج مثل هذه البيانات الضخمة والفوضوية وإجراء البحوث الطبية الحيوية هو أحد التحديات المشتركة التي يواجهها العلماء في جميع أنحاء العالم.
ومن أجل التغلب على هذا التحدي، أجرى فريق يينغ شياو مين وفريق بو شياو تشن من معهد الأبحاث الطبية العسكرية مؤخرًا التكنولوجيا الحيوية الطبيعية نشرت المجلة ورقة بحثية بعنوان "التكامل الفسيفسائي ونقل المعرفة لبيانات متعددة الوسائط أحادية الخلية باستخدام MIDAS".اقترحت هذه الدراسة أداة حسابية MIDAS للتكامل الفسيفسائي لبيانات أوميكس متعددة الوسائط للخلية الواحدة (scMulti-omics) (أي أن مجموعات البيانات المختلفة تشترك فقط في بعض طرق الكشف) ونقل المعرفة.استنادًا إلى التعلم الذاتي الإشرافي ومنهجيات المعلومات النظرية، أدركنا لأول مرة وظائف التكامل الشامل لبيانات فسيفساء متعددة الأوميكس ذات الخلية الواحدة، مثل محاذاة الأنماط، واستكمال البيانات، وتصحيح الدفعة، مما يوفر تقنيات أصلية مهمة لبناء خرائط خلايا متعددة الأوميكس واسعة النطاق وتحقيق تحليل متعدد الأوميكس ذات الخلية الواحدة واسعة النطاق ونقل المعرفة.
أبرز الأبحاث:
* تم تطوير خوارزمية جديدة بشكل مستقل تعتمد على الذكاء الاصطناعي التوليدي، MIDAS
* لأول مرة، تم تحقيق وظائف تكامل محاذاة الوسائط، واستكمال البيانات، وتصحيح الدفعة، وما إلى ذلك لبيانات الفسيفساء متعددة الجينومات أحادية الخلية الشائعة
* الخوارزمية الجديدة لها أهمية كبيرة في الكشف عن وظائف الخلايا والآليات التنظيمية الجزيئية ودراسة حدوث الأمراض وتطورها

عنوان الورقة:
https://www.nature.com/articles/s41587-023-02040-y
قم بمتابعة الحساب الرسمي ورد بـ "single cell" للحصول على ملف PDF كامل
مجموعة البيانات: مجموعات بيانات متعددة، أداء تقييم متعدد الأبعاد
من أجل مقارنة مزايا نموذج MIDAS من أبعاد مختلفة، قامت هذه الدراسة ببناء مجموعات بيانات متعددة.
أولاً، لمقارنة MIDAS بالطرق الحديثة،قامت هذه الدراسة بتقييم أداء MIDAS في التكامل الثلاثي الأنماط مع الأوضاع الكاملة (شكل مبسط من التكامل الفسيفسائي)، وهي المهمة التي أطلق عليها فريق البحث اسم "التكامل المستطيل". استخدم الفريق اثنين من الخلايا البشرية ثلاثية الأنماط أحادية الخلية المنشورة خلايا الدم المحيطية مجموعات البيانات (DOGMA-seq وTEA-seq)، والتي تقيس RNA وADT وATAC في كل خلية في نفس الوقت، وبالتالي بناء مجموعات البيانات الكاملة dogma وteadog. ملاحظة: PBMC تعني الخلية الدموية الطرفية أحادية النواة، والتي تستخدم عادة في أنشطة البحث العلمي في مجال علم المناعة.
ثانيًا، لتقييم أداء MIDAS في تكامل الفسيفساء،استنادًا إلى مجموعة البيانات المستطيلة التي تم إنشاؤها مسبقًا، قام فريق البحث بإنشاء 14 مجموعة بيانات غير مكتملة، تم إنشاء كل منها عن طريق حذف كتل دفعات نموذجية متعددة من مجموعة البيانات النموذجية الكاملة.
ثالثًا، من أجل دراسة قدرة نقل المعرفة في MIDAS،قام فريق البحث بإعادة تقسيم مجموعة بيانات الأطلس إلى مجموعة بيانات مرجعية تستخدم لبناء الأطلس ومجموعة بيانات الاستعلام. حصل فريق البحث على مجموعة بيانات مرجعية تسمى atlas-no_dogma عن طريق إزالة DOGMA-seq من الأطلس.
رابعًا، للتحقيق في تطبيق MIDAS في مجموعات بيانات الخلية الواحدة مع تغييرات مستمرة في حالة الخلية،قام فريق البحث ببناء مجموعة بيانات فسيفسائية لخلايا نخاع العظم البشرية من خلال الجمع بين ثلاث عينات مختلفة (ICA وASAP وCITE) تم الحصول عليها من scRNA-seq العام (تسلسل RNA للخلية الواحدة).
هندسة النموذج: نموذج توليدي عميق MIDAS
MIDAS هو نموذج توليدي عميق يمثل التوزيع المشترك لبيانات متعددة الوسائط غير مكتملة للخلية الواحدة، والتي تتضمن قياسات الكروماتين القابل للوصول إلى الترانسبوزاز (ATAC)، والحمض النووي الريبي، والعلامات المشتقة من الأجسام المضادة (ADTs).

على وجه التحديد، يفترض MIDAS أن القياسات متعددة الوسائط لكل خلية يتم إنشاؤها من خلال متغيرين كامنين منفصلين عن الوسائط (الحالة البيولوجية والضوضاء التقنية) استنادًا إلى شبكة عصبية عميقة.يتضمن مدخلها مصفوفة تعداد خلايا مميزة مكونة من عينات مختلفة من الخلايا المفردة (دفعات) ومتجه يمثل معرف دفعة الخلية.قد تأتي عينات الخلايا الفردية هذه من تجارب مختلفة أو يتم إنشاؤها من خلال تطبيق تقنيات تسلسل مختلفة (مثل scRNA-seq، وCITE-seq، وASAP-seq، وTEA-seq)، وبالتالي قد يكون لها ضوضاء تقنية مختلفة، ووسائل، وخصائص.

تتضمن مخرجات MIDAS مصفوفات الحالة البيولوجية والضوضاء الفنية، ومصفوفات العد المقدرة والمصححة للدفعات، والتي يتم من خلالها استيفاء الوسائط والميزات المفقودة في بيانات الإدخال وإزالة تأثيرات الدفعات.يمكن استخدام هذه المخرجات للتحليلات اللاحقة مثل التجميع، وتحديد نوع الخلية، واستنتاج المسار.
يعتمد نظام MIDAS على بنية المشفر التلقائي المتغير (VAE) ويحتوي على شبكة مشفرات معيارية وشبكة فك تشفير. يمكن للأول معالجة بيانات الإدخال الفسيفسائية واستنتاج المتغيرات الكامنة، ويمكن للأخير استخدام المتغيرات الكامنة لبدء عملية إنشاء البيانات الملاحظة. يستخدم MIDAS التعلم الذاتي الإشرافي لمواءمة الوسائط المختلفة في الفضاء الكامن، مما يؤدي إلى تحسين الاستدلال عبر الوسائط في المهام اللاحقة مثل الاستيفاء والترجمة. كما يتم تطبيق الأساليب النظرية للمعلومات لفصل الحالة البيولوجية والضوضاء التقنية لتحقيق تصحيح الدفعة بشكل أكبر.
قام الباحثون بدمج هذه العناصر في أهداف التحسين لهذه الدراسة وحققوا التعلم القابل للتطوير والاستدلال لـ MIDAS من خلال خوارزمية بايز المتغيرة التدرجية العشوائية (SGVB)، مما جعل أيضًا التكامل الفسيفسائي واسع النطاق وبناء الخرائط للبيانات متعددة الوسائط المكونة من خلية واحدة ممكنًا. بالإضافة إلى ذلك، من أجل نقل المعرفة في الأطلس المنشأ لاستعلام مجموعات البيانات باستخدام مجموعات الوسائط المختلفة، قام الباحثون بتطوير مخططات التعلم النقلي ومخططات رسم الخرائط المرجعية المتبادلة لنقل معلمات النموذج وعلامات الخلايا على التوالي.
نتائج البحث: MIDAS متعدد الاستخدامات وفعال
تشير نتائج هذه الدراسة إلى أن MIDAS هي أداة تكامل متعددة الوسائط قوية ومتعددة الاستخدامات وفعالة في خلية واحدة.
قام فريق البحث بمقارنة أداء MIDAS مع تسع طرق تم نشرها مؤخرًا من حيث القضاء على تأثيرات الدفعة والحفاظ على الإشارات البيولوجية.
وتظهر النتائج أنيقوم MIDAS بشكل مثالي بإزالة تأثيرات الدفعة ويحافظ على معلومات نوع الخلية في مجموعات البيانات الكاملة dogma وteadog-full، في حين يكون أداء الطرق الأخرى أقل قليلاً.على سبيل المثال، لم يخلط BBKNN+average، وMOFA+، وPCA+WNN، وScanorama-embed+WNN، وScanorama-feat+WNN الدفعات المختلفة بشكل جيد، وكانت مجموعات الخلايا التي تم إنشاؤها بواسطة PCA+WNN وScanorama-feat+WNN غير متسقة إلى حد كبير مع أنواع الخلايا.

النتائج التي تم الحصول عليها من التقييم والتحليل النهائي
من حيث محاذاة الدفعة - يتمكن MIDAS من محاذاة الخلايا من دفعات مختلفة بشكل جيد للغاية وتجميعها بشكل متسق مع تسميات نوع الخلية.لا تخلط الطرق الأخرى دفعات مختلفة من الخلايا بشكل جيد وتنتج مجموعات غير متوافقة إلى حد كبير مع نوع الخلية. يظهر معيار scIB أن MIDAS يتمتع بأداء مستقر في مهام الفسيفساء المختلفة وأن نتيجته الإجمالية أعلى بكثير من الطرق الأخرى.

درجات تقييم الأداء النوعي والكمي
من حيث قدرة نقل المعرفة، قام الباحثون بمحاذاة كل مجموعة بيانات استعلام مع مجموعة البيانات المرجعية واستخدموا أقرب k جيران (كيه إن إن) خوارزمية لنقل تسميات نوع الخلية. بعد رسم الخرائط وتصور الحالات البيولوجية، يمكن ملاحظة أن نتائج رسم الخرائط المرجعية لمجموعات بيانات الاستعلام المختلفة متسقة ومتسقة للغاية مع نتائج تكامل الخرائط التي تم الحصول عليها من خلال مجموعة البيانات الكاملة للعقائد. يتيح MIDAS نقل العلامات بشكل قوي ودقيق، مما يلغي الحاجة إلى التكامل الجديد والتحليل اللاحق.وبالتالي، يمكن استخدام MIDAS لنقل المعرفة على مستوى الأطلس إلى أشكال مختلفة من مجموعات بيانات المستخدم دون تكاليف تدريب باهظة أو تحليل معقد لاحق.

باختصار، من خلال نمذجة عملية توليد بيانات فسيفساء الخلية الواحدة، يمكن لـ MIDAS فصل الحالات البيولوجية والضوضاء الفنية عن المدخلات بدقة وضبط الوسائط بقوة لدعم التحليلات المتكاملة متعددة المصادر وغير المتجانسة. يوفر MIDAS نتائج دقيقة وقوية ويتفوق على الطرق الأخرى عند تنفيذ مهام تكامل الفسيفساء المختلفة.
علاوة على ذلك، ينقل MIDAS المعرفة بكفاءة ومرونة من مجموعات البيانات المرجعية إلى مجموعات بيانات الاستعلام، مما يجعل من السهل معالجة بيانات متعددة الجينومات الجديدة. بفضل الأداء الممتاز في تقليل الأبعاد وتصحيح الدفعات، يدعم MIDAS التحليل الحيوي الدقيق في مجرى النهر. بالإضافة إلى تمكين التجميع وتحديد نوع الخلية للبيانات الفسيفسائية، يمكن لـ MIDAS أيضًا المساعدة في التحليل شبه الزمني للخلايا ذات الحالات المتسلسلة، وهو أمر ذو قيمة خاصة عندما لا تتوفر بيانات RNAomics. يعد برنامج MIDAS قادرًا على محاذاة مجموعات البيانات غير المتجانسة وتحديد أنواع الخلايا، حتى الأنواع الجديدة، عند نقل المعرفة بين الأنسجة المختلفة.
يستمر تحليل الجينومات المتعددة للخلية الواحدة في التقدم
وكما نستطيع أن نرى العالم من خلال حبة رمل، يستطيع العلماء أيضاً رؤية الأكوان المتعددة، أو بشكل أكثر دقة، "الكون المتعدد"، من داخل خلية صغيرة.
تُستخدم مجموعة من التقنيات المختلفة لدراسة الجينوم، والنسخ الجيني، والجينوم فوق الجيني، وغيرها من خصائص الخلايا الفردية، وعلى الرغم من أن كل تقنية مفيدة في حد ذاتها، فإن تحليلها المشترك - المعروف باسم التحليل المتعدد الأوميكس - يوفر صورة أكثر اكتمالاً.في الوقت الحالي، وبفضل علم الجينوم متعدد الخلايا، أحرز علم الأحياء الخلوي والبحث الترجمي تقدماً كبيراً، إلا أن تكامل البيانات وتحليلها لا يزال يشكل تحدياً للعديد من العلماء.
وبناءً على ذلك، بالإضافة إلى فريق Ying Xiaomin وفريق Bo Xiaochen المذكورين أعلاه، هناك المزيد من فرق البحث والشركات التي تحذو حذوها، وتحاول استكشاف طرق أكثر كفاءة وبساطة لمعالجة البيانات.
على سبيل المثال،وتستمر الأساليب التحليلية مثل منصة الخلية الفردية Chromium من 10x Genomics في التوسع، مما يسمح بتقييم العديد من السمات الخلوية في مجموعات مختلفة.بما في ذلك التعبير عن جين النسخ الكامل، والتعبير عن البروتين، والاقتران كامل الطول مستقبل الخلايا التائية وتسلسل BCR، وخصوصية المستضد، وتحليل الكروماتين المفتوح. فيما بينها سيل رينجر يستخدم الحل مجموعة من خطوط أنابيب التحليل المجانية وسهلة الاستخدام لتحليل بيانات الخلية الفردية في Chromium، والتي يمكنها معالجة البيانات الخام وإجراء محاذاة لحساب الجينات. بالإضافة إلى ذلك، يمكن أيضًا دمج Cell Ranger مع منصات التحليل السحابية لمراقبة البيانات وإدارتها ومعالجتها.
على سبيل المثال،في 2 مايو 2022، نشرت مجموعة البحث التابعة لـ Gao Ge في جامعة بكين/مختبر Changping ورقة بحثية بعنوان "تكامل بيانات الخلية الواحدة متعددة الأوميكس والاستدلال التنظيمي مع التضمين المرتبط بالرسم البياني" في مجلة Nature Biotechnology.تم اقتراح طريقة تعلم عميق تسمى GLUE تعتمد على استراتيجية اقتران الرسم البياني، والتي حققت لأول مرة التكامل الدقيق غير الخاضع للإشراف والاستدلال التنظيمي لملايين البيانات متعددة الجينومات للخلية الواحدة.
إن التطوير المستمر لأدوات وبرامج المعلوماتية الحيوية هذه سيساعد الباحثين على تفسير مجموعات البيانات المتعددة المعقدة وتعزيز تطوير علم الأحياء الخلوي. وهو ذو أهمية كبيرة في الكشف عن وظائف وآليات التنظيم الجزيئي للخلايا ودراسة حدوث الأمراض وتطورها، وفي نهاية المطاف يعود بالنفع على الناس.
مراجع:
1.https://www.chinagut.cn/articles/ss/02bc1e86e3734acebff57395d6e044a6
2.https://m.ebiotrade.com/newsf/2023-10/20231023151001602.htm
3.https://news.bioon.com/article/e49a810955a1.html
4.https://m.thepaper.cn/newsDetail_forward_26137031