CellFM: نموذج أساسي مُدرب على نطاق واسع باستخدام الترانسكريبتوم لـ 100 مليون خلية بشرية

يقدم تسلسل الخلايا الفردية التحليل النسخي على مستوى الخلية الواحدة، مكتشفًا التنوع الخلوي بدقة غير مسبوقة. ومع ذلك، تعاني تحليلات البيانات الحالية للخلايا الفردية من الضوضاء الداخلية للبيانات، وتأثيرات الدفعات، والندرة، مما يؤكد الحاجة إلى نموذج موحد لتمثيل حالات الخلايا. لتجاوز هذه المشكلة، ركزت العديد من الجهود الحديثة على تدريب نماذج أساسية للخلايا الفردية بناءً على قواعد بيانات كبيرة. ومع ذلك، لا تزال النماذج الأساسية البشرية الحالية محدودة بحجم بيانات التدريب ومعلمات النموذج. هنا، جمعنا قاعدة بيانات متنوعة تتكون من 100 مليون خلية بشرية، حيث تم تدريب نموذج أساسي للخلايا الفردية (CellFM) يحتوي على 800 مليون معلمة عليها. لتحقيق التوازن بين الكفاءة والأداء، تم تدريب النموذج باستخدام إطار RetNet المعدل على MindSpore. أظهرت التجارب الواسعة أن CellFM يتفوق على النماذج الموجودة في تصنيف الخلايا، وتوقع الاضطرابات، وتوقع وظائف الجينات، وإيجاد العلاقات بين الجينات.