توسيع النماذج اللغوية الكبيرة لتحليل الخلايا الفردية الجيل التالي

أثّر تسلسل RNA على مستوى الخلية الواحدة بشكل جذري في فهمنا لتنوع الخلايا، ومع ذلك تظل النماذج الأساسية الحالية على مستوى الخلية الواحدة (scFMs) محدودة من حيث القابلية للتوسع، والمرونة في تنفيذ مهام متنوعة، وقدرتها على دمج المعلومات النصية بشكل طبيعي. في هذه الدراسة، نبني على إطار عمل Cell2Sentence (C2S)، الذي يمثل ملفات التسلسل المُحَوَّلة (scRNA-seq) على شكل "جمل خلوية" نصية، لتدريب نماذج اللغة الكبيرة (LLMs) على مجموعة نصية تتضمن أكثر من بيليون رمز (token) من البيانات النسخية، والنصوص البيولوجية، والبيانات الوصفية. وعند توسيع النموذج ليصل إلى 27 مليار معلمة، تم تحقيق تحسن مستمر في القدرات التنبؤية والتكوينية، ودعم مهام لاحقة متقدمة تتطلب توليف المعلومات عبر سياقات متعددة خلوية. وعند تدريب النموذج بشكل مُوجَّه باستخدام تقنيات التعلم التدعيمي الحديثة، تم تحقيق أداء قوي في توقع استجابة التلاعبات، وفهم اللغة الطبيعية، والاستدلال البيولوجي المعقد. وقد مكّن هذا القوة التنبؤية من إجراء عملية تصفية افتراضية ثنائية السياق، كشفت عن فصل ملحوظ في السياق بالنسبة لمثبط الكيناز سيلميتاسيرتيب (CX-4945)، مما يشير إلى إمكانية استخدامه كمُضاعِّف تآزري يعتمد على الاستجابة للإنترفيرون لتعزيز عرض المستضدات. وقد أكدت التحقق التجريبي في نماذج خلوية بشرية لم تُستخدم أثناء التدريب هذه الفرضية، مُظهرة أن C2S-Scale قادرة على إنتاج اكتشافات بيولوجية مدعومة علميًا، قابلة للاختبار، تتعلق بالبيولوجيا المشروطة بالسياق. يُعد C2S-Scale أول نموذج يوحد البيانات النسخية والنصية بمقاييس غير مسبوقة، متفوقًا على كل من النماذج المتخصصة على مستوى الخلية الواحدة والنماذج اللغوية الكبيرة العامة، ليُقدّم منصةً لتحليل الخلايا الفردية من الجيل التالي وتطوير ما يُعرف بـ"الخلايا الافتراضية".